精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Tenstorrent推出AI芯片Grayskull,兼顧高效能和高擴展性的創新架構

牽手一起夢 ? 來源:DesignNews ? 作者:佚名 ? 2020-05-15 14:55 ? 次閱讀

5月14日消息,長期神秘的加拿大AI芯片初創企業Tenstorrent終于在今年有了新動向,4月7日,Tenstorrent發布其首款AI芯片Grayskull,算力最高可達368TOPS,相當于是高通2019年12月發布的旗艦手機SoC驍龍865算力的24倍。

相較市面上現有AI芯片產品,Grayskull不僅能兼顧高算力和低能耗,還具備高度可擴展的特點,可擴展到10萬個節點,支持從小型嵌入式設備到大型數據中心的AI推理和訓練任務。

一、兼顧高效能和高擴展性的創新架構

Tenstorrent在2016年創立,總部位于加拿大多倫多市。在創辦Tenstorrent之前,其創始人兼CEO Ljubisa Bajic曾在NVIDIA芯片制造部門擔任高級架構師,還曾在AMD擔任IC設計師和架構師。

Bajic不認為像NVIDIA這樣的芯片公司會很快消失,但是該公司遲早會研發不是GPU的AI芯片產品。

Bajic總結,當今對人工神經網絡的研究主要集中于兩個陣營:一是傾向于在CPU、GPU等硬件上進行密集的矩陣計算,當前已大規模落地;二是對脈沖神經網絡(SNN,Spiking neural network)的研究,目前尚處研究階段,還未實現廣泛應用。

密集矩陣算法能夠提高芯片密集計算能力,但是能耗較高,常通過以太網擴展到其他機器進行通信

SNN通過電活動的尖峰來傳遞信息,運作方式更接近自然神經元。每次根據神經網絡的行為,只有一定比例的神經元會被激活,這致使網絡運行時能耗較低、條件執行效率較高。

但SNN無法保證硬件效率。Bajic解釋,訓練SNN時,設計人員試圖用微分方程來直接描述自然神經元的運作過程,然后盡可能在硬件上實現這些運作方式。“對于工程師來說,這個過程基本上就是把許多標量處理器核心連接到標量網絡上。”Bajic說。

據Bajic介紹,Tenstorrent希望能夠設計出兼顧硬件效率、條件執行效率、存儲效率和高度可擴展性(超過10萬個芯片)的產品。

二、動態消除不必要計算,大幅節省功耗和運算時間

如何才能兼顧上述特性呢?研究人員設計了一個能實現細粒度條件執行、動態稀疏處理的完全可編程體系結構,可將較大數據組的復雜計算任務分解成多個較小數據組的計算,由芯片上的各個內核進行獨立的處理。為了避免性能損失,Tenstorrent在這些數據組上啟動了控制流。

“在運行較小矩陣時,我們可以加上‘if’語句來判別是否運行它們,如果要運行它們,還可以決定是用較低精度、全精度或是兩者之間的其他精度。”Bajic說。通過動態消除不必要的計算,該方法打破了計算/帶寬需求與模型大小之間的直接聯系,使得模型可以適應于已提出的確切輸入,并對模型進行訓練。

這種創新的設計方法一方面實現了非常出色的能效,但另一方面也帶來了關于軟件和可擴展性的挑戰。

首先需要與硬件適配的新軟件堆棧。Bajic稱:“問題在于,這個領域內許多公司推出的軟件堆棧都假設有一套固定的維度和固定的工作要運行。因此,為了能夠在運行時啟用適配功能,需要硬件和軟件堆棧都能支持它。”

而Tenstorrent的設計將許多決策程序從編譯時轉到運行時,以實現正確大小的輸入。“當我們在運行時去除一些東西后,我們確切地知道了這些東西有多大了。所以要跟上硬件的能力,對軟件來說是相當大的挑戰。”Bajic說道。

其次是可擴展性。創建可擴展到10萬個節點的體系架構,意味著在沒有共享內存空間的情況下進行操作,緩存一致性會致使難以擴展到超過幾百個節點,這是Tentorrent想要避開的麻煩。

具體而言,Tenstorrent使用一系列Tensix內核來通過網絡實現通信。Tensix內核陣列與一個定制的雙2D環形片上網絡(NoC)集成在一起,這些網絡可以在芯片外擴展,從而創建包含成百上千個處理器的大型芯片到芯片集群,并且最小化了用于調度粗粒度數據傳輸的軟件負擔。

每個Tensix內核的算力約為3TOPS,包含1個高利用率的數據包處理器、1個可編程的單指令流多數據流(SIMD)、1個密集數學計算模塊、5個高效且靈活的單流(single-issue)的精簡指令集(RISC)。

這5個RISC內核是相同的,但不一定同時運行相同的代碼。它們具有基本的算術和邏輯運算能力,并且可以管理流控制,還會爭奪共享計算引擎中更先進的硬件資源,在該硬件資源上執行矩陣、卷積和矢量/ SIMD操作。 此外,每個Tensix內核還具有1MB的本地靜態隨機存取存儲器(SRAM)。

假設一個神經網絡層有兩個需要相乘的矩陣,該神經網絡層的輸入被分解成“以太網大小的塊”,即子張量,然后將這些張量幀化為一組固定長度的數據包,分布在多個Tensix內核中。

每個數據包都會進入內核的SRAM緩沖區中,觸發軟件去找到數據包并運行一個硬件解包引擎,硬件解包引擎去除所有的數據包幀、解釋其含義、解壓縮數據包,在RISC內核的指導下發送到計算引擎。再往下進行,這些數據包被重新打包并存儲在SRAM緩沖區中,以準備傳輸到下一個Tensix內核中。

靈活的并行化和完整的可編程性可實現運行時適應和工作負載平衡,從而有助于節省功耗并縮短運行時間,從而顯著節省成本。

三、Grayskull芯片:一顆相當于24顆驍龍865

基于其架構設計理念,Tenstorrent可打造能執行推理和訓練任務的高性能芯片,可支持小至小型嵌入式設備、大至大型數據中心的工作負載部署。

Tenstorrent研發的首款推理芯片Grayskull包含120個Tensix內核、120MB本地SRAM和8個通道的LPDDR4,支持高達16GB的外部DRAM和16通道的PCI-E Gen4。

在75W總線供電的PCIe卡上,Grayskull的算力最高可達到368TOPS。預計今年晚些時候,Tenstorrent將推出功耗為300W的訓練設備。

相比之下,高通2019年發布的驍龍865芯片算力為15TOPS。也就是說,一顆Grayskull芯片就能完成約24顆驍龍865芯片才能完成的運算量。

在條件執行的情況下,使用BERT-Base的SQuAD 1.1數據集,Grayskull芯片可實現高達23345句/秒的性能,使其性能比當今的領先解決方案高出26倍。

結語:第二代Tensix核心芯片或于秋季發布

許多機構和研究者都在推進AI芯片的設計、研發。AI芯片可以優化許多領域的生產流程,比如,或可用于提升疾病追蹤模型、疫苗研發工具的效率,還可推動情感人工智能等新興領域的發展。

這些研究存在一個共同的問題——如何節約總擁有成本(TCO)。在Bajic看來,許多現有AI芯片方案非常耗電,而通過架構創新,兼顧高性能和低功耗的AI芯片將推動AI在你的智能可穿戴設備上完成運算任務。

在推出Grayskull芯片的同時,Tenstorrent也在推進第二代Tensix核心芯片的研發。第二代Tensix核心芯片被稱為Wormhole,核心架構和Grayskull相同,且使用很多以太網鏈接來進一步擴展系統規模,預計于2020年秋季發布。

責任編輯:gt

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19168

    瀏覽量

    229153
  • 芯片
    +關注

    關注

    454

    文章

    50430

    瀏覽量

    421860
  • AI
    AI
    +關注

    關注

    87

    文章

    30171

    瀏覽量

    268428
  • Tenstorrent
    +關注

    關注

    0

    文章

    11

    瀏覽量

    135
收藏 人收藏

    評論

    相關推薦

    單臂螺旋天線:無線通信中的高效能解決方案

    深圳特信電子|單臂螺旋天線:無線通信中的高效能解決方案
    的頭像 發表于 10-31 09:04 ?153次閱讀

    RISC-V擁有巨大市場潛力的原因

    AI技術深度融合,例如Meta基于RISC-V架構推出AI推理加速器,通與谷歌合作推出基于RI
    發表于 09-30 14:20

    COB燈條以其靈活高效能節能的特點走進裝修行業

    COB燈條以其高效能、節能特性、靈活的設計以及豐富的色溫選擇,在裝修行業中展現出了廣闊的應用前景。
    的頭像 發表于 09-05 16:21 ?189次閱讀
    COB燈條以其靈活<b class='flag-5'>高效能</b>節能的特點走進裝修行業

    三星電子攜手通,打造高效能芯片

    三星電子攜手通,共同組建技術先鋒隊,旨在招攬業界精英,傾力打造專為XR(擴展現實)領域設計的高效能芯片。這一舉措標志著三星電子在XR市場邁出了堅實的一步,預示著與蘋果等科技巨頭的競爭
    的頭像 發表于 08-08 15:29 ?858次閱讀

    DS1008JN:精準與高效能的完美結合

    DS1008JN:精準與高效能的完美結合
    的頭像 發表于 07-24 14:55 ?290次閱讀

    DCAC電源模塊:為新能源汽車充電系統提供高效能源轉換

    BOSHIDA DC/AC電源模塊:為新能源汽車充電系統提供高效能源轉換 DC/AC電源模塊是新能源汽車充電系統中至關重要的組件,它能夠將直流電轉換為交流電,為電動車提供高效能源轉換。隨著人們對可
    的頭像 發表于 06-25 13:17 ?819次閱讀
    DCAC電源模塊:為新能源汽車充電系統提供<b class='flag-5'>高效能</b>源轉換

    M31宣布推出先進LPDDR內存IP,助力HPC高效能運算應用

    M31宣布推出最新的LPDDR內存IP解決方案,以滿足高效能運算(HPC)應用市場日益增長的需求,甚至放眼人工智能(AI)領域,除了算力之外,還有儲存、快速擷取、加密和巨量信息分析,因此,AI
    的頭像 發表于 06-24 11:24 ?477次閱讀
    M31宣布<b class='flag-5'>推出</b>先進LPDDR內存IP,助力HPC<b class='flag-5'>高效能</b>運算應用

    解決方案丨PPEC車載DCDC轉換器:新能源汽車的高效能源動力系統

    。三、核心功能 PPEC車載DC/DC轉換器具有多種功率型號、輕量化設計,以及高效能穩定性和全面的保護特性,為新能源汽車車載電源系統提供穩定可靠的高效解決方案。PPEC車載DC/DC轉換器核心
    發表于 06-20 11:39

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    2024年3月19日,[英偉達]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構BLACKWELL,并推出基于該架構的超級
    發表于 05-13 17:16

    UVLED固化烘箱:如何實現高效能、低能耗的固化過程?

    。 首先,UVLED固化烘箱的核心技術——LED發光技術,是實現高效能固化的關鍵。LED光源具有發光效率、能耗低的特點,其能量轉換效率遠高于傳統光源。這意味著UVLED固化烘箱在固化過程中,能夠更快速、更均勻地照射到材料表面,從而引發光敏材
    的頭像 發表于 05-09 14:44 ?485次閱讀
    UVLED固化烘箱:如何實現<b class='flag-5'>高效能</b>、低能耗的固化過程?

    AC/DC電源模塊的高效能源管理與效率優化

    BOSHIDA AC/DC電源模塊的高效能源管理與效率優化 AC/DC電源模塊是一種常見的電源轉換裝置,用于將交流電轉換為直流電。它被廣泛應用于各種電子設備中,如計算機、通信設備、工業自動化設備等
    的頭像 發表于 05-06 13:31 ?272次閱讀
    AC/DC電源模塊的<b class='flag-5'>高效能</b>源管理與效率優化

    交換芯片架構設計

    交換芯片架構設計是網絡通信中的關鍵環節,它決定了交換機的性能、功能和擴展性
    的頭像 發表于 03-18 14:12 ?652次閱讀

    蘋果M3芯片是ARM架構

    蘋果M3芯片采用的是ARM架構。這種架構具有高效能和低功耗的特點,使得M3芯片在提供出色性能的同時,也能保持較低的能耗。
    的頭像 發表于 03-08 16:03 ?1907次閱讀

    Tenstorrent將為日本LSTC新型邊緣2納米AI加速器開發芯片

    加拿大AI芯片領域的初創公司Tenstorrent與日本尖端半導體技術中心(LSTC)達成了一項多層次合作協議。根據協議內容,LSTC將采用Tenstorrent的世界級RISC-V
    的頭像 發表于 02-28 10:49 ?636次閱讀

    分布式大屏控制系統的可擴展性設計

    分布式大屏控制系統的可擴展性設計是確保系統能夠適應不斷增長的需求和未來發展的關鍵因素。以下是可擴展性設計的幾個方面: 模塊化設計:將系統劃分為多個模塊,每個模塊具有獨立的功能和接口。這種設計方式使得
    的頭像 發表于 01-29 14:46 ?538次閱讀