无码人妻精品一区二区三区99不卡_久久久精品国产亚洲综合久久久国产中文字幕免费_国产黄a一级二级三级看三区_最新欧美国产亚洲一区二区三区精品久久久不卡_无码免费无码又爽高潮喷水网站_日韩人妻无码精品久久专区

新型架構(gòu)能夠挖掘深度學(xué)習(xí)的巨大潛力。然而，到目前為止，只有一款AI 芯片是完全符合描述和基準測試的，它就是谷歌的TPU。即便如此，這一領(lǐng)域仍然正在蓬勃發(fā)展，相關(guān)的技術(shù)也開始逐漸明朗，比如模擬計算、新興內(nèi)存和封裝技術(shù)、以及一系列專門用于處理神經(jīng)網(wǎng)絡(luò)的技術(shù)等等。

對此，比利時魯汶大學(xué)Marian Verhelst教授表示：“這個領(lǐng)域涉及范圍很廣，包括每個層面的研究。”Verhelst教授專門研究探索二元精密格式的芯片。她說，模擬計算很有用，特別是3到8位格式的模擬計算。

NVIDIA首席科學(xué)家、資深處理器研究員Bill Dally表示：“NVIDIA有多個和深度學(xué)習(xí)模擬計算相關(guān)的研究項目，但是到目前為止，還沒有一個項目可以轉(zhuǎn)化為產(chǎn)品。”他補充說，有一些項目是需要數(shù)學(xué)神經(jīng)網(wǎng)絡(luò)的，生成的結(jié)果并不適合用于進行模擬。

“過去那些被否定了的CPU新想法都被重新拿出來進行探索，例如模擬計算、內(nèi)存處理器、晶圓級集成，”資深計算機研究員David Patte rson這樣表示，他現(xiàn)在在谷歌工作。“我迫不及待地想看看這些激進的想法是否奏效。”

“兩三年前，每個優(yōu)秀的計算機架構(gòu)師都會說——'我可以做到100倍速’。正因如此，我們看到大量解決方案已經(jīng)出現(xiàn)，并且提供了各種功能上的改進，不斷逼近當前技術(shù)的極限。” Chris Rowen表示，他曾經(jīng)是MIPS和Tensilica公司的聯(lián)合創(chuàng)始人，現(xiàn)在又創(chuàng)建了一家人工智能軟件公司BabbleLabs。

AI基準測試遭遇初創(chuàng)公司冷落

處理器設(shè)計的復(fù)興給人們帶來的一大挫折就是漫長的等待。

去年5月，百度和谷歌公布了MLPerf基準，以一種公平的方式來衡量“幾十家”初創(chuàng)公司開發(fā)的芯片。該項目負責(zé)人Patterson表示：“結(jié)果有點令人失望，沒有一家初創(chuàng)公司提交第一個迭代的結(jié)果。”

“也許他們有戰(zhàn)略方面的考慮。但又不禁讓人懷疑，他們是不是在開發(fā)芯片的過程中遇到了問題，還是芯片性能沒有達到他們的預(yù)期，又或者是他們的軟件不夠成熟，無法很好地運行這些基準測試？”

這個訓(xùn)練基準測試采用了ResNet-50，第一個測試結(jié)果顯示，谷歌TPUv3在從8個芯片擴展到256個芯片的過程中，性能擴展幾乎可以達到100％，相比之下，NVIDIA Volta在從8個芯片擴展到640個芯片的過程中，性能擴展了大約27％。

Patterson解釋說，TPU之所以占據(jù)優(yōu)勢，是因為它可以作為多處理器在自己的網(wǎng)絡(luò)上運行。相比之下，NVIDIA Volta則是運行在x86集群上的。

Patterson希望未來MLPerf之于AI加速器就像Spec之于CPU。第二批訓(xùn)練結(jié)果預(yù)計將在今年晚些時候公布。針對數(shù)據(jù)中心和邊緣推理工作的MLPerf基準測試也將在今年首次亮相。

與此同時，也有研究人員警告稱，AI芯片行業(yè)過于關(guān)注峰值性能。“我們認為峰值性能沒有什么用，因為峰值性能沒有考慮到效率上的差異，”帝國理工學(xué)院Erwei Wang博士這樣表示，最近他和同事共同撰寫了一份關(guān)于人工智能加速器的研究報告。他指出，“人們應(yīng)該公布的是標準數(shù)據(jù)集和基準測試的持續(xù)性能結(jié)果，以便更好地對比不同的架構(gòu)。”下圖為MLPerf在12月發(fā)布的初步結(jié)果采樣。

AI芯片領(lǐng)域好戲才剛開始

分析師：格局尚不明朗

有分析師抱怨說，包括Graphcore和Wave Computing等在內(nèi)的知名初創(chuàng)公司到目前為止都沒能提供性能數(shù)據(jù)。唯一的例外是Habana Labs。

The Linley Group分析師Linley Gwennap表示，該初創(chuàng)公司“似乎有一些真實的數(shù)據(jù)，在白皮書中詳細說明其性能是NVIDIAGPU的3到5倍......但他們最初關(guān)注的是推理任務(wù)，而非訓(xùn)練。”

對此，Moor Insights＆Strategy分析師Karl Freund也指出，目前來自初創(chuàng)公司的性能數(shù)據(jù)確實“少得可憐”。

其中，Habana只是在采樣階段，Wave宣稱已有客戶采用，Graphcore表示會在4月之前出貨芯片產(chǎn)品，Groq可能會在4月北京舉行的一個活動上第一次亮相，其他初創(chuàng)公司則可能會于9月在舊金山舉行的一次活動上發(fā)布產(chǎn)品。

有幾家中國初創(chuàng)公司——例如Cambricon和Horizon Robotics，讓我們看到了一些希望，這些公司先于美國的同類企業(yè)進入市場，專注于人工智能推理領(lǐng)域。

Freund表示：“由于目前在推理領(lǐng)域還沒有巨頭出現(xiàn)，所以會掀起一股淘金熱，但我不知道是否有初創(chuàng)公司能夠在訓(xùn)練領(lǐng)域向NVIDIA GPU發(fā)起挑戰(zhàn)，因為只是在一個產(chǎn)品周期內(nèi)你無法扭轉(zhuǎn)競爭形勢，企業(yè)需要可持續(xù)的領(lǐng)先地位。”

他說：“唯一一個真正在訓(xùn)練領(lǐng)域站穩(wěn)腳跟的是英特爾，英特爾已經(jīng)推出了Nervana芯片，他們正在等待合適的時機，因為如果只是有一堆MAC和降低了的精度，立刻會被NVIDIA秒殺。他們需要解決內(nèi)存帶寬和擴展問題。”

在這場競賽中，英特爾可以說是多管齊下。英特爾的一位AI軟件經(jīng)理表示，與他工作關(guān)系最緊密的，就是至強處理器和前蘋果及AMD GPU大師Raja Koduri設(shè)計的新GPU。

英特爾最新的Cascade Lake至強處理器中增添了很多新功能，用以加速人工智能。我們預(yù)計，英特爾將不再需要GPU或加速器，但也不會放棄與GPU和加速器在性能或效率方面的競爭。

而對于NVIDIA來說，他們正在將最新的12納米處理器封裝到各種工作站、服務(wù)器和機架系統(tǒng)中。有人說，NVIDIA在AI訓(xùn)練方面遙遙領(lǐng)先，甚至可以把7納米產(chǎn)品保留到2020年之后再推出。

除了，NVIDIA之外，許多大廠商也都在基于專有的互連技術(shù)、封裝技術(shù)、編程工具和其他技術(shù)構(gòu)建競爭生態(tài)系統(tǒng)。其中，英特爾涉及的技術(shù)領(lǐng)域最廣泛，包括專有的處理器互連、針對Optane DIMM的內(nèi)存協(xié)議、網(wǎng)絡(luò)框架、以及新興的EMIB和Foveros芯片封裝。

AMD、Arm、IBM和Xilinx則圍繞CCIX（用于極速器的一種緩存一致性互連技術(shù)）和GenZ（一種內(nèi)存鏈接技術(shù)）進行聯(lián)手。最近，英特爾還發(fā)布了一種針對加速器和內(nèi)存的更開放的處理器互連技術(shù)——CXL，但到目前為止，CXL仍然缺少對CCIX和GenZ的第三方支持。下圖為AI芯片初創(chuàng)公司列表。

AI芯片領(lǐng)域好戲才剛開始

數(shù)據(jù)中心試水DIY芯片

當初創(chuàng)公司爭相在服務(wù)器系統(tǒng)中為自己的芯片占據(jù)一席之地的時候，一些企業(yè)卻在部署他們自己研發(fā)的加速器。

比如：谷歌已經(jīng)在使用第三代TPU，該版本采用了液體冷卻技術(shù)，運行平穩(wěn)；百度去年也宣布推出了自己的首款芯片；亞馬遜表示將在今年晚些時候推出首款芯片；Facebook正在組建一支半導(dǎo)體團隊；阿里巴巴則在去年收購了一家處理器專業(yè)公司。

大多數(shù)廠商對其芯片的架構(gòu)和性能都非常苛刻。百度表示，將發(fā)布針對訓(xùn)練和推理任務(wù)的不同版本14納米“昆侖”芯片，可以提供260 TOPS性能，功耗為100 W，其中封裝了數(shù)千個核心，總內(nèi)存帶寬為512 GB/s。亞馬遜方面表示，Inferentia將實現(xiàn)數(shù)百TOPS的推理吞吐量，多個芯片聚合在一起可以實現(xiàn)數(shù)千TOPS性能。

“很多初創(chuàng)公司都是以面向超大規(guī)模數(shù)據(jù)中心售賣芯片為目標開展業(yè)務(wù)的，而現(xiàn)在，這可能行不通了，”二級公有云服務(wù)商Packet公司首席執(zhí)行官Zac Smith這樣表示。

我們可能永遠也看不到云計算巨頭設(shè)計芯片的拆解細節(jié)，但是有一些公開信息描述了很多嵌入塊的情況。Linley Group分析師Mike Demler表示，這些嵌入塊展現(xiàn)了從改進后的DSP和GPU模塊，到使用乘法累加數(shù)組，再到數(shù)據(jù)流體系結(jié)構(gòu)的演變，這種架構(gòu)將生成的信息從神經(jīng)網(wǎng)絡(luò)的一個層面?zhèn)鬟f到另一個層面。

和三星最新公布的Samsung Exynos中的AI模塊一樣，很多芯片都轉(zhuǎn)向重度使用網(wǎng)絡(luò)修剪和量化技術(shù)，運行8位和16位操作以優(yōu)化效率和網(wǎng)絡(luò)稀疏性。

對網(wǎng)絡(luò)進行修剪將變得越來越重要。卷積神經(jīng)網(wǎng)絡(luò)（CNN）之父Yann LeCun表示，神經(jīng)網(wǎng)絡(luò)模型只會越變越大，這就要求性能越來越高。不過他指出，神經(jīng)網(wǎng)絡(luò)模型可以被極大程度上進行修剪，特別是考慮到人類大腦最大限度上只被激活了2％。

他在最近一篇針對芯片設(shè)計人員的論文中，呼吁開發(fā)能夠處理極其稀疏網(wǎng)絡(luò)的芯片。“在大多數(shù)情況下，芯片單元都是處于關(guān)閉狀態(tài)的，事件驅(qū)動型的硬件具有一定的優(yōu)勢，如此一來，只有激活的單元才會消耗資源。”他這樣寫道。

“遞歸神經(jīng)網(wǎng)絡(luò)是最稀疏的，因此，使用細粒度修剪也是最有效的。有50%-90%的修剪都是針對CNN的，但是芯片設(shè)計人員要面對支持細粒度修剪不規(guī)則性和靈活性方面的挑戰(zhàn)。”帝國理工學(xué)院研究員Erwei Wang這樣表示。

減少權(quán)重數(shù)量和降低精度有助于減少內(nèi)存需求。Wang說，英特爾的至強芯片和其他很多芯片已經(jīng)在使用8位整數(shù)數(shù)據(jù)執(zhí)行推理任務(wù)，而FPGA和嵌入式芯片正在向4位甚至二進制精度發(fā)展。

這么做是為了讓處理操作盡可能靠近內(nèi)存所在位置，避免片外訪問。理想情況下，這意味著能夠在寄存器內(nèi)部或者至少是在緩存內(nèi)部進行計算。

LeCun甚至在他的論文中設(shè)想了一種將內(nèi)存和處理單元結(jié)合起來的可編程寄存器。

“為了讓深度學(xué)習(xí)系統(tǒng)具備推理能力，深度學(xué)習(xí)系統(tǒng)需要一種短期內(nèi)存作為情景內(nèi)存......這樣的內(nèi)存會變得非常普及，而且非常龐大，亟需硬件方面的支持。”他這樣寫道。下圖為根據(jù)研究員Erwei Wang及其同事最近對可編程架構(gòu)的研究調(diào)查現(xiàn)實，性能差異是很大的。

MAC單元之外所需的靈活性

如果必須遠離芯片，那就把大量請求批量處理成幾個較大的請求，這已經(jīng)是一種很流行的技術(shù)。Patterson注意到谷歌最近發(fā)表了一篇論文，對于批量操作最理想大小的討論帶來了一些啟發(fā)。

Patterson表示：“如果你小心操作的話，會在某個區(qū)域內(nèi)得到最理想的加速，然后當你增加批量處理規(guī)模的時候，就會發(fā)現(xiàn)收益出現(xiàn)遞減，然后在很多模型中都表現(xiàn)平平。”

LeCun在論文中警告說：“我們需要新的硬件架構(gòu)，這些架構(gòu)在批量處理大小為1的時候可以高效運行。這意味著我們完全不需要依賴于矩陣產(chǎn)品作為最低層級的操作工具。”這一理論無疑是對目前芯片核心的多架構(gòu)單元的某種終結(jié)。

鑒于現(xiàn)在還是深度學(xué)習(xí)的早期發(fā)展階段，最重要的指導(dǎo)方針是保持靈活性，以及在可編程性和性能之間尋求平衡。

“我們吸取到的教訓(xùn)是，神經(jīng)網(wǎng)絡(luò)是持續(xù)演化的，你無法對神經(jīng)網(wǎng)絡(luò)的維度做出假設(shè)，但又希望在各個方面都能保持高效。”負責(zé)開發(fā)Eyeriss芯片的Vivienne Sze這樣表示。

Wang說，在深度學(xué)習(xí)發(fā)展演化的過程中，F(xiàn)PGA將發(fā)揮重要的作用，這就要求硬件具備靈活性。他看好Xilinx的Versal ACAP，這是一種FPGA與硬件的混合體。

Wang提出的LUTNet研究探索了如何在無需維護索引的前提下定制查找表，以作為處理細粒度修剪的推理核心。他表示，這將讓推理任務(wù)所需的芯片減少一半。

這可以說是一個新穎的想法，很多企業(yè)已經(jīng)在這方面進行實踐。例如，東芝最近推出了一種ADAS加速器，其94.5平方毫米的芯片中封裝了4個Cortex-A53核心，2個Cortex-R4、4個DSP、8個專用加速器模塊。

總的來說，對于AI芯片領(lǐng)域，我們還有非常大的想象空間，可以說，好戲才剛剛開始。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
10824

瀏覽量
211140
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4762

瀏覽量
100535
AI

AI

+關(guān)注

關(guān)注
87

文章
30107

瀏覽量
268401

RISC-V在AI領(lǐng)域的發(fā)展前景怎么樣？

隨著人工智能的不斷發(fā)展，現(xiàn)在的視覺機器人，無人駕駛等智能產(chǎn)品的不斷更新迭代，發(fā)現(xiàn)ARM占用很大的市場份額，推出的ARM Cortex M85性能也是杠杠的，不知道RISC-V在AI領(lǐng)域有哪些參考方案？

發(fā)表于 10-25 19:13

水底下的云

算力即國力的時代，才剛剛開始

發(fā)表于 08-14 17:14 ?1503次閱讀

SK集團與亞馬遜等討論加強AI芯片領(lǐng)域合作

SK集團近期宣布了一項重要的國際合作動向，集團會長崔泰源在美國訪問期間，與全球科技領(lǐng)域的領(lǐng)軍企業(yè)亞馬遜及英特爾的高層進行了會晤，共同探索了在人工智能半導(dǎo)體領(lǐng)域的深度合作可能性。此次交流不僅標志著SK集團在全球科技版圖上的進一步拓展，也預(yù)示著

發(fā)表于 07-02 10:02 ?417次閱讀

AI芯片會導(dǎo)元件中間商消失嗎？

元件AI芯片

芯廣場

發(fā)布于 :2024年06月19日 18:10:01

smartconfig按照例程，每次剛開始掃描就結(jié)束了，為什么？

smartconfig，按照例程，每次剛開始掃描，就結(jié)束了，不知道為什么。深入源碼去看，有些源代碼的api具體內(nèi)部是怎么運行的，還找不到。比如

發(fā)表于 06-12 07:56

AI芯片哪里買？

AI芯片

芯廣場

發(fā)布于 :2024年05月31日 16:58:19

risc-v多核芯片在AI方面的應(yīng)用

應(yīng)用中的成本。最后，RISC-V多核芯片不僅可以應(yīng)用于AI邊緣計算領(lǐng)域，還可以擴展到其他領(lǐng)域，如數(shù)據(jù)中心、云計算、自動駕駛、機器人等，為這些領(lǐng)域

發(fā)表于 04-28 09:20

SK海力士正探索與與鎧俠合作在日本生產(chǎn)HBM

HBM的競爭才剛剛開始。

發(fā)表于 03-05 10:10 ?549次閱讀

AI芯片短缺已影響超微電腦

AI芯片行業(yè)芯事

深圳市浮思特科技有限公司
發(fā)布于 :2024年02月21日 10:18:59

英偉達將用AI設(shè)計AI芯片

AI芯片行業(yè)資訊

深圳市浮思特科技有限公司
發(fā)布于 :2024年02月19日 17:54:43

英偉達中國特供AI芯片開始預(yù)訂

英偉達近期為中國市場推出了特供AI芯片H20，引發(fā)了業(yè)界和消費者的廣泛關(guān)注。據(jù)知情人士透露，H20芯片的定價在每顆1.2萬美元至1.5萬美元之間。然而，一些經(jīng)銷商已經(jīng)開始大幅加價，將H

發(fā)表于 02-03 09:30 ?635次閱讀

拼多多超越阿里，而AI電商時代才剛開始

拼多多市值超越阿里巴巴，電商的新一輪較量才剛開始。

發(fā)表于 12-12 10:24 ?428次閱讀

AI ASIC芯片帶動封測與載板需求，臺廠打入供應(yīng)鏈

在晶圓測試領(lǐng)域，京元電在gpu芯片測試領(lǐng)域的市場占有率較高，成為美國ai芯片工廠的主要測試伙伴，最快將從明年

發(fā)表于 12-07 16:44 ?854次閱讀

ad7305用示波器打出數(shù)據(jù)在輸出經(jīng)過了800多uS才開始下降是為什么？

各位大佬麻煩看一下，我這個打的數(shù)據(jù)是不是有什么問題。從芯片手冊來看，ad7305的掉電時間是從a0懸空到輸出被置為高阻態(tài)（就是沒輸出，不知道咋描述）。但是我用示波器打出數(shù)據(jù)在輸出卻經(jīng)過了800多uS才開始下降。黃色是A0信號，

發(fā)表于 12-05 08:10

在調(diào)試AD5560時，剛開始寫命令輸出正常，之后寫命令芯片出現(xiàn)無電壓輸出的原因？

在調(diào)試AD5560時，剛開始寫命令輸出正常，之后寫命令芯片出現(xiàn)無電壓輸出現(xiàn)象，這是什么引起的呢？有人遇到類似的問題嗎？

發(fā)表于 12-04 08:20

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

AI芯片領(lǐng)域好戲才剛開始

評論

RISC-V在AI領(lǐng)域的發(fā)展前景怎么樣？

水底下的云

SK集團與亞馬遜等討論加強AI芯片領(lǐng)域合作

AI芯片會導(dǎo)元件中間商消失嗎？

smartconfig按照例程，每次剛開始掃描就結(jié)束了，為什么？

AI芯片哪里買？

risc-v多核芯片在AI方面的應(yīng)用

SK海力士正探索與與鎧俠合作在日本生產(chǎn)HBM

AI芯片短缺已影響超微電腦

英偉達將用AI設(shè)計AI芯片

英偉達中國特供AI芯片開始預(yù)訂

拼多多超越阿里，而AI電商時代才剛開始

AI ASIC芯片帶動封測與載板需求，臺廠打入供應(yīng)鏈

ad7305用示波器打出數(shù)據(jù)在輸出經(jīng)過了800多uS才開始下降是為什么？

在調(diào)試AD5560時，剛開始寫命令輸出正常，之后寫命令芯片出現(xiàn)無電壓輸出的原因？