欧美激情视频一区二区三区免费|欧美日韩国产蜜桃传媒|一本一本久久a久久精品综合|亚洲欧美日韩在线一区国产

Nvidia剛剛發布的最強“GPU”DGX-2，由16顆V100+12顆NVSwitch芯片組成，能夠提供2PFLOPS。而單顆V100的Deep Learning處理能力是120TFLOPS。如果我們要設計一顆能夠實現40PFLOPS處理能力的AI芯片，該怎么操作？其實挺“簡單”，把芯片面積盡可能做大。那么單個裸片（Die），最大能做多大呢？當然就是占滿一片晶圓（Wafer）的面積。這就是今天要討論的話題，Wafer Scale Integration（WSI）。

這不是一個憑空想像的話題，傳說有人正在嘗試一個8英寸x 8英寸的WSI。而它實現的指標就是40PFLOPS，能耗17KW（16nm工藝）。本文并不是為了討論這個傳聞，而是為了探討WSI的可能性，畢竟之前的嘗試都失敗了。有個形象的感覺，我在A4紙上按照1：1的比例畫了一下這個芯片的裸片（Die）想象圖（面積41290.24mm2）。大家可以感受一下，差一點A4紙就放不下了。作為對比也畫出了Nvidia的P100芯片的Die

（假設是正方形）（面積是610mm2）。這里用P100對比，是因為它也是用的16nm工藝。

做芯片的同學應該都了解一片晶圓只產出一個裸片意味著什么，所以當我把這張圖貼到朋友圈的時候也引來了激烈的評論。除了問這是誰家的之外，問題主要圍繞在良率，容錯，封裝，散熱等話題上。當然，大家的問題都問到了點子上。

和我們之前討論過的脈動陣列（脈動陣列 - 因Google TPU獲得新生），異步電路（“傳說中”的異步電路是否能在AI芯片中異軍突起？）技術一樣，WSI并不是什么新技術。從Wikipedia的“Wafer-scale integration”詞條就可以看出它的歷史。在上個世紀70和80年代，就開始有很多這方面的嘗試，其目標主要是服務于超算領域（massively parallel supercomputers）。如果能夠實現，好處是顯而易見的，可以在一顆芯片上實現大量的運算和存儲資源，而它們之間的通信可以使用芯片上相對“物美價廉”的連線資源。但是，當時的所有嘗試都失敗了。

在1984年的ISSCC會議上，有個關于WSI的討論，組織者之一是David A. Patterson。在會議紀要中可以看到如下對問題的描述：

the 60s, various approaches were tried, primarily to reduce system cost. Then, the scale of integration was too low and the ratio of redundant circuits to active circuits was too high to be cost-effective compared to more direct means of improving yield.

Today, there are several additional motivations for wafer scale integration/redundancy including: system reliability; high performance through the use of very wide, fast data busses for array/systolic processors and CPUs; and system flexibility and reconfigurability.

The major issues for application of WSI include generality; technical problems such as testing and yield statistics; and practical problems such as packaging, ruggedness, repairability, and system partitioning.

而在后面的討論中，既有樂觀的看法，即未來5年內隨著相關芯片技術的進步，就可以實現實用的WSI系統；也有悲觀的論點，即它永遠不可能成為主流的芯片技術。雖然我們很難預測未來，但至少到目前為止，后者更為準確。

雖然是冷門技術，但相信大家在看到40PFLOPS這樣的指標時，還是會有興趣再做一點深入的分析。其實我第一次聽說有公司在做這東西的時候，基本是不相信的，直到從很多側面得到了印證，才開始認真的思考它的可能性。

如前面所說，WSI最大挑戰主要包括兩個方面。首先是和硅片生產引入的缺陷相關的技術問題。然后是集成中面對的實際問題，包括封裝，散熱，供電等。我們先看看前者。

如何設計一顆40PFLOPS量級AI芯片_操作過程詳解

芯片生產過程中一定會產生缺陷，缺陷應該是以工藝復雜度不同而以不同概率出現在wafer上。以平均缺陷密度D0表征。一般的芯片生產中，一片晶圓都會切割出很多裸片。對于有缺陷且無法“修復”的芯片，剔除就可以了。在同樣的缺陷分布情況下，晶圓上的裸片越大（分割的數量越少），缺陷的影響就越大（剔除的面積就約大）。上圖就是反映良率（yield）的和裸片面積的關系。對于WSI這種一片晶圓一顆裸片的極端情況，如果剔除就是整個晶圓都浪費了。所以，如果只看一片Wafer，我們可以說它的良率是‘0%’。WSI的良率應該看所有Wafer中能夠正常（或者基本正常）工作的裸片的比例。不難看出，WSI的挑戰主要就是在一定會有錯誤的情況下，如何盡量減少錯誤的影響，即容錯設計的問題。

對于容錯設計，其實在芯片設計中是有過大量的探索和經驗的，有的也相當成熟。對于運算，存儲和互連中可能出現的錯誤及修復方法（包括硬件和軟件的修復），我們可以找到很多參考。而考慮到AI芯片的一些特點，容錯設計可能會相對容易處理一些。第一，AI芯片中，存儲器所占比例很高，而存儲器的容錯設計是比較成熟的技術。第二，考慮到AI算法的特點，不論是DNN還是類腦計算（SNN），都有可能在算法層面做一些容錯設計。（[2]中也可以看到對此的描述）第三，AI芯片一般采用比較規則的多核架構（以NoC連接），在WSI中可以比較自然的分成不同的區域（類似于一個Wafer上虛擬的“分割”成很多裸片）。這樣，即使出現無法通過軟件修復的缺陷，還可以通過犧牲性能，關閉某個獨立內核的方法來部分解決。

在各種缺陷當中，最為頭疼的是短路問題，一旦電源地短路，整個域都會掛掉。電源地短路的可能性很多，還是相當麻煩的。這一點還不知道是否有好的辦法。另一個問題是制程均一性問題，高端制程很難保證整片wafer這么大區域內器件性能一致，可能導致不同區域性能不一致，wafer中心和邊緣的核心速度不一致。在這種情況下，芯片間互連需要特別處理，而系統運行和調度也很有挑戰。

一些容錯設計需要建立在定位缺陷的基礎上，只有準確定位了缺陷的位置，才有可能實現修復。如果是同步設計，基本上現有的DFT方法問題不大，主要是測試規模的問題。另外，時間中應該會進行大量的功能測試，需要比較長的時間來進行測試，修復和調試。不過，這種規模的芯片肯定是以系統的方式銷售，即使需要更多的調試時間也問題不大。

當然我們在實踐中不可能做到100%容錯，而最終的考量還是經濟性，即付出多少代價（比如冗余的芯片面積，性能損失等等）來預防，測試和修復缺陷在經濟上是可以接受的。這一部分話題挺多，以后有機會可以深入探討一下。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴