精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何設計一顆40PFLOPS量級AI芯片_操作過程詳解

電子工程師 ? 作者:工程師a ? 2018-05-20 07:31 ? 次閱讀

Nvidia剛剛發布的最強“GPU”DGX-2,由16顆V100+12顆NVSwitch芯片組成,能夠提供2PFLOPS。而單顆V100的Deep Learning處理能力是120TFLOPS。如果我們要設計一顆能夠實現40PFLOPS處理能力的AI芯片,該怎么操作?其實挺“簡單”,把芯片面積盡可能做大。那么單個裸片(Die),最大能做多大呢?當然就是占滿一片晶圓(Wafer)的面積。這就是今天要討論的話題,Wafer Scale Integration(WSI)。

這不是一個憑空想像的話題,傳說有人正在嘗試一個8英寸x 8英寸的WSI。而它實現的指標就是40PFLOPS,能耗17KW(16nm工藝)。本文并不是為了討論這個傳聞,而是為了探討WSI的可能性,畢竟之前的嘗試都失敗了。有個形象的感覺,我在A4紙上按照1:1的比例畫了一下這個芯片的裸片(Die)想象圖(面積41290.24mm2)。大家可以感受一下,差一點A4紙就放不下了。作為對比也畫出了Nvidia的P100芯片的Die

(假設是正方形)(面積是610mm2)。這里用P100對比,是因為它也是用的16nm工藝。

做芯片的同學應該都了解一片晶圓只產出一個裸片意味著什么,所以當我把這張圖貼到朋友圈的時候也引來了激烈的評論。除了問這是誰家的之外,問題主要圍繞在良率,容錯,封裝,散熱等話題上。當然,大家的問題都問到了點子上。

和我們之前討論過的脈動陣列(脈動陣列 - 因Google TPU獲得新生),異步電路(“傳說中”的異步電路是否能在AI芯片中異軍突起?)技術一樣,WSI并不是什么新技術。從Wikipedia的“Wafer-scale integration”詞條就可以看出它的歷史。在上個世紀70和80年代,就開始有很多這方面的嘗試,其目標主要是服務于超算領域(massively parallel supercomputers)。如果能夠實現,好處是顯而易見的,可以在一顆芯片上實現大量的運算和存儲資源,而它們之間的通信可以使用芯片上相對“物美價廉”的連線資源。但是,當時的所有嘗試都失敗了。

在1984年的ISSCC會議上,有個關于WSI的討論,組織者之一是David A. Patterson。在會議紀要中可以看到如下對問題的描述:

the 60s, various approaches were tried, primarily to reduce system cost. Then, the scale of integration was too low and the ratio of redundant circuits to active circuits was too high to be cost-effective compared to more direct means of improving yield.

Today, there are several additional motivations for wafer scale integration/redundancy including: system reliability; high performance through the use of very wide, fast data busses for array/systolic processors and CPUs; and system flexibility and reconfigurability.

The major issues for application of WSI include generality; technical problems such as testing and yield statistics; and practical problems such as packaging, ruggedness, repairability, and system partitioning.

而在后面的討論中,既有樂觀的看法,即未來5年內隨著相關芯片技術的進步,就可以實現實用的WSI系統;也有悲觀的論點,即它永遠不可能成為主流的芯片技術。雖然我們很難預測未來,但至少到目前為止,后者更為準確。


雖然是冷門技術,但相信大家在看到40PFLOPS這樣的指標時,還是會有興趣再做一點深入的分析。其實我第一次聽說有公司在做這東西的時候,基本是不相信的,直到從很多側面得到了印證,才開始認真的思考它的可能性。

如前面所說,WSI最大挑戰主要包括兩個方面。首先是和硅片生產引入的缺陷相關的技術問題。然后是集成中面對的實際問題,包括封裝,散熱,供電等。我們先看看前者。

如何設計一顆40PFLOPS量級AI芯片_操作過程詳解


芯片生產過程中一定會產生缺陷,缺陷應該是以工藝復雜度不同而以不同概率出現在wafer上。以平均缺陷密度D0表征。一般的芯片生產中,一片晶圓都會切割出很多裸片。對于有缺陷且無法“修復”的芯片,剔除就可以了。在同樣的缺陷分布情況下,晶圓上的裸片越大(分割的數量越少),缺陷的影響就越大(剔除的面積就約大)。上圖就是反映良率(yield)的和裸片面積的關系。對于WSI這種一片晶圓一顆裸片的極端情況,如果剔除就是整個晶圓都浪費了。所以,如果只看一片Wafer,我們可以說它的良率是‘0%’。WSI的良率應該看所有Wafer中能夠正常(或者基本正常)工作的裸片的比例。不難看出,WSI的挑戰主要就是在一定會有錯誤的情況下,如何盡量減少錯誤的影響,即容錯設計的問題。

對于容錯設計,其實在芯片設計中是有過大量的探索和經驗的,有的也相當成熟。對于運算,存儲和互連中可能出現的錯誤及修復方法(包括硬件和軟件的修復),我們可以找到很多參考。而考慮到AI芯片的一些特點,容錯設計可能會相對容易處理一些。第一,AI芯片中,存儲器所占比例很高,而存儲器的容錯設計是比較成熟的技術。第二,考慮到AI算法的特點,不論是DNN還是類腦計算(SNN),都有可能在算法層面做一些容錯設計。([2]中也可以看到對此的描述)第三,AI芯片一般采用比較規則的多核架構(以NoC連接),在WSI中可以比較自然的分成不同的區域(類似于一個Wafer上虛擬的“分割”成很多裸片)。這樣,即使出現無法通過軟件修復的缺陷,還可以通過犧牲性能,關閉某個獨立內核的方法來部分解決。

在各種缺陷當中,最為頭疼的是短路問題,一旦電源地短路,整個域都會掛掉。電源地短路的可能性很多,還是相當麻煩的。這一點還不知道是否有好的辦法。另一個問題是制程均一性問題,高端制程很難保證整片wafer這么大區域內器件性能一致,可能導致不同區域性能不一致,wafer中心和邊緣的核心速度不一致。在這種情況下,芯片間互連需要特別處理,而系統運行和調度也很有挑戰。

一些容錯設計需要建立在定位缺陷的基礎上,只有準確定位了缺陷的位置,才有可能實現修復。如果是同步設計,基本上現有的DFT方法問題不大,主要是測試規模的問題。另外,時間中應該會進行大量的功能測試,需要比較長的時間來進行測試,修復和調試。不過,這種規模的芯片肯定是以系統的方式銷售,即使需要更多的調試時間也問題不大。

當然我們在實踐中不可能做到100%容錯,而最終的考量還是經濟性,即付出多少代價(比如冗余的芯片面積,性能損失等等)來預防,測試和修復缺陷在經濟上是可以接受的。這一部分話題挺多,以后有機會可以深入探討一下。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI芯片
    +關注

    關注

    17

    文章

    1860

    瀏覽量

    34920
收藏 人收藏

    評論

    相關推薦

    手動移液器的使用操作過程

    手動移液器的使用操作過程  手動移液器常見于臨床試驗和實驗室試驗中,不同類型的移液器操作過程也有所不同,下面具體的解析下。  、使用方法:  1.根據所需取液量選擇相應移液器及吸液
    發表于 11-20 11:51

    電路板手工焊接操作過程

    `哪位大神可以分享電路板手工焊接的操作過程嗎?`
    發表于 02-29 15:14

    求ATmega168看門狗復位的具體操作過程

    ATmega168看門狗復位的具體操作過程
    發表于 11-18 07:17

    千萬注意!纖薄器件在操作過程中損壞不得

    千萬注意!纖薄器件在操作過程中損壞不得
    發表于 04-29 06:29

    C語言的平臺操作過程

    兩種學習C語言的平臺操作過程,在后續內容學習中需要熟練應用。這兩種方式分別為:keil c51編程軟件+硬件調試平臺臺,,keilkeil c51c51編程軟件編程軟件+ proteusproteus軟件...
    發表于 07-20 06:19

    如何去實現STM32串口通訊的操作過程

    STM32串口通訊有哪幾種方式呢?如何去實現STM32串口通訊的操作過程呢?
    發表于 12-07 07:28

    STM32內部FLASH操作過程

    般說STM32內部FLASH就是指主存儲器區域寫內部FLASH操作過程解鎖在對FLASH寫數據之前,需要先給解鎖,因為芯片為了防止誤操作修改應用程序,復位之后會給控制寄存器FLASH
    發表于 12-09 06:37

    請問下1602字符型LCD的寫操作過程是怎樣的呢

    LCD1602引腳有哪些功能?請問下1602字符型LCD的寫操作過程是怎樣的呢?
    發表于 01-26 06:48

    GPIO輸入完成按鍵掃描的操作過程是怎樣的

    GPIO輸入完成按鍵掃描的操作過程是怎樣的
    發表于 02-08 07:29

    RT-Thread操作系統從開機到關機的操作過程是怎樣的?

    RT-Thread操作系統從開機到關機的操作過程是怎樣的?
    發表于 02-15 07:43

    心電監護儀操作過程

    心電監護儀是醫院實用的精密醫學儀器,能同時監護病人的動態心電圖形、呼吸、體溫、等生理參數。這里提供了心電監護儀操作過程使用維護。
    發表于 12-21 17:36 ?2.1w次閱讀
    心電監護儀<b class='flag-5'>操作過程</b>

    FPGA應用中部分重配置的操作過程

    Partial Reconfiguration(部分重配置)在現在的FPGA應用中越來越常見,我們這次的教程以Project模式為例來說明部分重配置的操作過程
    的頭像 發表于 07-05 15:28 ?3627次閱讀
    FPGA應用中部分重配置的<b class='flag-5'>操作過程</b>

    在線快速修復終聚釜攪拌器軸磨損的現場操作過程

    在線快速修復終聚釜攪拌器軸磨損的現場操作過程
    發表于 12-06 15:17 ?5次下載

    一顆“任勞任怨”的數字成像芯片

    一顆“任勞任怨”的數字成像芯片
    發表于 11-03 08:04 ?0次下載
    <b class='flag-5'>一顆</b>“任勞任怨”的數字成像<b class='flag-5'>芯片</b>

    磐石測控:深圳扭轉試驗機操作過程是什么樣的?

    磐石測控:深圳扭轉試驗機操作過程是什么樣的?
    的頭像 發表于 10-20 11:17 ?665次閱讀
    磐石測控:深圳扭轉試驗機<b class='flag-5'>操作過程</b>是什么樣的?