精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達江郎才盡,下一代芯片架構變化只是封裝

佐思汽車研究 ? 來源:佐思汽車研究 ? 2023-09-28 15:55 ? 次閱讀

2023年8月23日,英偉達宣布下一代汽車芯片Thor量產時間略有推遲,正式量產在2026財年,英偉達的財政年度與自然年相差11個月,也就是說正式量產最遲可能是2026年1月。

FY2019-FY2024H1英偉達自動駕駛AI座艙業績情況

66a75e76-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

英偉達通常兩年升級一次芯片架構。在2022年英偉達透露即將在2024年推出Blackwell架構,而Thor也會采用Blackwell架構。

Blackwell是致敬美國統計學家,加利福尼亞大學伯克利分校統計學名譽教授,拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。

英偉達Blackwell架構

Blackwell架構將采用COPA-GPU設計。很多人認為COPA-GPU就是Chiplet,不過COPA-GPU不是嚴格意義上的Chiplet,眾所周知,英偉達一直對Chiplet缺乏興趣。在2017年英偉達曾提出非常近似Chiplet的MCM設計,但在2021年12月,英偉達發表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,應該就是Blackwell架構的論文,這篇論文則否定了Chiplet設計。

2017年6月英偉達發表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計。

MCM-GPU設計

671c1d56-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

MCM-GPU設計基本就是現在比較火爆的Chiplet設計,但英偉達一直未將MCM付諸實際設計中。英偉達一直堅持Monolithic單一光刻設計,這是因為die與die之間通訊帶寬永遠無法和monolithic內部的通訊帶寬相比,換句話說Chiplet不適合高AI算力場合,在純CPU領域是Chiplet的最佳應用領域。

MCM-GPU架構

672f363e-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

英偉達2017年論文提及的MCM-GPU架構如上圖。英偉達在MCM-GPU架構里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有點像交換或路由。GPM就是GPU模塊。

不同容量L1.5緩存下各種應用的速度對比

6747d770-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是英偉達2017年論文仿真不同容量L1.5緩存下各種應用的速度對比,不過彼時各種應用還是各種浮點數學運算和存儲密集型算子,而非深度學習。

Transformer時代相對CNN時代,存儲密集型算子所占比例大幅增加。

67507312-5db1-11ee-939d-92fbcf53809c.png

676828b8-5db1-11ee-939d-92fbcf53809c.png

以上是Transformer的計算過程,在此計算過程中,矩陣乘法是典型的計算密集型算子,也叫GEMM(通用矩陣乘法)。存儲密集型算子分兩種,一種是矢量或張量的神經激活,多非線性運算,也叫GEMV (通用矩陣矢量乘法)。另一種是逐點元素型element-wise,典型的如矩陣反轉,實際沒有任何運算,只是存儲行列對調。

三星對GPT大模型workload分析

678f1b12-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

上圖中,在運算操作數量上,GEMV所占比例高達86.53%,在大模型運算延遲分析上,82.27%的延遲都來自GEMV;GEMM占比只有2.12%;非線性運算也就是神經元激活部分占的比例也遠高于GEMM。

三星對GPU利用率的分析

6799a14a-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

上圖可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數據的搬運。GPU的靈活性還是比較高的,如果換做靈活性比較差的AI專用加速器,如谷歌的TPU,那么GEMV的利用率會更低,不到10%甚至5%。

三星的GPT瓶頸分析

67b0019c-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

Roof-line訪存與算力模型

67cb4966-5db1-11ee-939d-92fbcf53809c.png

圖片來源:互聯網

上圖是鼎鼎大名的roof-line訪存與算力模型。

COPA-GPU架構

67d48008-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是2021年12月英偉達論文提出的COPA-GPU架構,實際就是把一個特別大容量的L2緩存die分離出來。因為如果還是monolithic設計,那么整個die的面積會超過1000平方毫米,不過***決定了芯片的最大die size不超過880平方毫米,所以必須將L2分離。

67ef0162-5db1-11ee-939d-92fbcf53809c.png

注:GPU-N就是英偉達的COPA-GPU。

圖片來源:英偉達

不同容量L2緩存對應的延遲

6805ca46-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是不同容量L2緩存對應的延遲情況,顯然L2緩存越高,延遲越低,不過在small-batch時不明顯。

幾種COPA-GPU的封裝分析

6814f318-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

從英偉達的論文里我們看不到架構方面的絲毫改進,只有封裝領域的改變。這篇論文實際應該由臺積電來寫,因為英偉達完全無法掌控芯片的封測工藝,CoWoS就是為英偉達這種設計而設計的,而CoWoS誕生在10年以前。

大模型不斷消耗更多的算力和存儲,這顯然違背了自然界效率至上的原則,或許人類正在錯誤的道路上狂奔。

免責說明:本文觀點和數據僅供參考,和實際情況可能存在偏差。本文不構成投資建議,文中所有觀點、數據僅代表筆者立場,不具有任何指導、投資和決策意見。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4591

    瀏覽量

    128144
  • 芯片架構
    +關注

    關注

    1

    文章

    30

    瀏覽量

    14537
  • 英偉達
    +關注

    關注

    22

    文章

    3637

    瀏覽量

    89853

原文標題:英偉達江郎才盡,下一代芯片架構變化只是封裝

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英特爾公布玻璃芯研發進展,玻璃基板或引領下一代先進封裝

    近日,英特爾發表聲明展示“業界首款”用于下一代先進封裝的玻璃基板,與現今使用的有機基板相比,玻璃基板具有卓越的機械、物理和光學特性,在單一封裝中可連接更多晶體管,提高延展性并能夠組裝更大的小
    的頭像 發表于 09-24 05:08 ?2602次閱讀
    英特爾公布玻璃芯研發進展,玻璃基板或引領<b class='flag-5'>下一代</b>先進<b class='flag-5'>封裝</b>

    通過下一代引線式邏輯IC封裝實現小型加固型應用

    電子發燒友網站提供《通過下一代引線式邏輯IC封裝實現小型加固型應用.pdf》資料免費下載
    發表于 08-29 11:05 ?0次下載
    通過<b class='flag-5'>下一代</b>引線式邏輯IC<b class='flag-5'>封裝</b>實現小型加固型應用

    24芯M16插頭在下一代技術中的潛力

      德索工程師說道隨著科技的飛速發展,下一代技術正逐漸展現出其獨特的魅力和潛力。在這背景下,24芯M16插頭作為種高性能、多功能的連接器,將在下一代技術中發揮至關重要的作用。以下是
    的頭像 發表于 06-15 18:03 ?178次閱讀
    24芯M16插頭在<b class='flag-5'>下一代</b>技術中的潛力

    英偉達加速AI芯片迭代,推出Rubin架構計劃

    在近日舉辦的COMPUTEX 2024展會上,英偉達CEO黃仁勛再次展現了公司在人工智能(AI)芯片領域的雄心壯志。他公布了下一代AI芯片架構
    的頭像 發表于 06-03 11:36 ?689次閱讀

    英偉達業績強勁,Blackwell AI芯片助推下一波增長?

     在與分析師的電話會議上,英偉達首席執行官黃仁勛透露,公司即將推出的Blackwell AI芯片將于本季度發貨,下季度產量將有所提升,“隨著下一代Blackwell架構
    的頭像 發表于 05-23 15:55 ?394次閱讀

    豐田、日產和本田將合作開發下一代汽車的AI和芯片

    豐田、日產和本田等日本主要汽車制造商確實計劃聯手開發下一代汽車的軟件,包括在生成式人工智能(AI)和半導體(芯片)等領域進行合作。
    的頭像 發表于 05-20 10:25 ?866次閱讀

    步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    2024年3月19日,[英偉達]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構BLACKWELL,并推出基于該架構的超級
    發表于 05-13 17:16

    使用NVIDIA Holoscan for Media構建下一代直播媒體應用

    NVIDIA Holoscan for Media 現已向所有希望在完全可重復使用的集群上構建下一代直播媒體應用的開發者開放。
    的頭像 發表于 04-16 14:04 ?461次閱讀

    英偉達攜手臺積電、新思科技,力推下一代半導體芯片制造技術

    英偉達與臺積電、 Synopsys 已做出決策,將在其軟件環境、制造工藝以及系統上整合英偉達的 cuLitho 計算光刻平臺。此舉旨在大幅提升芯片制造速率,并為英偉達即將推出的 Bla
    的頭像 發表于 03-19 11:41 ?513次閱讀

    英偉達的下一代AI芯片

    根據英偉達(Nvidia)的路線圖,它將推出其下一代black well架構很快。該公司總是先推出個新的架構與數據中心產品,然后在幾個月后
    的頭像 發表于 03-08 10:28 ?739次閱讀
    <b class='flag-5'>英偉</b>達的<b class='flag-5'>下一代</b>AI<b class='flag-5'>芯片</b>

    英偉達:預計下一代AI芯片B100短缺,計劃擴產并采用新架構

    近期熱門的 H100 芯片運期短縮數天后,英偉達新型 AI 旗艦芯片 B100搭載全新的 Blackwell,有望使 AI 計算性能提升至 2~3 倍。鑒于 AI 芯片市場需求旺盛,外
    的頭像 發表于 02-25 09:29 ?742次閱讀

    下一代掌機芯片,深度學習、光線追蹤還有與VR/AR聯動?

    英偉達、AMD 和高通等。然而,對于下一代掌機芯片,我們還有什么可以期待的突破呢? ? 深度學習+光線追蹤 ? 要說賣得最好的掌機芯片,那無疑是任天堂Switch掌機所搭載的
    的頭像 發表于 01-09 00:04 ?1424次閱讀

    適用于下一代大功率應用的XHP?2封裝

    適用于下一代大功率應用的XHP?2封裝
    的頭像 發表于 11-29 17:04 ?757次閱讀
    適用于<b class='flag-5'>下一代</b>大功率應用的XHP?2<b class='flag-5'>封裝</b>

    瑞薩公布下一代oC和MCU計劃

    瑞薩還分享了即將推出的下一代R-Car產品家族兩款MCU產品規劃:款為全新跨界MCU系列,旨在為下一代汽車E/E架構中的域和區域電子控制單元(ECU)打造所需的高性能,這款產品將縮小
    發表于 11-09 10:49 ?350次閱讀
    瑞薩公布<b class='flag-5'>下一代</b>oC和MCU計劃

    超越摩爾定律,下一代芯片如何創新?

    摩爾定律,下一代芯片要具有更高的性能、更低的功耗、更多的功能、更廣的應用等特點。下一代芯片是信息產業的核心和驅動力,也是人類社會的創新和進步的源泉。其創新主要涉及到
    的頭像 發表于 11-03 08:28 ?746次閱讀
    超越摩爾定律,<b class='flag-5'>下一代</b><b class='flag-5'>芯片</b>如何創新?