2023年8月23日,英偉達宣布下一代汽車芯片Thor量產時間略有推遲,正式量產在2026財年,英偉達的財政年度與自然年相差11個月,也就是說正式量產最遲可能是2026年1月。
FY2019-FY2024H1英偉達自動駕駛及AI座艙業績情況
圖片來源:英偉達
英偉達通常兩年升級一次芯片架構。在2022年英偉達透露即將在2024年推出Blackwell架構,而Thor也會采用Blackwell架構。
Blackwell是致敬美國統計學家,加利福尼亞大學伯克利分校統計學名譽教授,拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。
英偉達Blackwell架構
Blackwell架構將采用COPA-GPU設計。很多人認為COPA-GPU就是Chiplet,不過COPA-GPU不是嚴格意義上的Chiplet,眾所周知,英偉達一直對Chiplet缺乏興趣。在2017年英偉達曾提出非常近似Chiplet的MCM設計,但在2021年12月,英偉達發表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,應該就是Blackwell架構的論文,這篇論文則否定了Chiplet設計。
2017年6月英偉達發表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計。
MCM-GPU設計
圖片來源:英偉達
MCM-GPU設計基本就是現在比較火爆的Chiplet設計,但英偉達一直未將MCM付諸實際設計中。英偉達一直堅持Monolithic單一光刻設計,這是因為die與die之間通訊帶寬永遠無法和monolithic內部的通訊帶寬相比,換句話說Chiplet不適合高AI算力場合,在純CPU領域是Chiplet的最佳應用領域。
MCM-GPU架構
圖片來源:英偉達
英偉達2017年論文提及的MCM-GPU架構如上圖。英偉達在MCM-GPU架構里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有點像交換或路由。GPM就是GPU模塊。
不同容量L1.5緩存下各種應用的速度對比
圖片來源:英偉達
上圖是英偉達2017年論文仿真不同容量L1.5緩存下各種應用的速度對比,不過彼時各種應用還是各種浮點數學運算和存儲密集型算子,而非深度學習。
Transformer時代相對CNN時代,存儲密集型算子所占比例大幅增加。
以上是Transformer的計算過程,在此計算過程中,矩陣乘法是典型的計算密集型算子,也叫GEMM(通用矩陣乘法)。存儲密集型算子分兩種,一種是矢量或張量的神經激活,多非線性運算,也叫GEMV (通用矩陣矢量乘法)。另一種是逐點元素型element-wise,典型的如矩陣反轉,實際沒有任何運算,只是存儲行列對調。
圖片來源:三星
上圖中,在運算操作數量上,GEMV所占比例高達86.53%,在大模型運算延遲分析上,82.27%的延遲都來自GEMV;GEMM占比只有2.12%;非線性運算也就是神經元激活部分占的比例也遠高于GEMM。
三星對GPU利用率的分析
圖片來源:三星
上圖可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數據的搬運。GPU的靈活性還是比較高的,如果換做靈活性比較差的AI專用加速器,如谷歌的TPU,那么GEMV的利用率會更低,不到10%甚至5%。
三星的GPT瓶頸分析
圖片來源:三星
Roof-line訪存與算力模型
圖片來源:互聯網
上圖是鼎鼎大名的roof-line訪存與算力模型。
COPA-GPU架構
圖片來源:英偉達
上圖是2021年12月英偉達論文提出的COPA-GPU架構,實際就是把一個特別大容量的L2緩存die分離出來。因為如果還是monolithic設計,那么整個die的面積會超過1000平方毫米,不過***決定了芯片的最大die size不超過880平方毫米,所以必須將L2分離。
注:GPU-N就是英偉達的COPA-GPU。
圖片來源:英偉達
不同容量L2緩存對應的延遲
圖片來源:英偉達
上圖是不同容量L2緩存對應的延遲情況,顯然L2緩存越高,延遲越低,不過在small-batch時不明顯。
幾種COPA-GPU的封裝分析
圖片來源:英偉達
從英偉達的論文里我們看不到架構方面的絲毫改進,只有封裝領域的改變。這篇論文實際應該由臺積電來寫,因為英偉達完全無法掌控芯片的封測工藝,CoWoS就是為英偉達這種設計而設計的,而CoWoS誕生在10年以前。
大模型不斷消耗更多的算力和存儲,這顯然違背了自然界效率至上的原則,或許人類正在錯誤的道路上狂奔。
免責說明:本文觀點和數據僅供參考,和實際情況可能存在偏差。本文不構成投資建議,文中所有觀點、數據僅代表筆者立場,不具有任何指導、投資和決策意見。
-
gpu
+關注
關注
27文章
4591瀏覽量
128144 -
芯片架構
+關注
關注
1文章
30瀏覽量
14537 -
英偉達
+關注
關注
22文章
3637瀏覽量
89853
原文標題:英偉達江郎才盡,下一代芯片架構變化只是封裝
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論