看到夏core寫了篇夏晶晶:談一下英偉達帝國的破腚(來源:知乎),決定蹭個熱度,講點不一樣的看法。LLM的出現以及NVidia暴漲的股價和銷量確實讓很多人重新思考AI芯片的機會。夏core提到了很多個點都很有道理,比如關于GPU成本的分析,再比如最后戰略視角去看,產業利潤分配的不均是最大的破綻。不過戰術層面的想法還是有些問題的。
比如LPDDR和HBM卷成本,如果考慮的是$/GB,那LPDDR確實有優勢,但如果考慮的是$/GBps,HBM還是最具性價比的選擇。而LLM雖然對內存容量有比較大的需求,但對于內存帶寬同樣有巨大的需求。單純容量的話,CPU內存可以輕輕松松堆好幾TB,比GPU便宜多了。LLM的參數和kv緩存都是實打實的內存容量占用大頭,而這些參數在每一輪forward的過程都全部要用一遍,這也就意味著你把內存里的數據都讀出來一遍要多久(即內存的容量和帶寬比)反而是最重要的。而擴內存帶寬一定需要增加DRAM bank數量從而等比擴內存容量,但擴內存容量可以把多個bank掛到一個通道上不增加內存帶寬,所以算成本的時候關鍵要看$/GBps,這方面HBM是最具性價比的選擇。
至于夏core提到的擴互聯帶寬,利用NVidia被美國出口管制卡帶寬的機會,確實是一個好的路子,但我覺得更重要的點在于,在LLM的游戲規則下,內存容量、內存帶寬以及互聯帶寬成了最核心的競爭力,而算力的重要性下降了,這才是NVidia戰術層面最大的破綻。你看,AMD發布MI300X可是對算力指標提都不提,只提內存容量、內存帶寬以及互聯帶寬。放在之前的AI芯片發布會上是完全不可能的事情,去年的時候大家都還在拼命吹算力指標。
Intel規劃的2025年的Falcon Shores GPU也規劃了288GB內存容量和9.8TB/s帶寬,我們先不考慮Intel會不會繼續跳票的問題,至少內存容量、內存帶寬以及互聯帶寬成了最核心的競爭力這一點,幾家半導體頭部大廠都是達成共識的。
那這為什么又是NVidia的破綻呢?因為內存容量、內存帶寬以及互聯帶寬都是標準化的,而算力是非標準化的。算力的非標準化是NVidia在過去十年最大的護城河,因為TOPS和TFLOPS是不一樣的,SIMT算力和DSA算力也是不一樣的,甚至AMD算力和NVidia算力也是不一樣的。過去AI芯片的核心競爭力在于算力,為了卷算力指標,有些廠商在TOPS和TFLOPS上玩花活,有些廠商在SIMT和DSA上玩花活,即使SIMT廠商,也需要在SIMT算力的具體實現上玩花活,不然難以對NVidia的算力指標產生競爭力。而這些花活的代價就是算力的非標準化,從而形成了CUDA深厚的護城河。
看過我之前文章的朋友都直到我在過去好多年都是在探討如何構建一個有競爭力的DSA算力范式,因為要在算力上競爭過NVidia,一方面要有對算力指標的需求來覆蓋算力遷移成本,這個在過去是成立的。另一方面需要有一個和NVidia的CUDA算力相比有競爭力的算力范式,而算力的顯性指標是TFLOPS,隱性指標是達到TFLOPS的開發時間成本(也就是易用性),我過去很多關于SIMT算力和DSA算力在編譯器層面的探討都是圍繞解決最后一環展開的,因為這是在過去的需求和市場條件下干老黃的唯一途徑。
但現在算力指標的重要性下降,前面這種干老黃的路徑的基礎邏輯崩塌了,對算力指標的需求下降了,覆蓋算力遷移成本的動力是更不足的,但一個更有潛力的干老黃的路徑出現了。
算力指標重要性的下降使得大家可以放棄在算力范式層面玩花活搞競爭力,轉而去追求內存容量、內存帶寬以及互聯帶寬的花活,這個層面玩花活的好處是他最后的指標是標準化的,只要你的花活真的能把這些指標懟上去,沒有太多隱性的護城河卡著你。而算力方面則可以盡量做到標準化,照著事實標準去做就行了,哪怕指標差一點,但堆到幾十TFLOPS的CUDA算力和幾百TFLOPS的矩陣算力其實都是可以做到的。
這時候通過市場對于大內存帶寬、大互聯帶寬的需求來覆蓋算力遷移成本,同時又通過算力標準化來降低這個遷移成本。更進一步,現在大模型訓練、推理、部署的系統軟件也正處于蓬勃造輪子的時期,處于大量新增代碼的積累階段,一系列全新的生態位正處于形成過程中,一個超大容量和帶寬的準標準化算力是有足夠卡這些全新生態位潛力的。
此外,夏core文章最后講的戰略層面的破綻產業利潤分配的不均也是蘊含在這背后的。
天下財共一石,老黃獨占八斗。
這是對全天下IT產業的傷害,包括TSMC,一個健康的產業,其整個環節是需要一個合理的分配比例的,你要說Logic制造的技術含量最高,但是分成的收益卻不到1%,這種分配關系不足以長期維系,tsmc的工藝演進是需要錢的(靠的就是大家共籌,利益均分),如果全世界IT就這么多錢,英偉達你是可以通過系統優勢拿走更多,但產業鏈中tsmc及其他各個環節就會更加艱難。三星的HBM其實同理,操了白粉的心,賣個白菜的價,不值得。
在LLM重新創建的邊界條件下,最大的需求HBM卻賣了個白菜價,只因老黃提供了事實標準的算力把這些內存帶寬連起來就吞了九成以上的利潤,這種不健康的產業利潤分配其實給廣大造反者提供了巨大的機會,畢竟一個準標準化的算力誰不會造(chao)呢?
當然了,雞血打完也還是要潑點冷水。首先這些道理老黃肯定比我們都有更深刻的認識,處于守勢的老黃其實有很多見招拆招的手段。夏core提的通過美帝的出口管制反向卡老黃的互聯帶寬,其實AMD的形態就是老黃可以破解的方法。如果老黃能在一張卡里就把大模型全部塞進去,大互聯帶寬最主要的需求就破解了,剩下的都可以靠其他并行模式以及廣大程序員優化出來,你互聯帶寬大任你大,我一堆“超大卡”之間卡著出口管制的帶寬也能把系統跑滿。
老黃最大的優勢就在于只要老黃還能滿足大家的需求,甚至只要大家有預期老黃還能在短時間內解決大家主要的需求,遷移算力的需求勢能就難以積累到足夠高度,比如AMD雖然現在拿出了一個核心指標壓NVidia一倍的大殺器,但只要大家仍然預期老黃明年也能掏出這樣一個大家伙,等等不香嗎?畢竟一年時間算力遷移都不一定搞得完的,到時候NVidia來一個差不多指標的,可不就是遷移了個寂寞。玩弄預期方面,老黃可是老手,前有算力增長的黃氏定律取代摩爾定律,老黃明年必然也會給大家塑造帶寬增長的新黃氏曲線,建立大家的預期??梢哉f,干老黃不光要干老黃當代產品,更要去干老黃給市場塑造的預期曲線。
此外,堆帶寬沒有秘密,老黃在NVLink和HBM上的布局也仍然是行業領先水平。
不過干老黃雖然不容易,但至少標準化的核心指標競爭終歸是把老黃和各家拉到了一個層面進行競爭,相比前幾年靠DSA在非標算力層面進行不對稱競爭相比,難度還是降低了非常多的。最后引用夏core文章結尾來收尾,與各位同僚共勉。
AI這個行業,也終將,昔日王榭堂前燕 飛入尋常百姓家。這是大勢。
-
英偉達
+關注
關注
22文章
3749瀏覽量
90857 -
LPDDR
+關注
關注
0文章
43瀏覽量
6315 -
算力
+關注
關注
1文章
936瀏覽量
14750
原文標題:英偉達的破綻
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論