數據中心處理器正在重新架構、定制化和多樣化。當超大規模數據中心開發他們自己的芯片時,以前為他們服務的芯片公司應如何應對?定制化是正確的方向嗎?
由于Amazon、Google和Meta等超大規模數據中心的推動,數據中心芯片的多樣化和定制化趨勢日益加劇。
他們試圖繞過傳統芯片設計師的做法為芯片行業帶來了擔憂。
這些擔憂是有道理的。
打入超大規模數據中心處理器市場對傳統芯片公司和初創公司提出了挑戰。這部分是因為超大規模數據中心要求專為其算法和工作負載而定制的特定硬件解決方案。擁有專有軟件的超大規模數據中心也具有不公平的競爭優勢。
重新架構數據中心
首先,讓我們分析一下當前數據中心處理器市場的現狀。
根據Yole Intelligence科技與市場分析師Adrien Sanchez的說法,如今有兩種主要類型的處理器進入數據中心。“一種是CPU,另一種是加速器。”
在CPU類別中,主要競爭對手是Intel和AMD。新玩家如Ampere和Nvidia也開始出現,一些中國玩家也加入了該行列。但關鍵是,一些超大規模數據中心如AWS和阿里巴巴已經開發了自己的定制CPU。
另一方面,加速器有幾個子類別。它們包括:
由Nvidia和AMD主導的GPU/圖形加速器。
通用圖形處理單元(GPGPU)和AI加速器,同樣由Nvidia和AMD主導。Yole的Sanchez表示,Intel目前也在為這個子類別開發新產品。這也是許多AI硬件初創公司爭相推出產品的領域。幾乎所有的超大規模數據中心也都有自己的定制處理器,專門用于加速AI訓練與推理。
數據處理單元(DPU)/智能網絡接口卡(NIC)開始用于加速數據和網絡工作負載。Sanchez表示,這個子類別的主要競爭對手包括Broadcom、Marvell、Nvidia(Mellanox產品線)、AMD(既有Xilinx,又有Pesando處理器)和Intel。一些超大規模數據中心如AWS和阿里巴巴也有自己的產品。
Tirias Research的首席分析師Steve Leibson解釋說:“數據中心架構已經在發生變化,特別是在加速器的應用上。”
例如,根據Lebson的說法,Microsoft Azure一直將FPGA置于其基礎架構的核心,尋求利用其增加的靈活性。他補充說:“AWS多年來一直將FPGA加速作為實驗提供給客戶。”他還說:“最近,隨著AI特別是ChatGPT的出現,Nvidia的GPU已經在加速器競賽中處于核心地位,Nvidia正投入大量資源進行數據中心架構的開發。”
Leibson認為“安全性”是推動數據中心重新架構的另一個因素。Leibson解釋說,Intel和AMD正在推動DPU,Intel稱之為基礎設施處理單元(IPU),因為它們可以將基礎設施任務從服務器CPU中移除。目標是阻止惡意行為者試圖訪問關鍵數據。DPU/IPU和智能NIC位于服務器領域之外。
定制化趨勢正在發生嗎?
在這種背景下,數據中心處理器的多樣化正在迅速展開。像Marvell和Broadcom這樣的公司認為,這種變化讓芯片行業的老業務模式定制ASIC重新煥發生機。
他們計劃推動定制化來幫助超大規模數據中心。他們的戰略首先從超大規模數據中心處理器的邊緣開始,試圖用自己的IP進行滲透。
Marvell最近推出的高速、超高帶寬SerDes采用了TSMC的3nm工藝生產,就是一個例子。
像I/O模塊、存儲器、SerDes和互連這樣的IP并不是定制化超大規模數據中心芯片中最引人注目的元素。但是,利用像Marvell這樣的公司已經可以獲得的IP,使得超大規模數據中心更容易加速其數據中心芯片的定制化。
然而,與Nvidia、AMD和Intel在數據中心更廣泛產品組合中取得的更深入進展相比,Marvell在數據中心的進展規模相形見絀。
瓶頸點
Marvell認為“定制化正成為客戶業務的核心”。
Marvell的計算與定制集團技術副總裁Mark Kuemerle觀察到:“關于這些數據中心客戶的有趣事實是,如果他們的系統中出現輕微的瓶頸點,問題會被放大1000倍甚至更多(因為它們部署在超大規模中)。”這樣的瓶頸點可能導致NIC卡住。現成的機器學習設備可能無法匹配工作負載或滿足靈活性或可編程性的需求。
Kuemerle說:“這些超大規模數據中心真的必須將一切精確調整到他們的工作負載。那么,他們投資建設定制芯片絕對是值得的。”
Kuemerle表示,這些客戶還需要解決方案來覆蓋他們構建的所有內容,“從基礎NIC到視頻加速,再到大規模機器學習”。
回到ASIC了嗎?
等一下。Marvell的這種方法不是讓芯片行業回到了ASIC的黑暗時代嗎?
在20世紀90年代,領先的芯片公司渴望設計和提供針對特定應用的定制ASIC設備,同時提供更好的性能。Sony、Toshiba和IBM最初設計的用于Sony Playstation 3的Cell Processor就是一個例子。
但那些ASIC的歲月已經過去了。為特定產品設計ASIC變得越來越難以合理規模。坦率地說,人們開始討厭ASIC。那么,情況發生了什么變化,數據中心公司真的需要定制芯片嗎?
Marvell新成立的計算與定制集團高級副總裁Kevin O'Buckley承認,對ASIC的反感確實出現了。但他堅稱,只有當系統公司試圖將真正先進的工藝節點應用到他們自己的ASIC時,才產生了這種看法。那對任何人來說都變得過于昂貴。
但如今,當摩爾定律放緩時,尋求更先進的工藝節點不再是潛在ASIC客戶的唯一選擇。客戶可以選擇2.5D、3D芯片或芯片組,混合匹配不同的IP、硬件和封裝技術。
有鑒于此,O'Buckley認為,“從收入、SAM(serviceable available market)和TAM(total available market)來看,ASIC市場實際上從未如此龐大。”
當然,O'Buckley承認,從投資回報來看,可以承受投資的客戶和應用的整合實際上正在縮小。盡管芯片制造商競標的領域數量減少,項目數量減少,但他強調,“這些單個領域的價值和影響正在爆炸式增長。”
對定制芯片的懷疑仍然存在
Tirias Research的Leibson對主要芯片公司正在忙于定制他們的GPU和CPU以適應特定超大規模數據中心客戶的需求持懷疑態度。
Leibson表示:“他們可能會這樣做,但我認為這些公司更有可能與超大規模數據中心討論需求,并嘗試提供滿足聚合需求的標準設備。”在他看來,定制芯片是為客戶量身定制的芯片,正如Intel與Google合作開發Mt. Evans ASIC IPU那樣。
對于芯片公司來說,這是否具有商業意義又是另一個問題。畢竟,芯片供應商必須尋找規模大的機會。
Yole Intelligence的技術與市場分析師John Lorenz表示贊同:“在某種程度上,AMD和Intel正在提議更多的硬件定制,例如AMD的MI300系列和Intel的Rialto Bridge系列,客戶可能會尋找不同的CPU、GPU和XPU組合,以根據他們的需求定制計算解決方案。”他補充說,“相比之下,Nvidia解決方案的更多靈活性來自CUDA軟件,硬件方面較少。盡管如此,我們應該看到Grace和Hopper的一些組合作為某些硬件選項。”
Yole的Lorenz和Tirias Research的Leibson都不確定AMD是否計劃將其半定制芯片業務(目前專用于游戲機芯片)擴展到一些不同領域。
然而,一年前,在AMD的財務日上,Lisa Su闡述了她的雄心。“在過去的10年里,我們一直從事定制芯片業務。如果你看看我們在游戲機市場所做的事情,那就是定制芯片,將我們的芯片帶給我們客戶對市場、系統和軟件應用的愿景。我認為,定制芯片的趨勢只會繼續增長。”
Lisa Su表示,AMD的一些超大規模數據中心客戶正在尋求AMD的幫助 為自己的芯片進行差異化。然而,AMD的定制芯片項目的細節尚未公開。
超大規模數據中心定制芯片的需求將繼續存在。對于超大規模數據中心來說,定制ASIC是有意義的。然而,如果相關ASIC只成為一次性解決方案,那么像Marvell這樣嘗試定制策略的芯片公司能否在這樣的不確定性趨勢中尋找的規模機會就不得而知了。
審核編輯:劉清
-
處理器
+關注
關注
68文章
19165瀏覽量
229124 -
存儲器
+關注
關注
38文章
7452瀏覽量
163605 -
加速器
+關注
關注
2文章
795瀏覽量
37759 -
DPU
+關注
關注
0文章
354瀏覽量
24127 -
ASIC芯片
+關注
關注
2文章
91瀏覽量
23722
原文標題:超大規模數據中心要回到ASIC歲月么?
文章出處:【微信號:Astroys,微信公眾號:Astroys】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論