ChatGPT引發全球開啟 AI大模型軍備賽,受此影響,AI算力市場增勢顯著,數據中心擴容和升級在即。其中,光模塊作為數據中心設備互聯的關鍵載體,需求量隨之增長,與此同時,降低功耗、成本,并提升能效仍然是核心訴求。
AI驅動下,數據中心光模塊量價齊升
光模塊作為光纖通信的核心組成部分,主要用于實現光信號傳輸過程中光電轉換和電光轉換功能。據數據中心內部流量、帶寬等推算,近年來,光模塊速率約每三年左右提高一倍。當前,200G、400光模塊在數據中心大規模部署,并且,800G光模塊也正在成為全新需求,用在全球領先的超大規模數據中心、人工智能算力中心等;800G的下一代產品1.6T光模塊,也有望在2025年后推出。
對于通用服務器和AI服務器來說,所用光模塊有什么區別?業內進行過相關測算:一臺傳統服務器約需要配置 4-6 個光模塊,一臺AI服務器則需要8-10 個光模塊。而且,算力需求越大,越需要更高速率的光模塊,比如800G。假設投入100億搭建一個傳統數據中心,光模塊約需要5-6 億;同樣投入100億搭建AI智算中心,光模塊可能接近10億。這意味著AI驅動下,數據中心光模塊將呈現出量價齊升的態勢。
光模塊必備的DSP,被巨頭裹挾
光模塊用的電芯片包括激光驅動、TIA、CDR和DSP等。LightCounting預測,從2022年到2027年,光模塊電芯片市場的CAGR增長率將為18%,市場總額從當前的24億美元增長到53億美元,主要用于以太網和DWDM用光器件。
在光模塊中,DSP芯片主要用于處理調節衰減光信號,是高速光模塊中最核心的電芯片。當光傳輸速率達到50Gb/s以上,光纖偏振模色散影響加劇,嚴重影響鏈路有效傳播距離與信號質量,因此業界最常用的方法是通過DSP對抗與補償,來降低失真造成的系統誤碼率。業界一度認為在200G以上光模塊中,DSP基本屬于必備器件。
不過,DSP雖然具有很強的信號恢復能力,但不足之處就是成本和功耗較高、且延遲較大。成本方面,DSP幾乎成為光模塊BOM成本占比最高的電信號處理單元。有分析顯示:約在10年前,DSP剛用于光模塊時,工藝節點是65nm,設計成本2400萬美元;到2020年7nm產品推出時,設計成本已高達2.5億美元左右;預計5nm節點時,芯片設計成本將達到4.5億美元。
高額投入下,市場份額較小的廠商逐漸退出競爭。光模塊DSP市場頭部效應越來越明顯,國際上有inphi(已被Marvell收購)、Broadcom,國內有華為海思,幾乎沒有其他國內玩家參與,基本成為寡頭壟斷的市場。
功耗方面,DSP由于引入了DAC/ADC與算法,功耗高于傳統基于模擬技術的CDR芯片。16nm DSP解決方案的400G OSFP/QSFP-DD的設計功耗在12W左右,而DSP降低功耗的方法比較有限,主要依靠流片工藝的提升,如果從16nm升級到7nm,約能實現65%的功耗降低。
不論對于光模塊本身,還是交換機前面板的熱設計,DSP的功耗問題越來越成為一大挑戰,隨著光模塊速率的提升,數據中心迫切需要引入更先進工藝節點的DSP,但這帶來了成本和功耗的權衡問題。
“去DSP”趨勢顯著
AI高算力背景催生低功耗、低延時光模塊需求,LPO(Linear-drive Pluggable Optics) 線性直驅與 CPO(Co-packaged Optics)光電共封裝方案,是業界目前主要探討的兩種技術路線,這兩種方案都不再依賴DSP。
LPO線性直驅方案
LPO 被認為深度契合了AI短距互聯、低功耗、低延時的需求,且技術更新迭代相對較小,有望成為800G 時代的重要補充方案。據業內公開資料,相比傳統方案,LPO去掉DSP芯片后,整體光模塊成本至少下降15%。
也有業內人士認為,LPO的最大優勢不是降成本,而是降功耗。在現有光模塊架構中,它能夠實現50%左右的降功耗效果,對相關廠商吸引力很大。以400G光模塊為例,所用7nm DSP功耗約為4W,占模塊整體功耗的50%。LPO通過將DSP功能集成到交換芯片中, 只留下driver和TIA,并分別集成CTLE和Equalization功能,用于對高速信號進行一定程度的補償。相較DSP方案,LPO可大幅減少系統功耗和時延,保證傳輸性能的同時降低成本,并保持可插拔特性便于后續維護。
LPO代表廠商主要有Macom、Semtech、美信(已被ADI收購),博通也在跟進這一方向。前三家廠商在電芯片領域有一定優勢,都在大力推動LPO線性直驅驅動和TIA芯片。MACOM最新推出的800G線性驅動方案,相較于傳統方案,可使系統功耗降低70%、整體延遲減少75%。
CPO光電共封裝方案
CPO方案將光學器件(如激光器、調制器、光接收器等)封裝在芯片級別,直接與芯片內的電路相集成,借助光互連以提高通信系統的性能和功率效率。共封裝光學器件的一項關鍵創新是將光學器件移動到離交換芯片裸片足夠近的位置,以便移除額外的DSP。
借助CPO方案,網絡交換機系統的光接口從交換機外殼前端的可插拔模塊轉變為與交換機芯片組裝在同一封裝中的光模塊。
基于這種封裝模式,光學元件直接嵌入到芯片中,內部電路距離更近,減小了電信號的延遲和失真,提高了通信系統性能,減少了芯片與光模塊之間的連接器數量,減小了光模塊尺寸,提高光學和電子之間的互聯可靠性。并且,CPO可以減少能量轉換的步驟,從而降低功耗,與傳統光模塊相比,CPO在相同數據傳輸速率下可以減少約50%的功耗。
在光電共封裝領域,英特爾是資深的玩家之一。此外,還有博通、Marvell、思科等。
綜上,CPO主要技術路徑為硅光集成加外置光源,依然存在可靠性較低、維護較難的問題,成為主流應用還有諸多因素要克服;LPO作為一項新技術,根據預測可望在2024年底首次實現部署;在未來一段時間內,傳統的可插拔光模塊仍將是首選,7nm向5nm DSP的演進在加快,以滿足越來越嚴苛的功耗需求。
寫在最后
大模型、大數據、大算力日益成為AIGC應用的核心,其中,算力作為重要的基礎設施,正在面臨全面升級的需求。除了核心GPU處理器,通信因素也會成為短板,只要一條鏈路出現網絡阻塞,就會產生數據延遲。因此,AI服務器對于底層數據傳輸速率、延時要求等非常苛刻,進而對高速率的光模塊產生大量需求。
DSP作為光模塊核心器件,如今,正在面臨新技術路徑的沖擊和挑戰。特別是今年以來,光模塊“去DSP”趨勢顯著。這是光模塊領域的重要信號,或許會改寫未來的競爭格局,并有望引領光模塊、光芯片走向新的技術路徑。
編輯:黃飛
評論
查看更多