數(shù)據(jù)中心高速傳輸是提升目前算力的重要技術(shù)之一,光通信已經(jīng)在數(shù)據(jù)中心內(nèi)部服務(wù)器互聯(lián)中廣泛應(yīng)用,而在更微觀的角度,光互連還能夠被應(yīng)用到主板上CPU與GPU的互連,甚至是更小尺度下的片上互連。
在2024年光纖通信大會(OFC)上,英特爾集成光子解決方案(IPS)部門展示了業(yè)界首款完全集成的光學(xué)計算互連(OCI)chiplet芯粒,該芯粒與英特爾CPU封裝在一起,將過去通過銅線實現(xiàn)的電氣I/O接口傳輸數(shù)據(jù),變成采用光學(xué)I/O解決方案,實現(xiàn)了高帶寬片上互連的突破。
AI數(shù)據(jù)中心,需要更高帶寬的互連
隨著“百模大戰(zhàn)”的打響,目前市面上琳瑯滿目的AI大模型產(chǎn)品都需要大量的算力進行支撐,包括模型研發(fā)階段的訓(xùn)練以及在實際落地中進行的推理計算都需要海量算力。隨著AI模型變得越來越復(fù)雜,它們需要更多的計算資源和數(shù)據(jù)交換能力。高帶寬互連可以提供必要的數(shù)據(jù)吞吐量,以支持這些大型模型的訓(xùn)練和推理。
而目前數(shù)據(jù)中心算力提升主要包括兩部分,一是采用算力更高的計算卡,二是提高大規(guī)模數(shù)據(jù)中心服務(wù)器或CPU和GPU之間的帶寬,提高整體系統(tǒng)的效率,比如英偉達的NVLink、AMD/英特爾/谷歌/微軟等巨頭共同組建的UALink標(biāo)準(zhǔn)等。
而從更加微觀的角度來看,在算力芯片中,每個模塊或者說每個Die、chiplet模塊之間其實也需要進行互連。以往芯片上都采用傳統(tǒng)的電互連,銅作為電傳輸信息的介質(zhì)。但畢竟銅是有電阻的,在高速數(shù)據(jù)傳輸過程中,發(fā)熱、損耗、功耗等都較高,相比之下,光傳輸損耗極低,且過程中不產(chǎn)生熱量,非常適合解決數(shù)據(jù)傳輸瓶頸問題。
在AI計算中,尤其是深度學(xué)習(xí)算法通常需要大量的并行計算,更高帶寬的互連能夠讓芯片上信息交換效率大大提升,從而實現(xiàn)更高效的并行處理。另外在chiplet封裝的趨勢下,多個模塊封裝在同一基板上集成為單顆SoC,更高速的片上互連則能加快這些芯粒之間的數(shù)據(jù)傳輸,從而提升計算能力。
從結(jié)構(gòu)上看,片上光互連其實是一種光子集成芯片技術(shù),將不同功能的有源器件和無源器件集成在同一塊光電基板上。光電基板上具有光子路由波導(dǎo),這些波導(dǎo)被用于數(shù)據(jù)通信,和用于電路走線的多層金屬層。CMOS電芯片堆疊在硅光芯片上,在光電基板上形成二維陣列。
光從基板上的激光光源中發(fā)出,輸入到基板上的路由波導(dǎo),通過波導(dǎo)到達光芯片上的調(diào)制器。這個時候電芯片上的信息數(shù)據(jù),通過電芯片和光芯片之間的微凸塊加載到環(huán)形調(diào)制器中,將數(shù)字1和0轉(zhuǎn)換為光的強度差異。
調(diào)制后的光信號通過光電基板上的波導(dǎo)傳播,到達其他光芯片上的光電探測器中。這個時候光信號就被轉(zhuǎn)換成電信號,這些信息就被不同的電芯片所接收。
當(dāng)然在實際應(yīng)用中,每個CMOS芯片和光芯片之間,都有數(shù)以千計的微凸塊被用于數(shù)據(jù)傳輸。因為光信號傳播不需要銅導(dǎo)線,損耗小,延遲低,這樣就實現(xiàn)了在光電基板上進行高能效、高帶寬密度、低延遲的光互連。
英特爾的集成OCI芯粒有哪些亮點?
據(jù)英特爾介紹,在OFC上展示的OCI芯粒集成了硅光子集成電路,包括片上激光器和光放大器、與電子集成電路。OCI芯粒除了在現(xiàn)場展示的與英特爾CPU封裝在一起外,還可以與下一代的CPU、GPU、IPUs以及其他SoC集成。
英特爾OCI支持高達4Tbps的雙向數(shù)據(jù)傳輸速率,與第五代PCIe兼容。在OFC現(xiàn)場光學(xué)鏈路演示展示了兩個CPU平臺之間通過單模光纖(SMF)跳線連接的發(fā)射機(Tx)和接收機(Rx)。CPU生成并測量了光比特錯誤率(BER),演示展示了在單根光纖上8個波長、200GHz間隔的Tx光譜,以及一個32Gbps的Tx眼圖,展示了強大的信號質(zhì)量。
目前的OCI芯粒支持每個方向上64個通道的32Gbps數(shù)據(jù)傳輸,傳輸距離可達100米(盡管由于飛行時間延遲,實際應(yīng)用可能限制在幾十米以內(nèi)),使用八對光纖,每對攜帶八個密集波分復(fù)用(DWDM)波長。共封裝解決方案的能效也非常高,每比特僅消耗5pJ,相比之下,可插拔光收發(fā)模塊大約為15pJ/bit。這種超高效能水平對于數(shù)據(jù)中心和高性能計算環(huán)境至關(guān)重要,并且可能有助于解決人工智能不可持續(xù)的功率需求問題。
作為在硅光領(lǐng)域投入多年的半導(dǎo)體巨頭,英特爾的主要優(yōu)勢就是高度集成化,采用混合激光器晶圓上技術(shù)和直接集成,這帶來更高的可靠性和更低的成本。這種獨特的方法使英特爾能夠在保持效率的同時提供卓越的性能。英特爾強大、高容量的平臺已經(jīng)出貨超過800萬個光子集成電路(PICs),集成了超過3200萬個芯片級激光器,顯示出時間失效(FIT)率低于0.1,可靠性極高。
小結(jié):
除了英特爾之外,目前在片上光互連領(lǐng)域還有曦智科技、Ayar Labs等企業(yè)在投入研發(fā),并取得了一定成果。2023年Hot CHIPS會議上,曦智科技展示了其片上光互連技術(shù)上的最新進展,該系統(tǒng)的通道數(shù)為512,單通道最長廣播距離為50mm,廣播延時1ns,單通道頻率4GHz,片上總帶寬達到2Tbps??梢灶A(yù)見,隨著數(shù)據(jù)中心算力需求的提高,片上光互連將會加快落地的進程。
-
英特爾
+關(guān)注
關(guān)注
60文章
9691瀏覽量
170330 -
chiplet
+關(guān)注
關(guān)注
6文章
394瀏覽量
12496 -
PCIe5.0
+關(guān)注
關(guān)注
0文章
16瀏覽量
1184
發(fā)布評論請先 登錄
相關(guān)推薦
評論