周四,英特爾、AMD、博通、思科、谷歌、HPE、Meta和微軟宣布正在建立一個新的行業組織——Ultra Accelerator Link(UALink)推廣組,以指導數據中心AI加速器芯片之間連接組件的發展。作為一項新的開放標準,他們希望用它來取代 Nvidia專有的 NVLink 接口。
?
去年七月,由英特爾、AMD、思科、Meta等公司支持的超以太網聯盟 (UEC) 正式成立,旨在引領高性能網絡的發展。現在,UALink橫空出世,用于在同一系統或形成pod 的一組系統內連接 GPU/加速器。
如何“連接” GPU ?
Nvidia作為GPU技術的領航者,顯著推動了GPU技術在高性能計算、通用人工智能(GenAI)等多個領域的應用發展。通過GPU間的互聯,可以實現更復雜問題的處理及應用性能的飛躍。
GPU互連主要有三種基本方式:
1. PCI 總線:一般支持4至8個GPU通過PCI總線相連,而利用GigaIO FabreX內存架構等技術,這一數量可拓展至32個。CXL 技術也展現出了潛力,但是 Nvidia 對此的支持有限。對于多種應用場景,這些可重組的GPU架構作為GPU直接擴展的替代方案,具有吸引力。
2. 服務器間互連:以太網或 InfiniBand 可以連接包含 GPU 的服務器。這種連接級別通常稱為橫向擴展,其中較快的多 GPU 域通過較慢的網絡連接以形成大型計算網絡。其中,以太網長期擔當計算機網絡的核心,超以太網聯盟的成立進一步推動其高性能發展。英特爾Gaudi -2 AI 處理器在芯片上擁有 24 個 100-Gigabit以太網連接,強化了在以太網領域的地位。Nvidia未加入Ultra Ethernet聯盟,其在 2019 年 3 月收購 Mellanox 后,幾乎獨占了高性能 InfiniBand 互連市場。超以太網聯盟旨在成為其他企業的“InfiniBand”。值得注意的是,英特爾過去曾是InfiniBand的主要推動者。
3. GPU 到 GPU 互連:鑒于快速且可擴展的GPU連接需求,Nvidia開發了NVLink,這是一種目前可在GPU間以每秒1.8TB 的速率傳輸數據的GPU間連接技術。還有NVLink機架級交換機,能夠在無阻塞計算結構中支持多達576個全互聯GPU。通過NVLink相連的GPU被稱為“pod”,表明它們擁有獨立的數據和計算域。
對于其他廠商來說,除了AMD用于連接MI300A APU的Infinity Fabric外,別無選擇。如同InfiniBand與以太網的情況,需要一個由競爭對手組成的某種“Ultra”聯盟來填補非Nvidia“pod”領域的空白。而UALink正是這一需求的響應。
UALink 劍指 NVLink !
與 NVLink 類似,構建一個強大、低延遲且高效的橫向擴展網絡至關重要,該網絡可以輕松地將計算資源添加到單個實例(即將 GPU 和加速器視為一個大型系統或“pod”)。
在此背景下,UALink 和開放行業規范的出現對于標準化下一代硬件的 AI 和機器學習、HPC 和云應用接口至關重要。該小組將開發一種高速、低延遲的互連規范,旨在加速AI計算Pod中加速器與交換機間的擴展通信。
UALink 1.0規范將支持在AI計算Pod內部連接多達1,024個加速器,并允許Pod內加速器(如GPU)所附著的內存之間進行直接加載與存儲操作。UALink發起小組已組建UALink聯盟,預計該聯盟將于2024年第三季度正式成立。1.0規范預期同樣在2024年第三季度面世,并向加入UALink聯盟的公司開放。
UALink Scale Up Pod
UALink 的一大優勢是,它為業內其他廠商提供了一個追趕Nvidia的機會。如今,Nvidia已有能力生產NVSwitch盒,并將這些NVSwitch托盤集成進諸如Nvidia DGX GB200 NVL72之類的高端產品中。相比之下,英特爾今年銷售了價值數億美元的 AI 加速器,AMD憑借MI300X預計將售出數十億美元的產品,但盡管如此,其在AI領域的規模仍無法與Nvidia相提并論。
UALink的出現,使得像博通這樣的企業能夠制造UALink交換機,助力其他企業實現規模擴展,并且這些交換機能跨不同廠商的多種加速器使用。此前,博通就制定了Atlas交換機計劃,即利用AMD Infinity Fabric作為與Nvidia NVLink競爭的規模化升級方案,并應用于PCIe Gen7的博通交換機中,這些交換機可能會實現 UALink V1.0。
超以太網將繼續作為向更多節點擴展的關鍵技術。博通可能會在其 800Gbps Thor 產品系列的早期型號中集成超以太網 NIC,但考慮到規范標準化的當前進程,全面實現UEC標準的支持可能還需等待下一代產品的問世。
UALink Ultra Ethernet
為了支持 UALink,超以太網聯盟主席 J Metz 博士表達了其積極的支持態度:“在很短的時間內,科技行業已經接受了AI和HPC揭示的挑戰。在追求效率與性能提升的過程中,加速器,尤其是GPU的互連,需要一個全面的視角。我們相信UALink所采取的針對Pod集群問題的擴展解決方案,與UEC的橫向擴展協議相得益彰。我們滿懷期待,未來能攜手合作,共同打造一個既開放又利于生態系統建設、覆蓋全行業的解決方案,以全面滿足不同場景下的擴展需求。”
最后
如今,許多企業都在嘗試采用標準 PCIe 交換機,并構建基于 PCIe 的架構以擴展到更多加速器。然而,行業巨頭們似乎視其更多為權宜之計。相比之下,Nvidia的NVLink成為了業內公認的橫向擴展技術標桿。現在,一個開放標準的陣營正崛起,旨在打破其專有技術壁壘。
對于 AMD 和英特爾等公司來說,這提供了一條復制 NVLink 和 NVSwitch 功能的道路,同時能夠與其他企業共享開發成果。博通這樣的公司很可能是最大的贏家,無論是在橫向還是縱向擴展場景下,它都將成為非Nvidia系統連接解決方案的首選供應商。無論AMD或英特爾誰能領先,博通都將作為連接技術的供應商而受益。對于超大規模數據中心運營商來說,投資標準化架構極具意義,無論最終采用哪家的終端設備。
這一切都需要時間。
審核編輯:劉清
-
英特爾
+關注
關注
60文章
9900瀏覽量
171548 -
以太網
+關注
關注
40文章
5385瀏覽量
171160 -
交換機
+關注
關注
21文章
2624瀏覽量
99285 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5781 -
AI加速器
+關注
關注
1文章
68瀏覽量
8629
原文標題:“復仇者聯盟”集結!英特爾、AMD等聯手推出 UALink,劍指英偉達NVLink!
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論