以太網or非以太網？各家AI/ML網絡技術盤點

? 　2023年7月，由 Linux 基金會及其聯合開發基金會倡議主辦的超以太網聯盟（Ultra Ethernet Consor tium，UEC）宣布正式成立，給暗流涌動的AI 網絡互聯生態圈投入了一枚深水炸彈。 2023年8月，在IEEE Hot Interconnects（簡稱HOTI，關注先進的硬件和軟件架構、各種互連網絡實現）國際論壇上，來自英特爾、英偉達、AMD等公司的代表就“EtherNET 還是EtherNOT ”的問題展開了小組討論，各家紛紛闡述了對以太網的想法。當前，新興的AI/ML工作負載正推動對高性能網絡互聯的需求。大約十年前，基于融合以太網的 RDMA （RoCE）將低延遲的數據傳輸引入了以太網架構，但與其他網絡技術相比，以太網似乎在技術發展上略顯滯后。EtherNET 與 EtherNOT 的較量又來了？以太網時代，云廠商、設備商等各方有肉的吃肉、有湯的喝湯，又到了關鍵抉擇期，各家又將如何選擇呢？

　　01EtherNET 還是 EtherNOT？

　　其實早在2005年的HOTI會議上，“EtherNET 還是 EtherNOT”這個話題已經被討論了，當時得出的結論如下：如今來看，當時的“預言”果真應驗了。

　　在2023 HOTI會議的圓桌討論中（視頻鏈接：https://www.youtube.com/watch？v=yAjP1idJvB8 ），英特爾高級研究員、網絡和邊緣組首席硬件架構師Brad Burres和AMD數據中心 GPU 系統架構師Frank Helms偏向于EtherNET。Brad Burres認為無論采用何種技術，都需要一個開放的生態系統來降低整個行業的成本，并實現所需的軟件基礎設施。而隨著協議的成熟，除非另一個開放的標準結構立即出現（例如CXL？），否則以太網將成為贏家。Frank Helms則列舉了全球超級計算機TOP500榜單中第一名Frontier、第二名Aurora和第五名LUMI，它們都基于以太網的HPE Cray Slingshot-11網絡結構進行連接。他認為以太網處于互聯技術的前沿。UEC（超以太網聯盟）的出現，也正反映了對于大型AI訓練集群互連來說，以太網有很多被壓抑的需求。

　　NVIDIA網絡研究總監Larry Dennison認為以太網離滿足AI工作負載的需求還存在著一定的差距。如果以太網滿足了所有的這些需求，它還是以太網嗎？在多長的時間能實現？以太網的市場確實很大，它不會消失，但在未來幾年，以太網的發展速度將無法滿足這個市場的需求。蘇黎世聯邦理工學院教授、微軟大規模人工智能和網絡領域的顧問Torsten Hoefler指出以太網是數據中心和超級計算機的現在和未來，但不是我們現在所說的以太網，以太網需要進化。

　　01開放生態or供應商鎖定？

　　從歷史上看，InfiniBand 和以太網一直在爭奪AI/ HPC 市場的主導地位，它們都是開放標準。然而，一個關鍵的區別是，目前InfiniBand 僅由 Nvidia 作為單一供應商提供支持，而以太網則享有多供應商的支持，從而培育了一個充滿活力和競爭的生態系統。但是，在人工智能和高性能計算網絡解決方案領域，即使是以太網解決方案也帶有“部分定制”的標簽，有可能導致供應商鎖定。

　　例如，博通的 Jericho3 以太網交換機在其高性能“fully scheduled fabric”模式下運行時，要求整個網絡fabric使用相同的交換機芯片。

　　思科的 Silicon One 交換機和 Nvidia 的 Spectrum-X 交換機也出現了類似的情況——高性能要求可能會造成供應商鎖定。

　　一些超大規模企業設計了“定制”NIC，這也可以導致定制網絡。因此，即使在選擇以太網解決方案時，也可能會遇到自定義實現和供應商鎖定的情況。

　　AI/HPC 網絡可能會向一個新的、開放的、功能更強大的傳輸標準過渡，部分或完全取代 ROCEv2 RDMA 協議，這是超以太網聯盟正在追求的愿景。

　　02各家AI/ML 網絡技術盤點

　　那么，超大規模廠商如何選擇它們的 AI/ML 網絡技術的呢？是EtherNET 還是 EtherNOT？以下是對各廠商AI網絡方案簡單的整理，很多廠商的選擇并不是非A即B，平衡和利益是最終追求，不著急選邊站也許才是最好的選擇。

　?。?a href="http://www.nxhydt.com/tags/亞馬遜/" target="_blank">亞馬遜AWS

　　亞馬遜從 InfiniBand RD 協議中汲取靈感，推出了適用于 HPC 網絡的可擴展可靠數據報（SRD）傳輸協議。亞馬遜“獨家”采用增強型網絡適配器（ENA），該適配器基于其專有的 Nitro 芯片構建。 SRD 利用 UDP，支持跨多個鏈路的packet spraying，并消除了“按順序”數據包傳送要求，以減少fabric擁塞和尾部延遲。必要時，數據包的重新排序由 SRD 的上層管理。亞馬遜繼續追求本土的AI/HPC網絡戰略，并且可能是與 Nvidia 合作最少的公司。

　　相關鏈接：AWS re:Invent：SRD協議將取代TCP？

　?。竟雀?/p>

　　谷歌將自己的 TPU 和 Nvidia 的 GPU混合使用。TPU 和 GPU 相互競爭，并且可能根據工作負載適用性進行部署。谷歌很可能沒有在其網絡中使用 InfiniBand 產品。谷歌 AI/ML 網絡是相對定制的，并且多年來一直在部署類似 NVLink 的“coherent”架構。谷歌在網絡堆棧上進行了大量創新，并在其常規數據中心和人工智能數據中心部署了“本土”光交換系統（OCS）——一種基于微機電系統（MEM鏡像）的電路交換機。光交換機通常消除了一層物理交換機，支持更高的基數配置，并降低功耗和延遲。光交換機“反射”光，并且與網絡協議和網絡交換機升級無關。缺點是鏡像重新配置時間通常較長，在幾十毫秒范圍內，因此這些 OCS 交換機作為固定容量“circuit”線路工作。對于人工智能訓練網絡來說，這不是一個主要問題，因為流量模式是可預測的。

　　＞微軟

　　微軟是超大規模企業中最務實的，它很早就采用了 InfiniBand 為其合作伙伴 OpenAI 構建人工智能網絡。雖然微軟為 Azure 云開發了自己的定制網絡適配器并使用定制的 RDMA 協議，但它對 InfiniBand 的開放性、對 Nvidia 全棧 AI/ML 解決方案的擁抱，以及與 OpenAI 的緊密合作，所有這些都使其成為Nvidia的首選客戶！微軟收購了 Fungible，該公司發明了 True Fabric——一種基于 UDP 的可靠數據報協議，可處理流量、擁塞和錯誤控制，并優化尾部延遲。一些 Fungible 技術創新可能會出現在未來的微軟的產品和開源貢獻中。

　　相關鏈接：1.9 億美元，Fungible難逃賣身劫？

　　＞Meta

　　Meta是AI競賽中的黑馬，其人工智能計劃有何突出之處？

　　采用Llama等基礎模型的開源方法

　　通過PyTorch軟件框架/生態系統，使 AI 變得用戶友好并可供每個軟件工程師使用。

　　在硬件方面，Meta建立了開放計算項目社區，作為開源硬件創新的關鍵支柱。 Meta部署了大型GPU集群，并憑借其推薦系統（DLRM模型）一直處于人工智能創新的前沿。Meta 的 AI 基礎模型和 PyTorch 生態系統啟用了龐大的開源 AI 創新庫，部署了基于以太網和 InfiniBand 的 AI/ML 集群，還為其 DLRM 模型和視頻轉碼構建 ASIC。 Meta 正在讓人工智能“民主化”，盡管目前尚未獲得足夠的認可，但這種趨勢很快就會轉變。

　　相關鏈接：Meta和MIT最新網絡架構研究，對傳統架構提出挑戰

　?。綩racle

　　Oracle 堅定支持以太網，不使用 InfiniBand。 Oracle 云基礎設施（OCI）利用 Nvidia GPU 和 ConnectX NIC 構建基于 ROCEv2 RDMA 的超級集群。OCI構建了一個獨立的RDMA網絡，基于DC-QCN的自定義擁塞通知協議，最小限度地使用 PFC，并針對 AI 和 HPC 工作負載進行了微調的自定義配置文件。

　?。綨vidia

　　Nvidia 的 GPU 及其全棧 AI/ML 解決方案使其成為市場中無可爭議的上流玩家。 Nvidia DGX Cloud 解決方案將 Quantum-2 （25.6Tbs） InfiniBand 交換機與 ConnectX 和 Bluefield 網絡適配器集成。這些網絡適配器支持以太網和 InfiniBand。基于 DGX Cloud 的全棧 InfiniBand 解決方案還將通過 Nvidia 及其 OEM 銷售到電信和企業市場。然而，Nvidia 還通過其 Spectrum-X 交換機大力投資以太網。幾年前，InfiniBand 是人工智能訓練的首選架構，使其成為 Nvidia 集成 DGX 云解決方案的理想選擇。隨著 Nvidia Spectrum-X 以太網交換機（容量為 51.2 Tbs，是 InfiniBand 交換機容量的兩倍）的推出，Nvidia 將轉向以太網進行大規模 GPU 部署，以利用以太網更高的端口速度、成本效益和可擴展性。 Spectrum-X 以太網交換機支持高級 ROCEv2 擴展 — RoCE 自適應路由和擁塞控制、遙測支持以及稱為collective的網內計算（通過 Nvidia 的 SHARP 產品）。

　　相關鏈接：誰能阻止英偉達？

　　＞博通

　　博通提供全面的 AI/HPC 網絡解決方案，包括交換機芯片和網絡適配器。博通對“Correct Networks”的戰略收購引入了基于 EQDS UDP 的傳輸協議，該協議將所有排隊活動從核心網絡轉移到transmitting主機或leaf交換機。這種方法支持 Jericho3/Ramon3 芯片組合中的交換機優化，這是一種“fully scheduled fabric”，配備了packet spraying、leaf交換機中的重新排序緩沖區、路徑再平衡、丟棄擁塞通知和硬件驅動的帶內故障恢復機制。 Tomahawk （52Tbs）系列專為優化單芯片容量而設計，并非fully scheduled fabric。Tomahawk 交換機也支持邊緣隊列，它還支持硬件中的延遲關鍵功能，例如全局fabric級負載平衡和路徑再平衡。Tomahawk 不支持leaf交換機中的數據包排序，因此需要在網絡適配器（端點）中實現數據包重新排序緩沖區。

　　＞思科

　　思科最近推出了 Silicon One 52Tb/s 交換機，展示了其網絡解決方案的多功能性。該交換機是 P4 可編程的，可以靈活地對各種網絡用例進行編程。思科基于 Silicon One 的交換機提供對fully scheduled fabrics、負載平衡、硬件故障隔離和遙測的支持。思科與多家 NIC 供應商合作，提供完整的 AI/ML 網絡解決方案。

　　相關鏈接：思科推出新的AI網絡芯片，正面硬剛博通、Marvell

　　03總結

　　面向AI/HPC 網絡的以太網標準化之旅才剛剛開始，需要通過規模、開放創新和多供應商競爭進一步降低成本和功耗。超級以太網聯盟由主要網絡利益相關者組成，致力于打造一個專為 AI/HPC 工作負載量身定制的開放式、“全?！币蕴W解決方案。如上所述，大多數“必要的”AI/HPC 網絡技術已經由各種以太網供應商和超大規模提供商以某種形式或方式大規模部署。所以，關于標準化的挑戰不是技術性上的，更多的是建立共識。

審核編輯：黃飛

閱讀全文