并從計算節點成本優化、集群網絡與拓撲的選擇等方面論述如何構建及優化GPU云網絡。
Part 1:Compute Fabric 計算節點的選型
計算節點作為AI算力中心的核心組成部分,其成本在建設報價中占據極大比重。初始獲取的HGX H100物料清單(BoM)通常采用頂級配置,價格不菲。
值得注意的是,HGX與NVIDIA的系統品牌DGX不同,它作為一個授權平臺,允許合作伙伴根據需求定制GPU系統。針對這一特點,我們可以從以下幾方面著手,合理優化成本,以適應業務實際需求;
默認 HGX H100 機箱 物料報價清單
來源:SemiAnalysis
選擇中端CPU
LLM大型語言模型訓練主要依賴于GPU的密集計算能力,對CPU的工作負載要求不高。CPU在此過程中承擔的角色較為簡單,包括但不限于使用PyTorch進行GPU進程控制、網絡初始化、存儲操作以及虛擬機管理程序的運行。選取一款中端性能的CPU例如Intel CPU,可以確保NCCL性能和虛擬化支持方面表現更為出色,且系統錯誤率較低。
RAM 降級到 1 TB RAM 同樣是計算節點中相對昂貴的部分。許多標準產品都具有 2TB 的 CPU DDR 5 RAM,但常規的AI工作負載根本不受 CPU RAM 限制,可以考慮減配。 刪除 Bluefield-3 DPU
Bluefield-3 DPU最初是為傳統 CPU 云開發的,賣點在于卸載CPU負載,讓CPU用于業務出租,而不是運行網絡虛擬化。結合實際情況,奔著GPU算力而來的客戶無論如何都不會需要太多的 CPU 算力,使用部分 CPU 核心進行網絡虛擬化是可以接受的。此外Bluefield-3 DPU 相當昂貴,使用標準 ConnectX 智能網卡完全可滿足網絡性能所需。綜合考慮前述幾項成本的優化,已經可為單個服務器降低約5%的成本。在擁有 128 個計算節點的 1024 H100 集群中,這個比率背后的金額已經相當可觀。
英偉達官網對Bluefiled-3和CX智能網卡的應用解釋:BlueField-3 適用于對數據處理和基礎設施服務有較高要求的場景,如云計算、數據中心等;ConnectX-7 則更適合需要高速網絡連接的應用,如高性能計算、人工智能網絡等。
減少單節點智能網卡數量(請謹慎選擇)
標準物料清單中,每臺 H100 計算服務器配備八個 400G CX-7 NIC,單服務器的總帶寬達到 3,200Gb/s。如果只使用四塊網卡,后端計算網的帶寬將會減少 50%。這種調整顯而易見可以節約資金,但多少會也對部分AI工作負載性能造成不利影響。
AI智能網卡Smart NIC主要解決的問題是網絡傳輸上無法線性傳輸數據問題,以及卸載更適合在網絡上執行的業務,更適用于對網絡傳輸要求較高的AI網絡基礎設施。智能網卡作為后端網絡的重要組件,配合其他硬件設備(交換機與光模塊等)共同解決大規模網絡擁塞死鎖、丟包及亂序等一系列網絡傳輸的問題。因此,我們不建議在AI工作負載網絡下減少智能網卡的數目以達到避免網絡傳輸故障的可能。
Kiwi SmartNIC 產品介紹
Kiwi小編將于近期為大家講述AI智能網卡與DPU的主要區別,敬請期待。
Part 2:集群網絡的選型
集群網絡是繼Compute計算節點之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網絡: 后端網絡(計算網,InfiniBand 或 RoCEv2):用于將 GPU 之間的通信從數十個機架擴展到數千個機架。該網絡可以使 InfiniBand 或 Spectrum-X 以太網,也可以使用其他供應商的以太網。 前端網絡(業務管理和存儲網絡): 用于連接互聯網、SLURM/Kubernetes 和網絡存儲以加載訓練數據和Checkpoint。該網絡通常以每 GPU 25-50Gb/s 的速度運行,滿配八卡的情況每臺GPU服務器的帶寬將達到 200-400Gb/s。
帶外管理網絡 :用于重新映像操作系統、監控節點健康狀況(如風扇速度、溫度、功耗等)。服務器上的BMC、機柜電源、交換機、液冷裝置等通常連接到此網絡以監控和控制服務器和各種其他 IT 設備。
來源:Marvell ,AI集群網絡
默認 HGX H100 集群網絡物料報價清單
來源:SemiAnalysis
計算網絡:RoCEv2替代IB
與以太網解決方案相比,NVIDIA 提供的InfiniBand無疑更昂貴,但部分客戶會認為以太網性能相對偏低,這主要是因為以太網需要進行必要的無損網絡參數配置并且針對性調優才能發揮集合通信庫的性能。
然而,不過從對業務性能的影響角度看,目前在萬卡以下的AI網絡技術背景下使用IB或是RoCEv2作為后端計算網并沒有太多差異。這兩類網絡在千卡級別的集群規模下經過調優都可以實現相對無損的網絡傳輸。以下圖示主要基于大規模集群條件下IB和RoCEv2的共同點與差異點。
IB VS RoCEv2主要區別
與此同時,隨著遠程直接內存訪問(RDMA)被普遍應用,現在越來越多的關注點轉向了將開放標準、廣泛采用以太網用于大規模算力網絡場景。與InfiniBand相比,以太網降低了成本和復雜性,并且沒有可擴展性的限制。
AMD近期提及以太網據最新實例統計,在后端網絡,相比InfiniBand,以太網RoCEv2是更好的選擇,具有低成本、高度可擴展的優勢,可將TCO節省超過50%,能夠擴展100萬張GPU。而InfiniBand至多能擴展48000張GPU。
無論是在AI訓推的測試場景,還是頭部云廠商已有的組網案例中,AI以太網都有了大量成功案例可供參考。據統計,在全球 TOP500 的超級計算機中,RoCE和IB的占比相當。以計算機數量計算,IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計算,IB占比為 39.2%,RoCE 為 48.5%。目前包括奇異摩爾在內的AI產業鏈成員相信有著開放生態的高速以太網將會得到快速發展。
前端網絡:合理降低帶寬速率
NVIDIA 和一些OEM/系統集成商通常會在服務器提供 2x200GbE 前端網絡連接,并使用 Spectrum Ethernet SN4600 交換機部署網絡。我們知道,這張網絡僅用于進行存儲和互聯網調用以及傳輸基于 SLURM,Kubernetes 等管理調度平臺的帶內管理流量,并不會用于時延敏感和帶寬密集型的梯度同步。每臺服務器 400G 的網絡連接在常規情況下將遠超實際所需,其中存在一些成本壓縮空間。
帶外管理網絡:選用通用的以太網交換機
NVIDIA 默認物料清單一般包括 Spectrum 1GbE 交換機,價格昂貴。帶外管理網絡用到的技術比較通用,選擇市場上成本更優的 1G 以太網交換機完全夠用。
Part 3:計算網絡拓撲的架構優化
GPU集群計算網將承載并行計算過程中產生的各類集合通信(all-reduce,all-gather 等),流量規模和性能要求與傳統云網絡完全不同。
NVIDIA 推薦的網絡拓撲是一個具有無阻塞連接的兩層胖樹網絡,理論上任意節點對都應該能同時進行線速通信。但由于存在鏈路擁塞、不完善的自適應路由和額外跳數的帶來的通信延遲,真實場景中無法達到理論最優狀態,需要對其進行性能優化。
軌道優化(Rail-optimized)架構
舉例來說:Nvidia的DGX H100服務器集成了八個通過NVSwitches連接的H100 GPU,實現了7.2 TBps的無阻塞內部帶寬。而GB200 NVL72計算機則更進一步,以每GPU 14.4 TBps的速度將72個B200超級芯片通過第五代NVLink技術連接在機架內。(相關閱讀:預計OCP成員全球市場影響力突破740億美元——OCP 2024 Keynote 回顧)
這里將這些具備TB級內部帶寬的平臺統稱為高帶寬域”HBD”。Rail優化網絡作為一種先進的互聯架構被廣泛應用。然而,盡管Rail優化網絡在降低局部通信延遲方面表現出色,但它依然依賴于Spine交換機層來連接各個Rail交換機,形成完全二分法的Clos網絡拓撲。這種設計確保了不同HB域中的GPU能以TB級別速率進行高效通信。
(Source:https://arxiv.org/html/2307.12169v4)
軌道優化網絡的主要優勢是減少網絡擁塞。因為用于 AI 訓練的 GPU 會定期并行底發送數據,通過集合通信來在不同GPU之間交換梯度并更新參數。如果來自同一服務器的所有 GPU 都連接到同一個 ToR 交換機,當它們將并行流量發送到網絡,使用相同鏈路造成擁塞的可能性會非常高。如果追求極致的成本優化,可以試用一種Raily-Only單層軌道交換機網絡。
Raily-Only單層軌道交換機網絡
Meta在近期就發表過類似的文章,提出了一種革命性思路-拋棄交換機Spine層。
(Source:https://arxiv.org/html/2307.12169v4)
相較于傳統的Rail-optimized GPU集群,Rail-only網絡保留了HB域和Rail交換機,但巧妙地移除了Spine交換機。這一變革確保了同一網絡內的GPU對之間的帶寬保持不變,同時實現了網絡Fabric的精簡與成本的降低。具體來說,通過移除Spine交換機并重新配置Rail交換機與GPU之間的鏈路,他們構建了一個專用且獨立的Clos網絡,每個Rail獨立運行。由于Rail交換機擁有富余的下行端口直接連接GPU,相較于Rail-optimized網絡,Rail-only設計顯著減少了所需交換機的數量,從而降低了整體網絡成本。
在Rail-only網絡中,不同HBD域之間的直接連通性被移除,但數據仍可通過HBD域內的轉發實現跨域通信。例如, GPU 1(Domain 1)向GPU 2(Domain 2)發送消息時,首先通過第一個HBD域到達Domain 2的某個GPU,再經網絡傳輸至最終目的地。
確定合適的超額訂閱率 軌道優化拓撲的另一個好處可以超額訂閱(Oversubscription)。在網絡架構設計的語境下,超額訂閱指的是提供更多的下行容量;超額訂閱率即下行容量(到服務器/存儲)和上行帶寬(到上層Spine交換機)的比值,在 Meta 的 24k H100 集群里這個比率甚至已經來到夸張的7:1。
通過設計超額訂閱,我們可以通過突破無阻塞網絡的限制進一步優化成本。這點之所以可行是因為 8 軌的軌道優化拓撲里,大多數流量傳輸發生在 pod 內部,跨 pod 流量的帶寬要求相對較低。結合足夠好的自適應路由能力和具備較大緩沖空間的交換機,我們可以規劃一個合適的超額訂閱率以減少上層Spine交換機的數量。
但值得注意的是,無論是IB還是RoCEv2,當前還沒有一個完美的方案規避擁塞風險,兩者應對大規模集合通信流量時均有所不足,故超額訂閱不宜過于激進。現階段如果是選用基于以太網的AI網絡方案, 仍推薦1:1的無阻塞網絡設計。
多租戶隔離
參考傳統CPU云的經驗,除非客戶長期租用整個GPU集群,否則每個物理集群可能都會有多個并發用戶,所以GPU云算力中心同樣需要隔離前端以太網和計算網絡,并在客戶之間隔離存儲。基于以太網實現的多租戶隔離和借助云管平臺的自動化部署已經有大量成熟的方案。如采用InfiniBand方案,多租戶網絡隔離是使用分區密鑰 (pKeys) 實現的:客戶通過 pKeys 來獲得獨立的網絡,相同 pKeys 的節點才能相互通信......
關于我們
AI網絡全棧式互聯架構產品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業領先的AI網絡全棧式互聯產品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創新性地構建了統一互聯架構——Kiwi Fabric,專為超大規模AI計算平臺量身打造,以滿足其對高性能互聯的嚴苛需求。
我們的產品線豐富而全面,涵蓋了面向不同層次互聯需求的關鍵產品,如面向北向Scale out網絡的AI原生智能網卡、面向南向Scale up網絡的GPU片間互聯芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產品共同構成了全鏈路互聯解決方案,為AI計算提供了堅實的支撐。
奇異摩爾的核心團隊匯聚了來自全球半導體行業巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯產品研發和管理經驗,致力于推動技術創新和業務發展。團隊擁有超過50個高性能網絡及Chiplet量產項目的經驗,為公司的產品和服務提供了強有力的技術保障。我們的使命是支持一個更具創造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創新為驅動力,技術探索新場景,生態構建新的半導體格局,為高性能AI計算奠定穩固的基石。
-
gpu
+關注
關注
28文章
4700瀏覽量
128695 -
AI
+關注
關注
87文章
30106瀏覽量
268398 -
云網絡
+關注
關注
0文章
45瀏覽量
9089 -
算力
+關注
關注
1文章
925瀏覽量
14738
原文標題:成本優化?網絡拓撲擇優?一文剖析如何構建并優化AI算力云網絡
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論