案例簡介
百度智能云是中國 AI 公有云服務市場的領先企業。近日,百度智能云落地新一代高性能AI計算集群,提供EFLOPS級算力支持,并發布了新一代GPU服務器實例GPU-H5-8NA100-IB01。該集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand網絡構建,成為領先的AI原生云算力底座。研究人員可基于全新發布的實例組建上千節點規模的超高性能計算集群,成倍縮短超大AI模型的訓練時間,激發AI業務創新想象力。
客戶挑戰
隨著 AI 的發展,創新業務層出不窮,業務復雜性不斷提升,大模型、超大模型成為必然趨勢,對于快速訓練與部署應用提出了前所未有的緊迫要求。百度智能云早在 2020 年就預見到這一發展態勢,啟動規劃與方案設計,并參考 NVIDIA 高性能分布式集群參考架構,設計落地新一代高性能 AI 集群,通過基礎架構的升級,釋放技術使能想象力,幫助百度以及客戶的業務創新更上一層樓。
應用方案
NVIDIA 提出的高性能分布式集群參考架構基于 NVIDIA A100 GPU 和 NVIDIA HDR 200Gb/s ConnectX-6 網卡組建,采用模塊化設計,能支持不同規模大小的設計,以 20 臺為一個可擴展單元(Scalable Unit), 可以任意擴展到 100 臺、 200 臺、400 臺或更大的規模,通過 InfiniBand 交換機采用胖樹結構全互聯起來。此集群架構旨在幫助 AI 研究人員快速搭建強大、靈活、高效的系統,以滿足工業界日益復雜、多變的模型對計算資源不同程度的需求。尤其對于超大語言模型預訓練而言,此架構尤為重要。
基于同樣的設計思路,百度智能云的新一代高性能 AI 集群采用百度自研的 X-MAN 架構超級 AI 計算機為硬件平臺。
X-MAN 自 2016 年推出以來,已在鳳巢、自動駕駛、自然語言處理等百度內部業務進行大規模應用多年,申請六項專利,包括 PCIe Fabric 架構、液冷技術、最大支持 64 GPU 卡擴展等,是百度 AI 業務快速落地的重要基礎設施。
目前, X-MAN 已經全面升級到第四代 X-MAN 4.0 ,為 AI 和 HPC 等計算場景進行了新的優化設計。配置方面,每臺 X-MAN 4.0 包含8張搭載 NVLink 互聯技術的 NVIDIA A100-80GB GPU , 并可支持 8 張 200Gb/s 的 InfiniBand 網卡,實現了高速存儲、高速無阻網絡、高性能計算于一體的超級 AI 計算機。架構方面, X-MAN 4.0 全新設計的架構縮短了數據傳輸延遲,提高了數據傳輸帶寬,有效解決本地數據傳輸的通信瓶頸,降低 AI 作業中 GPU 的閑置時間。在 MLCommons 1.1 榜單中, X-MAN 4.0 在同配置單機硬件性能名列 TOP2 。
為了實現更高的集群運行性能,百度智能云專門設計了適用于超大規模集群的 InfiniBand 網絡架構。這個架構優化了網絡收斂比,提升了網絡吞吐能力。并結合容錯、交換機親和,拓撲映射等手段,得以將 EFLOPS 級算力的計算集群性能發揮到極致。
應用效果
經過百度內部 NLP 研究團隊的驗證,在這個網絡環境下的超大規模集群上提交千億模型訓練作業時,同等機器規模下整體訓練效率是普通 GPU 集群的 3.87 倍。
2022 年 3 月 1 日百度發布的 Q4 及 2021 全年財報顯示,百度智能云2021年實現全年總營收 151 億元,同比增長 64% 。高速增長的背后,是百度智能云在研發能力上的持續投入,以保持云智一體的技術引領,為客戶提供堅實的基礎架構與服務平臺。
百度副總裁謝廣軍先生表示:“AI原生云是推動企業智能化升級的核心驅動力。作為中國AI公有云服務市場領跑企業,百度智能云一直在優化提升智能計算的核心能力。X-MAN 4.0助力百度內部業務發展的同時,我們也愿意將這一領先的架構開放給百度智能云的眾多客戶,幫助大家一起更高效地進行AI研發與探索,驅動業務創新,邁向AI原生。”
審核編輯:郭婷
-
gpu
+關注
關注
28文章
4701瀏覽量
128708 -
計算機
+關注
關注
19文章
7423瀏覽量
87719 -
AI
+關注
關注
87文章
30153瀏覽量
268423
發布評論請先 登錄
相關推薦
評論