本文來自“英偉達(dá)Blachwell平臺網(wǎng)絡(luò)配置詳解”。GTC大會英偉達(dá)展示了全新的 Blackwell 平臺系列產(chǎn)品,包括 HGX B100 服務(wù)器、NVLINK Switch、GB200Superchip Computer Node、Quantum X800 交換機(jī)和 CX8 網(wǎng)卡(InfiniBand 方案)、ETH Spectrum X800 交換機(jī)和 BF3 網(wǎng)卡(以太網(wǎng)方案)。
1. Blackwell 平臺網(wǎng)絡(luò)配置分析
從網(wǎng)絡(luò)配置的角度,英偉達(dá)提供了第五代 NVLINK、第六代 PCIE、單端口800Gbit/s 的 IB 和以太網(wǎng)網(wǎng)卡、1.6T 光模塊需求。從目前英偉達(dá)公布的產(chǎn)品介紹看,這些升級后的網(wǎng)絡(luò)能力可能不會第一時間全部配置在最新的 DGX B200 服務(wù)器上,而是在后續(xù)的產(chǎn)品中逐步升級。從英偉達(dá)公布的產(chǎn)品說明材料看,DGX B200 服務(wù)器配置 8 顆 NVIDIA B200 Tensor Core GPUs,4 個 800G OSPF 光模塊,最大功耗為 14.3kW。
2 DGX GB200: NVLink domain 提升至 576 GPUs
采用 DGX GB200 系統(tǒng)的 NVIDIA DGX SuperPOD 專為訓(xùn)練和推理萬億參數(shù)生成式AI 模型而構(gòu)建。每個液冷機(jī)架配備 36 個 NVIDIA GB200 Grace Blackwell 超級芯片(36 個 NVIDIA Grace CPU 和 72 個 Blackwell GPU),與 NVIDIA NVLink 連接為一體。多個機(jī)架與 NVIDIA Quantum InfiniBand 連接,可擴(kuò)展到數(shù)萬個 GB200 超級芯片。
GB200 可以在單機(jī)柜內(nèi)搭建包含 36 個或者 72 個 GPU 的 NVLink domain。一個機(jī)柜內(nèi)包含 18 個計(jì)算節(jié)點(diǎn)和 9 臺 L1 NVLink Switch。基于第五代 NVLink 技術(shù),每個 NVLink 交換機(jī)可以提供 144 個 100GB NVLink 端口。通過機(jī)柜內(nèi)的 9 個 L1NVLink Switch 可以合計(jì) 提 供 1296 個 100GB NVLink 端口 ,機(jī)柜 內(nèi)的每 個Blackwell GPUs 可以獲得 18 個端口,合計(jì) 1.8T 的 NVLink 帶寬。
GB200 NVL72 使用了一個定制化的 Copper cable cartridge 實(shí)現(xiàn)機(jī)柜內(nèi) 9 個L1 NV Switch 和 18 個計(jì)算節(jié)點(diǎn)的 NVLink 連接。英偉達(dá)介紹 NVIDIA GB200 NVL72可以在一個 NVLink domain 內(nèi)連接 576 個 GPU。英偉達(dá)當(dāng)前公布的 GB200 NVL72 配置了 72 個 CX7 網(wǎng)口(OSFP 400Gb/s InfiniBand),并沒有使用最新的 CX8 網(wǎng)卡。
3 全新 IB 交換機(jī),雙層胖樹支持萬卡集群
NVIDIA Quantum-X800 Q3400-RA 是一臺 4U 的 IB 交 換機(jī) ,對比 上一 代Quantum-9700 交換機(jī)設(shè)備尺寸提升了一倍。Quantum-X800 也是英偉達(dá)第一款使用200Gb/s-per-lane SerDes 方案的交換機(jī)設(shè)備,通過 72 個 OSPF 1.6T 光模塊提供144 個 800G 端口。英偉達(dá)指出,基于 Quantum-X800 的高性能,兩層胖樹網(wǎng)路拓?fù)渚涂梢赃B接 10386 個網(wǎng)絡(luò)接口卡。
GTC 大會上,英偉達(dá)推出的 Spectrum-X800 SN5600 是一臺 51.2T 端口容量的以太網(wǎng)交換機(jī),可以配置 64 個 OSPF 800G 光模塊。
4 新平臺依然需要 800G 和 400G 光模塊
從 GTC 大會的介紹看,BLACKWELL 平臺會帶來第五代 NVLINK、第六代 PCIE、第八代 IB 網(wǎng)絡(luò)應(yīng)用。但是在當(dāng)前早期交付的產(chǎn)品中依然會采用 800G 和 400G 光模塊。其中 DGX B200 服務(wù)器配置通過 4 個 800G OSPF 光模塊提供 8 個 400G 端口,這和DGX H100 服務(wù)器的配置相同。
我們認(rèn)為 B200 GPU 和 800 光模塊的配置比例和 H100 GPU 保持一致。而 GB200NVL72 需要配置 72 個 OSPF 400G 光模塊,以便通過 IB 網(wǎng)絡(luò)實(shí)現(xiàn)萬卡集群的連接。
5 新的IB網(wǎng)絡(luò)帶來1.6T光模塊需求
NVIDIA Quantum-X800 Q3400-RA 和 CX8 NIC 則明確需要配置 1.6T 光模塊。和上一代 IB 網(wǎng)絡(luò)相比,主要的變化是 Quantum-X800 的端口能力提升至 115.2T,可以通過兩層胖樹拓?fù)鋵?shí)現(xiàn) 10386 個網(wǎng)絡(luò)接口卡的連接,萬卡規(guī)模 Blackwell GPU 集群使用 IB 網(wǎng)絡(luò)組網(wǎng)的成本得到優(yōu)化。我們認(rèn)為這會弱化以太網(wǎng)方案的價格優(yōu)勢,提升 IB 網(wǎng)絡(luò)方案的競爭力。
6 NVLink domain 容量擴(kuò)展帶來新增的銅纜連接需求
通過第五代 NVLINK 從 900GB 提升至 1800GB,單個 NVLINK domain 的 GPU 數(shù)量提升至 576 個。最大的變化是 L1 NV Switch 從服務(wù)器 PCB 板載芯片的形式調(diào)整為機(jī)柜內(nèi)的 9 臺交換機(jī),連接能力提升至 72 個 GPU,需要使用銅纜實(shí)現(xiàn)機(jī)柜內(nèi)的NVLINK 連接。
而如何實(shí)現(xiàn) 576 個 GPU 連接,目前英偉達(dá)還沒有給出具體的連接方案,但是鑒于目前最新的 IB 交換機(jī)能力,我們認(rèn)為連接 576 個 GPU 需要 L2 NV Switch。最終的方案使用銅纜還是光模塊,核心是銅纜的連接距離是否可以滿足 8 個機(jī)柜的連接需求,低成本的銅纜連接方案會是優(yōu)先選項(xiàng)。
審核編輯:黃飛
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5385瀏覽量
171160 -
交換機(jī)
+關(guān)注
關(guān)注
21文章
2624瀏覽量
99285 -
光模塊
+關(guān)注
關(guān)注
76文章
1240瀏覽量
58893 -
網(wǎng)絡(luò)配置
+關(guān)注
關(guān)注
1文章
22瀏覽量
7579 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3749瀏覽量
90856
原文標(biāo)題:英偉達(dá)Blackwell平臺網(wǎng)絡(luò)配置詳解
文章出處:【微信號:AI_Architect,微信公眾號:智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論