NVIDIA 集合通信庫(kù)(NCCL)可實(shí)現(xiàn)針對(duì) NVIDIA GPU 和網(wǎng)絡(luò)進(jìn)行性能優(yōu)化的多 GPU 和多節(jié)點(diǎn)通信基元。
關(guān)于 NVIDIA 集合通信庫(kù)(NCCL)
NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程,這些例程均經(jīng)過(guò)優(yōu)化,可通過(guò)節(jié)點(diǎn)內(nèi)的 PCIe 和 NVLink 高速互聯(lián)以及節(jié)點(diǎn)間的 NVIDIA Mellanox 網(wǎng)絡(luò)實(shí)現(xiàn)高帶寬和低延遲。
先進(jìn)的深度學(xué)習(xí)框架(例如 Caffe2、Chainer、MXNet、PyTorch和 TensorFlow)已集成 NCCL,以在多 GPU 多節(jié)點(diǎn)的系統(tǒng)上加快深度學(xué)習(xí)訓(xùn)練速度。
便捷性能
使用 NCCL,開(kāi)發(fā)者無(wú)需針對(duì)特定機(jī)器優(yōu)化其應(yīng)用,因而更加便捷。NCCL 可在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間實(shí)現(xiàn)多個(gè) GPU 的快速集合。
簡(jiǎn)化編程
NCCL 使用可從多種編程語(yǔ)言輕松訪問(wèn)的簡(jiǎn)單 C API,且嚴(yán)格遵循 MPI(消息傳遞接口)定義的主流集合 API。
兼容性
NCCL 幾乎可與任何多 GPU 并行模型兼容,例如:?jiǎn)尉€程、多線程(每個(gè) GPU 使用一個(gè)線程)和多進(jìn)程模型(MPI 與 GPU 上的多線程操作相結(jié)合)。
主要特性
對(duì) AMD、Arm、PCI Gen4 和 IB HDR 上的高帶寬路徑進(jìn)行自動(dòng)拓?fù)?a target="_blank">檢測(cè)
憑借利用 SHARPV2 的網(wǎng)絡(luò)內(nèi) all reduce 操作,將峰值帶寬提升 2 倍
通過(guò)圖形搜索,找到更佳的高帶寬、低延遲的環(huán)和樹(shù)集合
支持多線程和多進(jìn)程應(yīng)用
InfiniBand verbs、libfabric、RoCE 和 IP Socket 節(jié)點(diǎn)間通信
使用 Infiniband 動(dòng)態(tài)路由重新路由流量,緩解端口擁塞
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4940瀏覽量
102817 -
gpu
+關(guān)注
關(guān)注
28文章
4701瀏覽量
128708 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5493瀏覽量
120979
原文標(biāo)題:DevZone | NVIDIA集合通信庫(kù)(NCCL)
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論