NVLink是Nvidia開發的一項用于GPU之間點對點高速互聯的技術,其旨在突破PCIe互聯帶寬的限制,實現GPU芯片間低延遲、高帶寬的數據互聯,使得GPU間更加高效地協同工作。在NVLink技術問世之前(2014年前),GPU之間的互聯需要通過PCIe switch來實現,如下圖所示。GPU發出的信號需要先傳遞到PCIe switch, PCIe switch中涉及到數據的處理,CPU會對數據進行分發調度,這些都會引入額外的網絡延遲,限制了系統性能。彼時,PCIe協議已經發展到Gen 3, 單通道的速率為8Gb/s, 16通道的總帶寬為16GB/s (128Gbps,1 Byte= 8 bits ),隨著GPU芯片性能的不斷提升,其互聯帶寬成為瓶頸。
(圖片來自https://en.wikichip.org/wiki/nvidia/nvlink)
2014年,NVLink 1.0發布,并應用在P100芯片上,如下圖所示。兩顆GPU之間有4條NVlink, 每個link中包含8個lane, 每條lane的速率是20Gb/s, 因此整個系統的雙向帶寬為160GB/s,是PCIe3 x16帶寬的5倍。
(圖片來自https://en.wikichip.org/wiki/nvidia/nvlink)
單個NVLink內部含有16對差分線,對應兩個方向各8條lane的信道,如下圖所示,差分對的兩端為PHY,內部包含SerDes。
(圖片來自https://www.nextplatform.com/2016/05/04/nvlink-takes-gpu-acceleration-next-level/)
基于NVLink 1.0,可以形成4個GPU的平面mesh結構,兩兩之間形成點對點直連,而8個GPU則對應cube-mesh,進而可以組成DGX-1服務器,這也對應常見的8卡配置,如下圖所示,需要注意的是,此時8個GPU并沒有形成all-to-all連接。
(圖片來自https://developer.nvidia.com/blog/dgx-1-fastest-deep-learning-system/)
2017年,Nvidia推出了第二代NVLink技術。兩顆GPU V100之間含6條NVLink, 每個link中包含8個lane, 每條lane的速率提升到25Gb/s, 整個系統的雙向帶寬變為300GB/s,帶寬是NVLink 1.0的近2倍。與此同時,為了實現8顆GPU之間的all-to-all互聯,Nvidia推出了NVSwitch技術。NVSwitch 1.0含有18個port, 每個port的帶寬為50GB/s, 整體帶寬為900GB/s。每個NVSwitch預留了兩個port, 用于連接CPU。使用6個NVSwitch即可實現8顆GPU V100的all-to-all連接,如下圖所示。
(圖片來自https://en.wikichip.org/wiki/nvidia/nvswitch)
DGX-2系統則采用兩個上圖中的板子構建而成,如下圖所示,實現了16顆GPU芯片的all-to-all連接。
(圖片來自https://en.wikichip.org/wiki/nvidia/nvswitch)
2020年,NVLink 3.0技術誕生,兩顆GPU A100芯片之間存在12條NVLink, 每條NVLink含有4條lane, 單條lane的速率為50Gb/s, 因此整個系統的雙向帶寬提升到600GB/s,總帶寬相比NVLink 2.0提升了1倍。由于NVLink的數目增加了,NVSwitch的port數目也相應增加到36個,每個port的速率為50GB/s。由8顆GPU A100與4個NVSwitch組成了DGX A100, 如下圖所示。
(圖片來自http://www.eventdrive.co.kr/2020/azwell/DGX_A100_Azwellplus.pdf)
2022年,NVLink技術升級到第四代,兩個GPU H100芯片間通過18條NVLink互聯,每條link中含2條lane, 每條lane支持100Gb/s PAM4的速率,因此雙向總帶寬提升到900GB/s。NVSwitch也升級到第三代,每個NVSwitch支持64個port,每個port的速率為50GB/s。DGX H100由8顆H100芯片與4顆NVSwitch芯片構成,如下圖所示。圖中每個NVSwitch的另一側與多個800G OSFP光模塊相連。以左側第一個NVSwitch為例,其與GPU相連側的單向總帶寬為4Tbps (20NVLink*200Gbps),與光模塊相連側的總帶寬為也為4Tbps (5*800Gbps),兩者大小相等, 是非阻塞(non-blocking)網絡。需要注意的是,光模塊中的帶寬是單向帶寬,而在AI芯片中一般習慣使用雙向帶寬。
(圖片來自https://blog.apnic.net/2023/08/10/large-language-models-the-hardware-connection/)
下表整理了每一代NVLink的指標參數。
而PCIe每一代的參數如下表所示,
從單條lane的速率來看,NVLink整體比同一時期的PCIe的指標高1倍左右,而總帶寬的優勢更是明顯,NVLink是PCIe總帶寬的5倍左右。一直在超越,從未停止。
NVLink經過近十年的發展,已經成為Nvidia GPU芯片中的一個核心技術,是其生態系統中的重要一環,有效解決了GPU芯片之間高帶寬、低延遲的數據互聯難題,改變了傳統的計算架構。但由于該技術是Nvidia獨有,其它AI芯片公司只能采用PCIe或者其它互聯協議。與此同時,Nvidia正在探索利用光互連實現GPU之間的連接,如下圖所示,硅光芯片與GPU共封裝在一起,兩顆GPU芯片間通過光纖連接。
-
gpu
+關注
關注
27文章
4591瀏覽量
128149 -
PCIe
+關注
關注
15文章
1165瀏覽量
81994 -
PHY
+關注
關注
2文章
296瀏覽量
51555
原文標題:NVLink的演進
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論