InfiniBand在高性能計算(HPC)和人工智能(AI)應用中發揮著關鍵作用,體現在它提供了高速、低延遲的網絡通信能力,以支持大規模數據傳輸和復雜計算任務。而InfiniBand的重要性還延伸至網絡內計算領域,其在此領域的應用正在逐步擴大。通過在網絡內部執行計算任務,InfiniBand進一步降低了延遲并提升了整體系統效率,有力推動了HPC和AI領域向更高性能和更強智能邁進。
InfiniBand網絡內計算:它是什么?
InfiniBand網絡內計算(INC)是InfiniBand技術的一種延伸設計,旨在通過將計算能力引入網絡來提升系統性能。在網絡計算領域中,它有效地解決了AI和HPC應用中的集體通信問題以及點對點瓶頸問題,為數據中心的可擴展性提供了新穎的視角和解決方案。。
In-Network Computing的理念在于將計算功能集成到InfiniBand網絡中的交換機和InfiniBand適配器中。這樣一來,可以在數據傳輸的同時執行簡單的計算任務,無需將數據傳輸至服務器等終端節點進行處理,從而消除了這一環節的需求
數據中心中的InfiniBand網絡內計算
近年來,現代數據中心的發展體現為一種新型的分布式并行處理架構,這一趨勢由云計算、大數據、高性能計算和人工智能驅動。CPU、內存和存儲等資源在整個數據中心中分散,并通過諸如InfiniBand、以太網、光纖通道以及Omni-Path等高速網絡技術相互連接。協同設計與分工合作共同實現了數據處理任務的集體完成,構建了一個圍繞業務數據為核心、平衡的系統架構。
InfiniBand網絡內計算通過在網絡內部執行計算任務,將數據處理職責從CPU轉移到網絡,從而實現集成化的網絡內計算,減少延遲并提升系統性能。借助網絡協議卸載、遠程直接內存訪問(RDMA)、GPUDirect等關鍵技術,InfiniBand實現了在線計算、通信延遲降低及數據傳輸效率優化等功能。這種深度集成的網絡內計算為高性能計算和人工智能應用提供了有力的支持。
InfiniBand網絡內計算的關鍵技術
網絡協議卸載
網絡協議卸載是指通過將與網絡相關的協議處理任務轉移到專用硬件上,從而減輕CPU的處理負擔。
InfiniBand網絡適配器和InfiniBand交換機負責處理整個網絡通信協議棧的處理工作,涵蓋物理層、鏈路層、網絡層以及傳輸層。這種卸載技術在數據傳輸過程中消除了對額外軟件和CPU處理資源的需求,顯著提升了通信性能。
RDMA
遠程直接內存訪問(RDMA)技術是為了解決網絡傳輸中服務器端數據處理延遲的問題而開發的。RDMA允許從一臺計算機的內存直接將數據傳輸到另一臺計算機的內存,無需CPU介入,從而降低數據處理延遲并提升網絡傳輸效率。
RDMA使得用戶應用程序可以直接將數據傳輸至服務器存儲區域,這些數據隨后能夠通過網絡快速傳送到遠程系統的存儲區域。這一過程消除了傳輸過程中多次數據復制和文本交換操作的需求,從而顯著降低了CPU負載。
GPUDirect RDMA
GPUDirect RDMA是一項利用RDMA能力促進GPU節點之間直接通信的技術,從而提升GPU集群的通信效率。
在集群內部不同節點上的兩個GPU進程需要進行通信的情況下,GPUDirect RDMA技術允許RDMA網絡適配器直接在兩個節點的GPU內存之間傳輸數據。這消除了CPU參與數據復制的需求,減少了對PCIe總線的訪問次數,最大限度地減少了不必要的數據復制操作,并顯著提高了通信性能。
SHARP
可擴展層級聚合與減少協議(SHARP)是一種針對涉及集體通信的高性能計算和人工智能應用而設計的集體通信網絡卸載技術,旨在優化效率。
SHARP將計算引擎單元集成到InfiniBand交換機芯片中,支持各種定點或浮點計算。在包含多個交換機的集群環境中,SHARP在物理拓撲結構上建立一個邏輯樹形結構,使得多個交換機能夠并行且分布式地處理集體通信操作。這種SHARP樹狀結構的并行和分布式處理極大地減少了集體通信的延遲,減輕了網絡擁塞,并提高了集群系統的可擴展性。該協議支持諸如屏障(Barrier)、Reduce、All-Reduce等操作,從而提升了大規模計算環境中的集體通信效率。
InfiniBand網絡內計算應用:HPC與AI
由于其能夠提升整體系統性能和效率,InfiniBand網絡內計算在HPC和AI領域得到了顯著的應用。
InfiniBand在網絡內計算在高性能計算中的應用
在以計算密集型任務為主的高性能計算(HPC)領域中,InfiniBand對于緩解CPU/GPU資源競爭至關重要。高性能計算任務的通信密集特性,包括點對點通信和集體通信,需要有效的通信協議支持。在此背景下,卸載技術、RDMA、GPUDirect以及SHARP等技術被廣泛采用,以優化計算性能。
InfiniBand網絡內計算在人工智能中的應用
作為前沿技術的人工智能,極大程度上依賴于InfiniBand網絡內計算來加快訓練過程并獲得高精度模型。在當前環境下,GPU或專用AI芯片是AI訓練平臺的計算核心。這些平臺利用InfiniBand加速訓練過程,眾所周知這是一個計算密集型的過程。卸載應用程序通信協議對于減少AI訓練期間的延遲至關重要。GPUDirect RDMA技術被用于提升GPU集群之間的通信帶寬,有效減少了通信延遲。
結論
InfiniBand網絡內計算作為一種創新的網絡計算技術,為HPC和AI領域提供了高效且可靠的計算支持。作為信息技術領域的重要創新之一,InfiniBand網絡內計算將持續引領網絡計算技術的進步和發展。
-
網絡
+關注
關注
14文章
7523瀏覽量
88649 -
數據中心
+關注
關注
16文章
4700瀏覽量
71968 -
InfiniBand
+關注
關注
1文章
29瀏覽量
9183 -
HPC
+關注
關注
0文章
312瀏覽量
23689
原文標題:InfiniBand網絡內計算知多少?
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論