NVIDIA DOCA通過為開發者提供全面的軟件框架以利用硬件加速來增強 NVIDIA 網絡平臺的功能,從而提高性能、安全性和效率。其 API、庫和工具生態系統簡化了數據中心基礎設施的開發,實現了工作負載卸載、加速和隔離,以支持現代、高效的數據中心。
如今,許多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并且 DOCA 為快速開發和部署創新解決方案提供了標準化平臺。這種方法可加快上市時間、降低成本,并幫助合作伙伴在使用 NVIDIA 硬件加速的同時專注于自身的核心優勢。
DOCA 培育的開放生態系統促進了協作和互操作性,創造了各種互補解決方案。合作伙伴可以探索 AI 驅動的網絡、高級安全和高性能存儲等新興市場,讓自己處于數據中心創新的前沿。
DOCA 2.9的最新版本標志著 AI 計算網絡架構和云計算基礎設施的重大進步。這次全面的更新引入了許多新功能和改進功能,有助于改變高性能計算和網絡格局。
圖 1:DOCA 2.9 架構
利用增強的東西向計算網絡架構優化 AI 網絡
DOCA 2.9 版本的亮點包括改進的擁塞控制和新的遙測庫,這對于優化數據中心內的網絡流量至關重要,從而提供更好的性能、效率、可見性和控制。
支持 Spectrum-X 1.2 參考架構
Spectrum-X(SPC-X) 1.2 參考架構針對東西向以太網 AI 云環境進行了多項改進。該更新支持大規模橫向擴展能力,可在單個網絡架構中容納多達 128K 個 GPU。該架構使用NVIDIA BlueField-3 SuperNIC和NVIDIA Spectrum-4 交換機的強大組合,連接到 NVIDIA DGX 和 NVIDIA HGX 平臺,為 AI 工作負載提供出色的性能和效率。
DOCA 2.9 還改進了 Spectrum-X 的遙測能力和擁塞控制算法。這有助于更精細、更實時地監控網絡性能,并改進拓撲檢測,這對于優化大規模和長距離的 AI 工作負載至關重要。
DOCA 擁塞控制
DOCA 2.9 提升了適用于高性能計算和 AI 工作負載的擁塞控制算法,即NVIDIA 網絡擁塞控制(NVNCC)。
NVNCC Gen2 和 InfiniBand 擁塞控制 IBCC 的全面推出標志著一個重要的里程碑。IBCC 專門針對 InfiniBand 上的 AI 工作負載進行了優化,而 NVNCC 通過改進的拓撲檢測功能增強了 Spectrum-X 擁塞控制算法,現在支持長距離的 RoCE。
DOCA 遙測庫
作為此版本的新增功能,DOCA 遙測庫引入了高頻采樣功能,從而提高了 AI 驅動環境的網絡監控能力。此更新可實現低于 100 微秒間隔的計數器讀取,與之前的 0.5-1 秒間隔相比,實現了巨大飛躍。
主要功能包括用于指定計數器、時間間隔和頻率的新 API,以及對多個性能計數器(例如 RX/TX 字節、端口、擁塞通知和 PCIe 延遲)的支持。這些增強功能可滿足關鍵用例的需求,例如用于全集群異常檢測的高頻遙測(HFT)和用于應用程序分析的本地性能分析。
南北向云計算基礎設施
的連接性和安全性正在增強
DOCA 2.9 中的南北向改進側重于增強云資源與外部網絡之間的連接性。
DOCA Flow
DOCA 2.9 為 DOCA Flow 引入了一項令人興奮的新功能:“tune”性能分析工具。該工具目前處于 alpha 階段,已無縫集成到 DOCA Flow 軟件包之中,為用戶提供有關其網絡流配置的深入洞察。
“tune"工具可直觀呈現已配置的流水線,使用戶能夠清楚地了解其流結構。這項可視化功能使管理員和開發者能夠快速識別和優化流配置。
OVS-DOCA
OVS-DOCA現已正式發布,它具有本地鏡像功能,并在 NVIDIA BlueField DPU 的軟件定義網絡方面向前邁出了一大步。此長期支持(LTS)版本為用戶提供了一種對傳統使用 DPDK 或內核數據路徑(kernel datapath)的 OVS 解決方案的替代方案,為現代網絡環境提供更高的效率和擴展功能。
發布版本引入了一些關鍵的增強功能,可提升 DOCA 的功能,包括通過 DOCA Flow API 大幅提升連接追蹤(CT)功能的性能。用戶可將每秒連接數(CPS)提高 100%,每秒數據包數(PPS)提高 50%。可擴展性和吞吐量也得到了增強,最多可支持三個網卡(NIC),從而實現更靈活、更強大的網絡配置。
DOCA 基于主機的網絡 2.4 版本
DOCA 基于主機的網絡(HBN)不斷發展,2.4 版本為適用于裸金屬及服務環境的無控制器 VPC 網絡帶來了許多增強功能。DOCA HBN 2.4 以 BGP EVPN 為基礎,引入了令人印象深刻的可擴展性改進,支持高達 8K 個 VTEP 和 80K 個 Type-5 路由。
最新版本通過內核下一跳(Next-Hop)組和 OVS-DOCA 故障轉移增強了 ECMP 路由,提高了網絡彈性和性能。其中一個關鍵的新增功能是 Overlay 網關的有狀態 SNAT+PAT,使私有租戶 IP 能夠通過共享公共 IP 地址訪問外部網絡。
DOCA FireFly
增強的DOCA Firefly服務通過硬件加速為 NVIDIA DPU(數據處理器)帶來先進的時間同步功能。此更新引入了兩項顯著特性:同步以太網(SyncE)支持和數據傳輸服務(DTS)集成。
SyncE 可在網絡設備之間實現高精度頻率同步,對于電信網絡(尤其是移動基礎設施)至關重要。DTS 支持支持通過遙測通道傳輸 PTP 信息,從而實現持續的網絡時間服務監控。
NVIDIA Rivermax SDK
Rivermax SDK的增強功能主要側重于降低延遲、最小化 CPU 使用率,以及最大化數據密集型應用程序的帶寬和 GPU 利用率。一項重要的新增功能是支持 Internet Protocol Media Experience(IPMX),這是專業視聽環境中新興的 AV over IP 開放標準。
在 Rivermax 的支持下,DOCA 2.9 還支持 NVIDIA Holoscan for Media,這是一個專為媒體和娛樂行業定制的認證平臺。該功能優化了未壓縮和壓縮視頻流的處理,簡化了用于高性能媒體處理的 I/O 操作。
NVIDIA DOCA App Shield
DOCA App Shield 庫的增強功能提高了其在主機監控和威脅檢測方面的能力。一項重要的新增功能是包括了預先生成的操作系統配置文件,使各種操作系統的設置過程更加簡化。
對于 Linux 環境,App Shield 現在提供高級容器監控功能,使安全團隊能夠密切關注容器化工作負載。該服務已得到擴展,可列出網絡連接,并提供有關每個進程的網絡連接詳細信息,從而更深入地洞察潛在的安全威脅。
DOCA SNAP virtio-fs
DOCA SNAP virtio-fs 測試版是一項利用 NVIDIA BlueField-3 DPU 強大功能來提供安全加速文件系統存儲的服務。此解決方案使用內置的 virtio-fs 驅動程序向主機公開本地文件系統語義,同時直接在 DPU 上運行遠程文件系統存儲邏輯。
該版本還引入了 SNAP Virtio-fs 的測試版,作為公共 NGC 服務容器提供。它啟用了 NFS Linux 內核文件系統,并集成到 BlueField-3 內核中。開發者可以基于 SPDK FSDEV 創建自定義文件系統堆棧,從而實現靈活性和性能優化。
此解決方案支持在 AI 計算服務器中實現云規模分布式文件系統存儲,提供具有隔離和策略實施的安全環境,同時加速性能并卸載虛擬機管理程序任務。
開放虛擬網絡裸金屬租戶隔離
DOCA 2.9 包括一項新的編排服務,增強軟件定義網絡(SDN)環境中的租戶隔離。開放虛擬網絡(OVN)裸金屬租戶隔離功能可保護多租戶環境中的南北向流量,確保 AI 工作負載保持安全和獨立,即使在密集的計算集群中也是如此。
此服務基于上游 OVN 構建,提供用于租戶隔離的簡化、強大的 API,以及用于在 BlueField DPU 上輕松部署的 Ansible Playbook。關鍵創新在于卸載和加速基于 SDN 的租戶 BlueField DPU,通過隔離特定進程來提高速度和效率。這種集中組織允許使用 API 調用輕松更改隔離設置,從而更好地控制網絡管理。這使得它非常適合希望使用 SDN 創建多租戶云的 AI 云和工廠。
設備管理和開發工具
DOCA 2.9 簡化了大規模部署所需的設備管理流程。此版本還為開發者提供了新的優化和分析工具,可幫助他們更好地洞察應用程序和數據路徑性能。
DOCA 管理服務 (DMS)
DOCA 管理服務(DMS)也升級為發布狀態,為管理 BlueField DPU 和 SuperNIC 提供了增強功能。此更新引入了通過單個 API 端點管理多臺設備的能力,從而簡化了在復雜的多設備環境中的操作。
一項重要改進是支持節點重啟后的配置“持久性”,從而確保設備設置在系統重啟期間保持不變。此外,還新增了設配配置的批量導入/導出功能,可實現大規模部署的高效管理。
DOCA 數據路徑加速器
數據路徑加速器(DPA)工具包的增強功能為開發者提供了更強大的性能優化和分析工具。其中一項突出功能是將 DPA 性能計數器與新的 Nsight 工具相集成,從而更深入地洞察應用程序性能。
一個重要的新增功能是DOCA-DPA-Comms 庫,目前處于測試階段。該庫簡化了基于 DPA 的數據路徑實現,為開發者提供了更高級別的抽象。它可用于 BlueField-3 DPU 和即將推出的 NVIDIA ConnectX-8 SuperNIC,確保 NVIDIA 高級網絡硬件產品線具有廣泛的兼容性。
用于簡化部署和支持的平臺和 DOCA 軟件包
改善用戶體驗是 DOCA 發展的核心。本次發布包括許多旨在簡化和改進部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它適用于需要 RDMA over Converged Ethernet 功能的環境。
NVIDIA 還針對 BlueField-3 推出了 PLDM 固件更新。該測試版支持使用 PCIe 上的標準 PLDM over MCTP 實現無縫固件更新,使服務器在激活之前能夠正常運行。這一零信任功能支持 NIC 和 DPU 模式,并且無需 DPU-BMC 1GbE 連接。
此外,此版本標志著 MLNX_OFED 的最終長期支持(LTS)成為獨立版本,該版本現已作為主機配置文件 DOCA-OFED 使用。
從用于 InfiniBand 和以太網解決方案的 MLNX_OFED 驅動和工具套件過渡到 DOCA-OFED,可實現集成在 DOCA 框架內的統一、可擴展和可編程網絡堆棧。
-
NVIDIA
+關注
關注
14文章
4946瀏覽量
102821 -
云計算
+關注
關注
39文章
7743瀏覽量
137208 -
數據中心
+關注
關注
16文章
4696瀏覽量
71964 -
AI
+關注
關注
87文章
30212瀏覽量
268451
原文標題:NVIDIA DOCA 2.9 通過新的性能和安全功能來增強 AI 和云計算基礎設施
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論