精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何構建及優化GPU云網絡

奇異摩爾 ? 來源:奇異摩爾 ? 2024-11-06 16:03 ? 次閱讀

并從計算節點成本優化、集群網絡與拓撲的選擇等方面論述如何構建及優化GPU云網絡。

Part 1:Compute Fabric 計算節點的選型

計算節點作為AI算力中心的核心組成部分,其成本在建設報價中占據極大比重。初始獲取的HGX H100物料清單(BoM)通常采用頂級配置,價格不菲。

值得注意的是,HGX與NVIDIA的系統品牌DGX不同,它作為一個授權平臺,允許合作伙伴根據需求定制GPU系統。針對這一特點,我們可以從以下幾方面著手,合理優化成本,以適應業務實際需求;

默認 HGX H100 機箱 物料報價清單

ebe36ee2-9bed-11ef-a511-92fbcf53809c.png

來源:SemiAnalysis

選擇中端CPU

LLM大型語言模型訓練主要依賴于GPU的密集計算能力,對CPU的工作負載要求不高。CPU在此過程中承擔的角色較為簡單,包括但不限于使用PyTorch進行GPU進程控制、網絡初始化、存儲操作以及虛擬機管理程序的運行。選取一款中端性能的CPU例如Intel CPU,可以確保NCCL性能和虛擬化支持方面表現更為出色,且系統錯誤率較低。

RAM 降級到 1 TB RAM 同樣是計算節點中相對昂貴的部分。許多標準產品都具有 2TB 的 CPU DDR 5 RAM,但常規的AI工作負載根本不受 CPU RAM 限制,可以考慮減配。 刪除 Bluefield-3 DPU

Bluefield-3 DPU最初是為傳統 CPU 云開發的,賣點在于卸載CPU負載,讓CPU用于業務出租,而不是運行網絡虛擬化。結合實際情況,奔著GPU算力而來的客戶無論如何都不會需要太多的 CPU 算力,使用部分 CPU 核心進行網絡虛擬化是可以接受的。此外Bluefield-3 DPU 相當昂貴,使用標準 ConnectX 智能網卡完全可滿足網絡性能所需。綜合考慮前述幾項成本的優化,已經可為單個服務器降低約5%的成本。在擁有 128 個計算節點的 1024 H100 集群中,這個比率背后的金額已經相當可觀。

英偉達官網對Bluefiled-3和CX智能網卡的應用解釋:BlueField-3 適用于對數據處理和基礎設施服務有較高要求的場景,如云計算、數據中心等;ConnectX-7 則更適合需要高速網絡連接的應用,如高性能計算、人工智能網絡等。

減少單節點智能網卡數量(請謹慎選擇)

標準物料清單中,每臺 H100 計算服務器配備八個 400G CX-7 NIC,單服務器的總帶寬達到 3,200Gb/s。如果只使用四塊網卡,后端計算網的帶寬將會減少 50%。這種調整顯而易見可以節約資金,但多少會也對部分AI工作負載性能造成不利影響。

AI智能網卡Smart NIC主要解決的問題是網絡傳輸上無法線性傳輸數據問題,以及卸載更適合在網絡上執行的業務,更適用于對網絡傳輸要求較高的AI網絡基礎設施。智能網卡作為后端網絡的重要組件,配合其他硬件設備(交換機與光模塊等)共同解決大規模網絡擁塞死鎖、丟包及亂序等一系列網絡傳輸的問題。因此,我們不建議在AI工作負載網絡下減少智能網卡的數目以達到避免網絡傳輸故障的可能。

Kiwi SmartNIC 產品介紹

Kiwi小編將于近期為大家講述AI智能網卡與DPU的主要區別,敬請期待。

Part 2:集群網絡的選型

集群網絡是繼Compute計算節點之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網絡: 后端網絡(計算網,InfiniBand 或 RoCEv2):用于將 GPU 之間的通信從數十個機架擴展到數千個機架。該網絡可以使 InfiniBand 或 Spectrum-X 以太網,也可以使用其他供應商的以太網。 前端網絡(業務管理和存儲網絡): 用于連接互聯網、SLURM/Kubernetes 和網絡存儲以加載訓練數據和Checkpoint。該網絡通常以每 GPU 25-50Gb/s 的速度運行,滿配八卡的情況每臺GPU服務器的帶寬將達到 200-400Gb/s。

帶外管理網絡 :用于重新映像操作系統、監控節點健康狀況(如風扇速度、溫度、功耗等)。服務器上的BMC、機柜電源、交換機、液冷裝置等通常連接到此網絡以監控和控制服務器和各種其他 IT 設備。

ebeefb7c-9bed-11ef-a511-92fbcf53809c.png

來源:Marvell ,AI集群網絡

默認 HGX H100 集群網絡物料報價清單

ec0ad536-9bed-11ef-a511-92fbcf53809c.png

來源:SemiAnalysis

計算網絡:RoCEv2替代IB

與以太網解決方案相比,NVIDIA 提供的InfiniBand無疑更昂貴,但部分客戶會認為以太網性能相對偏低,這主要是因為以太網需要進行必要的無損網絡參數配置并且針對性調優才能發揮集合通信庫的性能。

然而,不過從對業務性能的影響角度看,目前在萬卡以下的AI網絡技術背景下使用IB或是RoCEv2作為后端計算網并沒有太多差異。這兩類網絡在千卡級別的集群規模下經過調優都可以實現相對無損的網絡傳輸。以下圖示主要基于大規模集群條件下IB和RoCEv2的共同點與差異點。

ec1e43be-9bed-11ef-a511-92fbcf53809c.png

IB VS RoCEv2主要區別

與此同時,隨著遠程直接內存訪問(RDMA)被普遍應用,現在越來越多的關注點轉向了將開放標準、廣泛采用以太網用于大規模算力網絡場景。與InfiniBand相比,以太網降低了成本和復雜性,并且沒有可擴展性的限制。

AMD近期提及以太網據最新實例統計,在后端網絡,相比InfiniBand,以太網RoCEv2是更好的選擇,具有低成本、高度可擴展的優勢,可將TCO節省超過50%,能夠擴展100萬張GPU。而InfiniBand至多能擴展48000張GPU。

無論是在AI訓推的測試場景,還是頭部云廠商已有的組網案例中,AI以太網都有了大量成功案例可供參考。據統計,在全球 TOP500 的超級計算機中,RoCE和IB的占比相當。以計算機數量計算,IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計算,IB占比為 39.2%,RoCE 為 48.5%。目前包括奇異摩爾在內的AI產業鏈成員相信有著開放生態的高速以太網將會得到快速發展。

前端網絡:合理降低帶寬速率

NVIDIA 和一些OEM/系統集成商通常會在服務器提供 2x200GbE 前端網絡連接,并使用 Spectrum Ethernet SN4600 交換機部署網絡。我們知道,這張網絡僅用于進行存儲和互聯網調用以及傳輸基于 SLURM,Kubernetes 等管理調度平臺的帶內管理流量,并不會用于時延敏感和帶寬密集型的梯度同步。每臺服務器 400G 的網絡連接在常規情況下將遠超實際所需,其中存在一些成本壓縮空間。

帶外管理網絡:選用通用的以太網交換機

NVIDIA 默認物料清單一般包括 Spectrum 1GbE 交換機,價格昂貴。帶外管理網絡用到的技術比較通用,選擇市場上成本更優的 1G 以太網交換機完全夠用。

Part 3:計算網絡拓撲的架構優化

GPU集群計算網將承載并行計算過程中產生的各類集合通信(all-reduce,all-gather 等),流量規模和性能要求與傳統云網絡完全不同。

NVIDIA 推薦的網絡拓撲是一個具有無阻塞連接的兩層胖樹網絡,理論上任意節點對都應該能同時進行線速通信。但由于存在鏈路擁塞、不完善的自適應路由和額外跳數的帶來的通信延遲,真實場景中無法達到理論最優狀態,需要對其進行性能優化。

軌道優化(Rail-optimized)架構

舉例來說:Nvidia的DGX H100服務器集成了八個通過NVSwitches連接的H100 GPU,實現了7.2 TBps的無阻塞內部帶寬。而GB200 NVL72計算機則更進一步,以每GPU 14.4 TBps的速度將72個B200超級芯片通過第五代NVLink技術連接在機架內。(相關閱讀:預計OCP成員全球市場影響力突破740億美元——OCP 2024 Keynote 回顧)

這里將這些具備TB級內部帶寬的平臺統稱為高帶寬域”HBD”。Rail優化網絡作為一種先進的互聯架構被廣泛應用。然而,盡管Rail優化網絡在降低局部通信延遲方面表現出色,但它依然依賴于Spine交換機層來連接各個Rail交換機,形成完全二分法的Clos網絡拓撲。這種設計確保了不同HB域中的GPU能以TB級別速率進行高效通信。

ec5b74b4-9bed-11ef-a511-92fbcf53809c.png

(Source:https://arxiv.org/html/2307.12169v4)

軌道優化網絡的主要優勢是減少網絡擁塞。因為用于 AI 訓練的 GPU 會定期并行底發送數據,通過集合通信來在不同GPU之間交換梯度并更新參數。如果來自同一服務器的所有 GPU 都連接到同一個 ToR 交換機,當它們將并行流量發送到網絡,使用相同鏈路造成擁塞的可能性會非常高。如果追求極致的成本優化,可以試用一種Raily-Only單層軌道交換機網絡。

Raily-Only單層軌道交換機網絡

Meta在近期就發表過類似的文章,提出了一種革命性思路-拋棄交換機Spine層。

ec7ffbb8-9bed-11ef-a511-92fbcf53809c.png

(Source:https://arxiv.org/html/2307.12169v4)

相較于傳統的Rail-optimized GPU集群,Rail-only網絡保留了HB域和Rail交換機,但巧妙地移除了Spine交換機。這一變革確保了同一網絡內的GPU對之間的帶寬保持不變,同時實現了網絡Fabric的精簡與成本的降低。具體來說,通過移除Spine交換機并重新配置Rail交換機與GPU之間的鏈路,他們構建了一個專用且獨立的Clos網絡,每個Rail獨立運行。由于Rail交換機擁有富余的下行端口直接連接GPU,相較于Rail-optimized網絡,Rail-only設計顯著減少了所需交換機的數量,從而降低了整體網絡成本。

在Rail-only網絡中,不同HBD域之間的直接連通性被移除,但數據仍可通過HBD域內的轉發實現跨域通信。例如, GPU 1(Domain 1)向GPU 2(Domain 2)發送消息時,首先通過第一個HBD域到達Domain 2的某個GPU,再經網絡傳輸至最終目的地。

確定合適的超額訂閱率 軌道優化拓撲的另一個好處可以超額訂閱(Oversubscription)。在網絡架構設計的語境下,超額訂閱指的是提供更多的下行容量;超額訂閱率即下行容量(到服務器/存儲)和上行帶寬(到上層Spine交換機)的比值,在 Meta 的 24k H100 集群里這個比率甚至已經來到夸張的7:1。

通過設計超額訂閱,我們可以通過突破無阻塞網絡的限制進一步優化成本。這點之所以可行是因為 8 軌的軌道優化拓撲里,大多數流量傳輸發生在 pod 內部,跨 pod 流量的帶寬要求相對較低。結合足夠好的自適應路由能力和具備較大緩沖空間的交換機,我們可以規劃一個合適的超額訂閱率以減少上層Spine交換機的數量。

但值得注意的是,無論是IB還是RoCEv2,當前還沒有一個完美的方案規避擁塞風險,兩者應對大規模集合通信流量時均有所不足,故超額訂閱不宜過于激進。現階段如果是選用基于以太網的AI網絡方案, 仍推薦1:1的無阻塞網絡設計。

多租戶隔離

參考傳統CPU云的經驗,除非客戶長期租用整個GPU集群,否則每個物理集群可能都會有多個并發用戶,所以GPU云算力中心同樣需要隔離前端以太網和計算網絡,并在客戶之間隔離存儲。基于以太網實現的多租戶隔離和借助云管平臺的自動化部署已經有大量成熟的方案。如采用InfiniBand方案,多租戶網絡隔離是使用分區密鑰 (pKeys) 實現的:客戶通過 pKeys 來獲得獨立的網絡,相同 pKeys 的節點才能相互通信......

關于我們

AI網絡全棧式互聯架構產品及解決方案提供商

奇異摩爾,成立于2021年初,是一家行業領先的AI網絡全棧式互聯產品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創新性地構建了統一互聯架構——Kiwi Fabric,專為超大規模AI計算平臺量身打造,以滿足其對高性能互聯的嚴苛需求。

我們的產品線豐富而全面,涵蓋了面向不同層次互聯需求的關鍵產品,如面向北向Scale out網絡的AI原生智能網卡、面向南向Scale up網絡的GPU片間互聯芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產品共同構成了全鏈路互聯解決方案,為AI計算提供了堅實的支撐。

奇異摩爾的核心團隊匯聚了來自全球半導體行業巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯產品研發和管理經驗,致力于推動技術創新和業務發展。團隊擁有超過50個高性能網絡及Chiplet量產項目的經驗,為公司的產品和服務提供了強有力的技術保障。我們的使命是支持一個更具創造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創新為驅動力,技術探索新場景,生態構建新的半導體格局,為高性能AI計算奠定穩固的基石。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4700

    瀏覽量

    128695
  • AI
    AI
    +關注

    關注

    87

    文章

    30106

    瀏覽量

    268398
  • 云網絡
    +關注

    關注

    0

    文章

    45

    瀏覽量

    9089
  • 算力
    +關注

    關注

    1

    文章

    925

    瀏覽量

    14738

原文標題:成本優化?網絡拓撲擇優?一文剖析如何構建并優化AI算力云網絡

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文梳理:如何構建優化GPU算力中心?

    目前最常見的AI算力中心部署的GPU集群大小為 2048、1024、512 和 256,且部署成本隨 GPU 數量線性增長。本文將以相對折中的1024 GPU卡(H100)的規模為例展開分析。
    的頭像 發表于 11-15 11:59 ?209次閱讀
    一文梳理:如何<b class='flag-5'>構建</b>并<b class='flag-5'>優化</b><b class='flag-5'>GPU</b><b class='flag-5'>云</b>算力中心?

    GPU服務器AI網絡架構設計

    眾所周知,在大型模型訓練中,通常采用每臺服務器配備多個GPU的集群架構。在上一篇文章《高性能GPU服務器AI網絡架構(上篇)》中,我們對GPU網絡
    的頭像 發表于 11-05 16:20 ?187次閱讀
    <b class='flag-5'>GPU</b>服務器AI<b class='flag-5'>網絡</b>架構設計

    AI平臺怎么構建

    構建AI平臺是一個復雜而系統的過程,涉及多個環節和技術棧。從準備工作到最終的部署運行,每一步都需要精心設計和實現。
    的頭像 發表于 10-11 10:52 ?146次閱讀

    TI TDA2x SoC上基于GPU的環視優化

    電子發燒友網站提供《TI TDA2x SoC上基于GPU的環視優化.pdf》資料免費下載
    發表于 10-10 09:14 ?0次下載
    TI TDA2x SoC上基于<b class='flag-5'>GPU</b>的環視<b class='flag-5'>優化</b>

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    算法的引擎GPUGPU硬件架構剖析、GPU服務器的設計與實現、GPU集群的網絡設計與實現、GPU
    發表于 10-08 10:40

    GPU服務器架構解析及應用優勢

    GPU服務器作為一種高性能計算資源,近年來在人工智能、大數據分析、圖形渲染等領域得到了廣泛應用。它結合了計算的靈活性與GPU的強大計算能力,為企業和個人用戶提供了一種高效、便捷的計
    的頭像 發表于 08-14 09:43 ?324次閱讀

    AI服務器:開啟智能計算新時代

    一、AI服務器的定義與特點 AI服務器的定義 AI服務器是一種基于計算技術,專為處理人工智能相關工作負載而構建的服務器。它集成了強大
    的頭像 發表于 08-09 16:08 ?723次閱讀

    應用NVIDIA Spectrum-X網絡構建新型主權AI

    法國服務提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網網絡平臺 構建區域性 GPU
    的頭像 發表于 07-26 18:58 ?1139次閱讀

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術白皮書

    數據中心的第三顆“主力芯片”,主要通過其專用處理器優化數據中心的網絡、存儲、安全等處理性能,助力服務器運行效率顯著提升,有效降低成本。因此,在新型數據中心建設時,圍繞 DPU 構建數據中心網絡
    發表于 07-24 15:32

    如何構建多層神經網絡

    構建多層神經網絡(MLP, Multi-Layer Perceptron)模型是一個在機器學習和深度學習領域廣泛使用的技術,尤其在處理分類和回歸問題時。在本文中,我們將深入探討如何從頭開始構建一個多層神經
    的頭像 發表于 07-19 17:19 ?702次閱讀

    恒訊科技的GPU解決方案有什么特點和優勢?

    GPU解決方案通常指的是服務提供商提供的、基于圖形處理單元(GPU)的計算服務。這些服務利用GPU的并行處理能力,為用戶提供高性能的計算
    的頭像 發表于 06-12 17:24 ?374次閱讀

    新手小白怎么學GPU服務器跑深度學習?

    新手小白想用GPU服務器跑深度學習應該怎么做? 用個人主機通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不動,如何實現更經濟便捷的實現GPU服務器深度學習?
    發表于 06-11 17:09

    GPU/TPU集群網絡組網間的連接方式

    用于連接 GPU 服務器中的 8 個 GPU 的 NVLink 交換機也可以用于構建連接 GPU 服務器之間的交換網絡。Nvidia 在 2
    發表于 04-16 11:43 ?707次閱讀
    <b class='flag-5'>GPU</b>/TPU集群<b class='flag-5'>網絡</b>組網間的連接方式

    FPGA在深度學習應用中或將取代GPU

    硬件公司供貨的不斷增加,GPU 在深度學習中的市場需求還催生了大量公共服務,這些服務為深度學習項目提供強大的 GPU 虛擬機。 但是顯卡也受硬件和環境的限制。Larzul 解釋說:“神經
    發表于 03-21 15:19

    盤點GPU Fabric典型拓撲結構

    當前,許多超大規模廠商正在競相構建大型 GPU 集群,以適應GenAI訓練工作負載。本文探討了針對GenAI訓練工作負載進行優化的各種網絡拓撲結構,如Meta的Rail-Only 拓撲
    的頭像 發表于 12-03 09:56 ?2866次閱讀
    盤點<b class='flag-5'>GPU</b> Fabric典型拓撲結構