8月25日,在青島舉行的全國高性能計算學術年會大會(CCF HPC China 2023)上,2023華為高性能計算解決方案分論壇同步舉辦。來自武漢超算中心的運營負責人陳斌分享了“武漢超算全棧國產HPC解決方案方法與運營”。
武漢超算運營負責人 陳斌 現場分享
數字經濟時代,算力就是生產力。
提及武漢和湖北,總離不開“樞紐”二字,湖北地處中國南北連接中心,素有“九省通衢”之稱,武漢又是位于長江黃金水道的中心城市。得益于獨特的地理區位優勢,湖北正努力從區位交通樞紐躍升數字經濟樞紐,而其中的關鍵正是算力。
《湖北數字經濟強省三年行動計劃(2022-2024年)》提出打造新型基礎設施中部樞紐節點的發展目標,建設全國一體化算力網絡國家樞紐中部節點成為重要行動。毫無疑問,算力已成為推動數字經濟發展的核心力量。
超級計算,該配什么樣的超級網絡?
兩年前,武漢超算中心啟動建設,作為國內最大的集裝箱超算中心,整體規劃設計算力為200P,首期算力達到50P。武漢超算中心與緊鄰的武漢人工智能計算中心投運形成合力,助力武漢成為國內為數不多的擁有超算和智算雙中心城市的同時,也在助力湖北打造成為國家算力網絡中部樞紐目標中發揮著重要的推動作用。
值得一說的是,無論是HPC還是AI計算,算力的極致釋放離不開高吞吐、低延遲的網絡加持,就像一輛汽車從一城快速駛向另一城,除了自身具備高性能的發動機等特性外,還離不開更高效、更高質量的網絡進行高速互聯。
過去數年,InfiniBand網絡在HPC系統中占據了絕對領先份額,原因無他,通過引入RDMA協議,InfiniBand網絡大大降低了數據傳輸時延,成為高性能網絡的代表。不過,其也有著明顯的弊端,不同于TCP/IP協議棧,Infiniband擁有自己的網絡層和傳輸層協議,所以體系相對封閉,并且運維復雜、價格昂貴。
為了釋放極致算力,武漢超算中心在建設實踐中則選擇了開放的RoCE(RDMA over Converged Ethernet)路線,基于華為超融合以太網絡解決方案構建面向HPC和AI計算的智能無損高性能計算網絡,不僅滿足高性能計算需求,同時提升了投資回報率。
釋放極致算力,湖北超算攜手華為
構建智能無損高性能計算網絡
高性能計算實現的前提是計算、存儲、網絡端到端的高性能,任何一方成為系統性能的短木板,都將導致整體系統性能發揮面臨瓶頸。
武漢超算中心之所以選擇華為超融合以太解決方案,首要原因是看到了其實現網絡高性能的三個核心指標:0丟包、低時延、高吞吐。華為智能無損高性能計算網絡實現從“盡力而為”連通型網絡向“提供確定性SLA保障”性能型網絡演進,將網絡高性能提升至新的高度,從而100%釋放算力。
實現這一核心能力的背后,源于華為獨創的iLossless智能無損算法,華為智能無損高性能計算網絡通過流量控制技術、擁塞控制技術、流量調度技術和應用加速等技術的結合,解決發送端與接收端的速率匹配問題、網絡擁塞時對流量的速率控制問題、業務流量與網絡鏈路的負載均衡性等問題,從而讓0丟包、低時延、高吞吐成為可能,并通過對超算網絡的流量模型進行分析,進而支持各種計算密集型和數據密集型應用的高效運行。
無論是預防PFC死鎖的發生、緩解/解除擁塞、進行負載分擔/網絡均衡,還是差異化SLA動態優化保障,一個真正的智能無損高性能計算網絡就此形成,這也為武漢超算中心帶來了顯著價值。
一是滿足了網絡高性能的建設訴求。武漢超算中心在項目部署前通過對96節點集群規模進行全面的對比測試,在MPI、Benchmark和HPC典型應用測試中,華為智能無損高性能計算網絡性能與InfiniBand網絡整體基本持平,局部小幅領先,完全滿足業務的高性能需求。
二是顯著降低了網絡的建設、運維成本。基于標準的以太網架構,華為超融合以太網絡解決方案帶來了一張統一融合的網絡。通過將通用計算、存儲和高性能計算統一承載在0丟包以太網技術棧上,打破傳統分散架構限制,實現從三張網到一張網的融合部署。從而降低了網絡的建設成本,而不必再進行計算和存儲網絡的獨立建設,同時降低了運維成本,支持SDN云網自動化,提升了運維效率。
整體看來,武漢超算中心為釋放極致算力,打造了一張性能、兼容性、成本效益和靈活性兼具的高性能網絡。目前,超融合以太網絡解決方案正在成為越來越多政企構建HPC和AI極致算力的選擇。
多云異構算力演進,
無損以太網絡迎來廣闊發展空間
《湖北省加快發展算力與大數據產業三年行動方案(2023—2025年)》提出,力爭到2025年成為國家算力網絡中部樞紐,建成全國算力與大數據創新發展的核心區。基于超融合以太解決方案打造領先的超算和人工智能計算中心,攜手華為構建面向HPC和AI計算的智能無損高性能計算網絡,湖北正全力向算力、存力、運力的全國第一梯隊邁近,由“九省通衢”邁向“數字通衢”。
面向未來,數據中心正快速朝著多云異構算力演進,隨著HPC和AI應用的不斷發展,網絡帶寬吞吐的需求也越來越大,以太網絡正從100GE向200GE、400GE和800GE等更高速率發展。在可預見的將來,低時延、高吞吐的無損以太全球生態將會更加成熟,為多元算力提供強大的網絡底座,超融合以太網絡解決方案也將迎來更廣闊的發展空間。
點擊“閱讀原文”,了解更多華為數據通信資訊!
原文標題:CCF HPC China 2023 | 武漢超算:超級算力背后的“超級網絡”
文章出處:【微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
-
華為
+關注
關注
215文章
34308瀏覽量
251189
原文標題:CCF HPC China 2023 | 武漢超算:超級算力背后的“超級網絡”
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論