2023年6月,第三屆網絡開源技術生態峰會在北京成功召開。中科馭數高級副總裁、CTO盧文巖博士受邀出席本屆峰會,并在活動主論壇分享題為《P4可編程的DPU 讓算網生態更加開放融合》的主題演講。
■數據中心“稅”與異網融合“稅”是當前算網生態的兩大痛點
算力,毫無疑問是當前數字經濟發展的核心增長力,已經成為像水、電、網一樣的基礎性生產要素,事關到整個核心要素的升級,是驅動經濟社會數字化轉型的新引擎。 演講伊始,盧文巖博士簡要介紹了針對當前業界普遍達成共識的分層算力網絡結構,并表示統籌云、網、邊、端于一體的新一代計算技術已成為算力網絡的發展方向。 最上層的云層是各類云計算平臺和云服務提供商,提供大規模的計算和存儲資源;網層提供云之間的高速連接;邊層位于離用戶和數據源更近的位置,提供低延遲、高可用性的計算和存儲服務;端層是接入側的設備,是數據的產生和接入點。這一分層結構使得算力網絡能夠滿足不同應用場景的需求,實現云、網、邊、端的協同工作。 這一算力網絡架構,在發展過程中面臨著數據中心“稅”與異網融合“稅”兩大痛點。前者是指在現在的基礎設施架構中,虛擬化管理和網絡需要占據很多CPU資源。以某公有云廠商網絡增強型云主機為例,基于2x25G普通網卡,24核CPU中4核用于虛擬網絡功能,1核用于虛擬化管理功能,可用CPU資源不足80%。 而后者的痛點則在于異網融合的過程中,往往需要解決沉重的歷史包袱,不同網絡協議之間的通信需要大量專用的網絡設備完成相應的轉換,隨著算網規模的擴大,不僅增加了網絡管理的復雜性,還限制了算力網絡的靈活性和可擴展性。
這些挑戰和限制,在來自云廠商和芯片廠商的行業專家的演講中也得到了回應,他們結合各家實踐經驗,給出了更為具體的闡述。 中國移動研究院副院長段曉東指出,智算中心的發展是整個算力網絡體系架構發展的重中之重,如何構筑一個區別于傳統運營中心的新型智算中心,在算、存、網、管、效五個方面都有很大的提升和不同。傳統的數據中心以CPU為核心的單機雙路到GPU為核心的八卡互聯,總線結構發生了飛躍變化。存儲也從結構化單一到混合協議存儲大量非結構數據。網絡技術更重要,從普通以太網以10G、20G為核心,現在躍遷到200-400G。異構算力、算力原生,已經成為非常重要的訴求。 騰訊云與邊緣網絡技術總監陳煒先生在談到騰訊云在算力網絡方面的實踐時提及,進入大AI模型時代,整個機房對電和算力的基礎設施包括網絡帶來了新的挑戰。堆砌GPU集群,已不再意味著能充分釋放算力。極端情況下,網絡通信時延會占據整個一次模型訓練50%的時間,是非常驚人的數字。同時丟包給整個的網絡的吞吐,也會帶來50%的下降。 英特爾資深云網絡技術專家丁曉艷也表示當前最大的瓶頸在于,隨著算網融合、算力運算等各種云網絡、邊緣網絡新應用的發展,以Tofino為代表的P4交換機無法應對隨之而來的帶寬需求,對于延時和抖動也無法得到保證。
■DPU是下一代“算力網絡”的核心算力芯片
為了解決當前算網生態面臨的問題,靈活可編程的網絡接入設備是解決此類問題的一個最優解。因此,DPU(Data Processing Unit)作為下一代"算力網絡"的核心算力芯片應運而生,能夠從硬件層面直接解決底層基礎設施層面臨的關鍵問題。 盧文巖博士指出,DPU本質上是一個可編程的Switch,中科馭數在兩年前就發現了P4的魅力所在,并在DPU芯片功能定義的研發階段布局了P4技術。到現在為止,中科馭數DPU芯片已全面支持P4編程,能夠在數據中心、網絡邊緣和終端設備上提供了更大的靈活性和可擴展性;圍繞DPU構建的軟件開發平臺HADOS,也可以為P4提供完善的技術支撐,加速P4技術在SDN網絡中的研發落地應用。
P4可編程的DPU優勢,首先在于高性能,整個執行下沉到專用硬件邏輯之中,可以有效提升系統的執行效率和處理能力;其次是高度可編程,當前算網融合過程中需要解決各類網絡協議的轉化和融合問題,DPU具備可編程能力可支撐自定義的場景、支持自定義協議棧快速開發;第三是低數據中心“稅”,網絡數據面處理完全下沉后可以大幅度降低現有數據中心的數據“稅”,P4 runtime管控面也可以下沉到DPU,進一步釋放服務器算力。 針對傳統P4技術在有狀態卸載、多功能核融合兩方面存在的缺陷,盧文巖博士著重介紹了中科馭數第三代DPU芯片K2 Pro,并對其中網絡架構的處理核展開詳細展開說明——K2 Pro在芯片內部專門集成了可編程網絡處理引擎以及專用數據分析引擎,不僅可以高效地完成數據增刪改查、甚至更復雜的操作,更主要的目的——支持有狀態的信息存儲和查詢,有效提升DPU芯片的性能、靈活性和資源利用效率。
■DPU P4技術將為算力網絡提供堅實的可編程底座 對于DPU P4技術在算網領域的落地場景,盧文巖博士也作了進一步闡述。DPU P4技術的可編程性和靈活性,使得其在網關、服務器端、防火墻和比較協議等場景的應用中具備更大的優勢,網絡設備能夠根據實際需求動態調整和配置網絡協議,實現更高效、智能的數據處理和網絡管理。這一特點將為這些應用場景帶來更好的性能、安全性和可靠性。 以分布式NAT網關為例,當前公有云/混合云/私有云在與邊緣云對接的場景中,受限于各地不同接入條件,存在大量需要NAT轉換場景。傳統方案中往往使用專有網關設備實現,成本高、性能差。DPU P4解決方案能夠靈活支持各種動態與靜態地址轉換需求。基于高性能硬件,性能提升4倍以上;支持分布式網關部署,可以根據業務情況動態調整;網關DPU與服務器DPU采用相同硬件,可以更好的保護硬件投資。
本屆網絡開源技術生態峰會由中國通信學會指導,中國通信學會開源技術委員會、江蘇省未來網絡創新研究院主辦,SDNLAB社區、阿里云計算有限公司協辦。主論壇深入探討了網絡開源技術的發展趨勢和未來的挑戰,激發了新的思考和創新。相信通過共同努力,DPU P4技術將為算網生態的開放融合帶來新的可能性,推動算力網絡的發展和創新,為未來的數字化社會提供更強大、更可靠的算力支持。
責任編輯:彭菁
-
存儲
+關注
關注
13文章
4265瀏覽量
85675 -
數字化
+關注
關注
8文章
8619瀏覽量
61643 -
開源技術
+關注
關注
0文章
389瀏覽量
7914
原文標題:P4可編程的DPU 讓算網生態更加開放融合!|第三屆網絡開源技術生態峰會
文章出處:【微信號:yusurtech,微信公眾號:馭數科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論