中移(蘇州)軟件技術有限公司(為中國移動通信集團有限公司的云能力中心,也為中移動云服務基礎設施產品IaaS提供研發和運營支撐,下文簡稱“中國移動“)聯合中國信息通信研究院(下文簡稱“中國信通院”)以及深圳云豹智能有限公司(下文簡稱“云豹智能”)在3月29日的算云融合產業大會上發布了《云計算通用可編程DPU發展白皮書(2023年)》,深度解析了云計算通用可編程DPU設計理念,指出具備層級化可編程、低時延網絡和統一資源管控等特性的通用DPU芯片將成為連接算力與網絡的核心基礎部件。
圖一:中國移動聯合中國信通院以及云豹智能發布白皮書
這是目前業界最有深度和最具權威性的一篇DPU白皮書。重點分析了DPU需具備的通用可編程特性和各種應用場景,同時分析了傳統DPU的局限性。近些年,由于業界沒有優異和成熟的商用DPU SoC (System on a chip)方案,各大云廠商只能各自研發基于CPU+FPGA的DPU方案,導致DPU被誤解為是個碎片化的市場,DPU對云計算的作用及潛力沒有被業界正確認識。
在“十四五”規劃明確指出加快推進新型基礎設施建設后,東數西算工程和運營商算力網絡建設如約而至。數字經濟的背后,云計算是最核心的算力底座。在云計算里面,DPU已成為基礎設施最核心的部件之一。
數字經濟時代,云計算不斷滲透進入各行各業。中國移動作為云計算“國家隊”,正在加大投入,全力支持政府與國有企業數字化轉型,降本增效,并為國有數據安全保駕護航。在該白皮書中,云豹智能作為中國移動唯一邀約參編企業,是國內DPU芯片頭部企業,也是國內已知真正能做到高性能通用可編程DPU SoC的芯片公司。該白皮書的聯合發布,代表著中國移動和云豹智能在DPU領域的深度合作,強強聯手,為國家云基礎架構及DPU的發展貢獻力量。
中國移動云能力中心IaaS產品部總經理劉軍衛談到:“隨著人類生產力進入算力時代,傳統以CPU為核心的架構正在遭受算力瓶頸考驗,多樣化算力需求亟需軟硬件架構全面變革,算力技術發展必將遵循‘軟件定義一切,硬件加速一切’的理念,重構算力基礎設施,通用可編程加速單元DPU將成為新的算力核心,重新定義算力時代云計算技術新標準,構建算力時代新技術曲線。”
圖二:以DPU為中心的數據中心網絡架構
傳統數據中心隨著網絡帶寬逐步從25Gbps向100Gbps、200Gbps、400Gbps乃至更高的帶寬演進,網絡數據處理占用的CPU算力資源也在不斷地增大,甚至會有一半以上會消耗在這些基礎設施的功能上,因此迫切需要一種新型處理器來減少對云主機CPU的消耗。DPU是以數據處理為中心,提供數據中心基礎設施服務的通用處理器,是繼CPU、GPU之后的“第三顆主力芯片”,可以卸載及加速網絡和存儲,同時具備安全和管控等基礎功能,釋放更多的算力資源供客戶使用。在云計算與數據中心場景下,如果需要進一步提升算力與發揮基礎設施效能,譬如動態和彈性地調度算力、網絡和存儲資源,那么DPU是必須的,且是不可替代的。
目前,國內云廠商大部分還是基于CPU+FPGA的DPU解決方案,這些方案在研發投入上擁有一定的時間優勢,但因其功耗過高及性能受到限制,并未達到新一代云計算的要求。另外,由于FPGA基本被國外兩大芯片巨頭壟斷,其高昂的價格也直接導致了產品成本居高不下,影響市場競爭力。
DPU SoC的產品是前者迭代的終極形態,需具備超高的異構芯片技術,通用可編程等特性,連同先進的芯片工藝,才能夠滿足更復雜、更廣泛、更高性能的應用需求。目前,國外芯片巨頭和頭部云服務商都選擇了通用DPU SoC的產品路線,因為相對于CPU+FPGA的方案,DPU SoC 有4到8倍性價比的提升。
各云廠商都在尋找最佳方案來提升各自的利潤和競爭力,因為了解到CPU+FPGA并不是一個長遠能滿足新一代云計算的方案,所以都在期待一款有競爭力、易用及高性價比的DPU SoC出現。
美國的亞馬遜云(AWS)不僅占據全球云計算市場最高份額,而且多年前已最先實現了DPU SoC(AWS稱之為Nitro)商業化的成功部署。AWS在使用自研的DPU SoC后,每年售賣每臺服務器的算力資源可以多獲得幾千美元的收益。AWS擁有幾百萬臺服務器的體量,因此DPU帶來AWS的收益是巨大的。DPU在AWS中的成功應用,受到業內廣泛關注,并吸引了越來越多的芯片巨頭涌入DPU賽道。Nvidia于2020年以69億美元成功收購了業內知名網絡芯片和設備公司Mellanox,通過融合Mellanox的網絡技術,快速面向全球數據中心市場推出BlueField系列的DPU SoC。AMD于2022年以19億美元收購了DPU SoC廠商Pensando。而國內的云廠商也正在尋求從FPGA架構到通用可編程DPU SoC演變的技術方案。
正是在這樣的背景下,中國移動聯合信通院和云豹智能發布了《云計算通用可編程DPU發展白皮書(2023年)》。深度解析了DPU的發展趨勢:通用可編程、低時延網絡、統一資源管理。同時介紹了通用可編程DPU SoC在數據中心、運營商、異構計算等多種不同的應用場景。
國內的數據中心建設中,服務器正在從25G向100G及更高帶寬發展,并且應用部署的復雜度持續增高,不但要支持虛擬機、容器的應用管理部署,也需要支持裸金屬應用。DPU作為數據中心的核心基礎設施部件,要具備靈活的編程能力、數據的高吞吐能力和統一管控的能力,才能滿足當前各種云計算業務和數據中心發展的需求。
根據半導體行業觀察的了解,目前云豹智能是國內已知真正能做到自研高性能DPU SoC的芯片公司,其產品也將是國內第一款通用可編程DPU SoC芯片。不僅提供高達400G的數據吞吐能力,還搭載性能強勁的CPU處理單元并配合多種可編程的數據處理引擎實現層級化可編程能力。根據該白皮書的描述,云豹智能在DPU的多個關鍵領域掌握并引領著多項核心技術:
- 可編程高性能網絡處理技術
- 可編程低時延RDMA技術
- DDP(Data Direct Path)數據直通技術
- 安全計算體系
云豹智能DPU SoC支持裸金屬、虛擬機和容器統一運維和管控,提供彈性網絡和存儲、虛擬化管理和安全等一站式解決方案,極大地提升云服務商的服務質量和業務靈活性,降低整體投入,引領數據中心向算網融合持續演進。
中國移動作為支持國家數字經濟的主要云服務商,在這白皮書給出了明確的答案,DPU SoC是云計算的關鍵部件,通用可編程的DPU SoC可以實現對數據中心的算力、網絡和存儲資源的經濟高效卸載和管理。也明確分析了DPU SoC需具備的關鍵特性:層級化可編程性、低時延網絡,統一管控以及適應持續發展的加速卸載,是云廠商推動數據中心向高效率、高擴展、高帶寬、高靈活性發展的重要技術支撐。同時,也是各云廠商正在積極研究及探尋的DPU技術的發展方向。
審核編輯黃宇
-
芯片
+關注
關注
453文章
50387瀏覽量
421786 -
云計算
+關注
關注
39文章
7732瀏覽量
137196 -
數據中心
+關注
關注
16文章
4677瀏覽量
71950 -
DPU
+關注
關注
0文章
354瀏覽量
24127
發布評論請先 登錄
相關推薦
評論