2022年第三季度,英偉達營收達到59.31億美元,其中數據中心業務貢獻了38.3億美元,同比增長31%,再度成為英偉達最強大的收入來源。
作為數據中心的「扛把子」芯片,DPU已經成為英偉達戰略布局的重中之重。但除了高性能之外,DPU其實還抓住了現代數據中心的一個最大痛點:節能。
在各大科技公司紛紛「降本增效」的2022年,綠色與節能,比往年受到了更多人的關注。
數據中心的最大「殺手」
數字化經濟時代,數據成為重要資源。就拿每天都在使用的手機為例,無論是瀏覽各種APP產生的交互,還是瀏覽圖片、播放視頻,抑或是微信端的聊天記錄,本質上都是大量的數據。而這些數據的傳輸、處理、計算、存儲,很大程度上都需要數據中心來完成。
現在,數據中心成為匯聚所有數據的核心。隨著全球數據量的爆發性增長,數據中心的規模也在不斷擴大。
之前的文章里我們就介紹過,性能早就不是衡量數據中心的唯一標準、甚至不是最重要的標準。建設一個現代化數據中心,它能提供的算力大小固然重要,但還有很多因素同樣重要,首當其沖的就是:耗電。
全球能源的大部分電能消耗均來自大型數據中心。有調查顯示,目前數據中心的耗電量占全球發電量的比例高于1%,而這一占比在美國為 1.8%、在歐洲為 2.7%。在 2015 年有報告數據就預計,到 2030 年,數據中心消耗的電量占全球發電量的比例將上升到 8%~13%。
2020年,中國數據中心年度用電總量已達至1380億度,占我國全社會用電量的2%。高昂的電費已經成為數據中心運行成本的大頭,約占60%~70%。
有點諷刺的是,全球經濟與科技的發展,已經越來越追求綠色和低碳。但驅動這些技術發展的數據中心,卻成為當今消耗電力和能源最多的場景之一。
問題就來了:如何解決數據中心的耗電難題?目前業界主要有兩種方法。
首先,就是把數據中心搬到電費更便宜的地方。比如我國的貴州、內蒙等地,就建了不少數據中心,很重要的考慮就是利用當地更便宜的電費,拉低數據中心的運營成本。我國現在已經開始推進的「東數西算」工程,一個很重要的考慮也是把更多算力放在更便宜的地方,從而促進國家算力網更加平衡的發展。
但是不難看出,數據中心「搬家」,其實并沒有從根本上解決數據中心的高能耗,只是降低了使用能源的成本。所以并不能作為唯一的解決方案。
第二,就是在數據中心的架構設計上做文章。常見的方法包括提高冷卻效率、采用智能電源管理系統提高電源使用率、提高每臺機器的負載利用率等等。這些方法在某種程度上觸及到問題的本質,并且可以將數據中心的能耗降低不少。
不過隨著數據中心的不斷發展,新的問題又出現了。2012年,業界首次提出「數據中心稅」的概念。它指的是數據中心里存在大量「基礎設施」,也就是前面說的對數據進行傳輸、存儲、計算的軟硬件。對于用戶來說,這些基礎設施是不可見的,但用戶仍然需要為它們付費。
就像在超市買個面包,它的標價其實包含了面包的成本、運輸、儲藏這一系列費用,甚至也包括超市的電費、房租等這些和面包沒什么關系的費用分攤。
有研究顯示,目前「數據中心稅」已經達到30%。也就是說,用戶花100元買數據中心服務,有30元其實都是花在了數據中心的基礎設施成本上。
究其原因,就是傳統的數據中心硬件不能滿足日益增長的計算存儲和傳輸需求了,造成了費力不討好的尷尬局面。一方面花了大量資源去支撐基礎設施、造成數據中心稅;另一方面,這些投入的資源和算力卻并不是為了基礎設施的功能而設計的,導致運行效率非常低。這也從另一個角度解釋了,為什么數據中心耗電量如此巨大的原因,就是沒把好鋼用在刀刃上。
因此,升級數據中心硬件、特別是芯片,讓數據中心更加綠色高效,就成了國際學術界和工業界關心的重要課題。
DPU如何實現數據中心能效提升
顧名思義,DPU是一種面向數據的處理器。2020年,英偉達在GTC 秋季大會上宣布推出BlueField-2 DPU,它集成了大量特定領域專用加速器,專門用來執行執行網絡、存儲和安全等基礎設施任務的處理。同時,在DPU芯片上擁有比x86 CPU更節能的Arm CPU核心,主要負責控制類的應用,比如卸載基礎設施應用的控制平面、服務器虛擬化平臺或容器管理軟件的部分功能。
DPU出現的意義,就是為了進一步提升數據中心的效率、解決「數據中心稅」的難題。具體來說,英偉達將DPU的主要任務總結成了三點:卸載、加速、隔離。
一、卸載,就是將原本在通用CPU上運行的應用,轉移到DPU上來完成,從而實現對CPU的「卸載」,相當于給CPU減了負。比如在數據中心里常見的網絡協議棧的處理,通常都是由CPU上運行的軟件來實現的。相比之下,從智能網卡發展而來的DPU可以非常直接地連接網絡,也有更強的網絡處理能力。
比如英偉達的BlueField-2 DPU,就能支持200Gbps網絡的線速處理,并且能實現OvS等數據中心常見應用。這樣就釋放了寶貴的CPU內核資源給用戶,而不是用來交「數據中心稅」,從而極大提升了數據中心的資源使用率。
二、加速,就是利用專門的硬件,把卸載下來的應用做的更快、性能更高。說白了,就是不僅把活接下來,還干的比原來還好。
比如,將OvS卸載到BlueField DPU后,服務器的網絡吞吐量從19.8Gbps增至49.3Gbps。不僅在加速網絡吞吐量兩倍多,還釋放了原本用于運行OvS的18個虛擬CPU核心。
從能耗角度來看,一方面可以用耗電更低的DPU芯片實現更高的性能、用更少的服務器完成同樣的工作;另一方面還提高了CPU的利用率,二者結合,自然將服務器的能耗大幅降下來了。根據英偉達測試的數據,采用DPU之后,每臺服務器至少可節省300-400瓦的耗電量。
除了OvS,在運行數據中心基礎設施的其他任務時,DPU也有專門的硬件引擎來用于加速網絡、數據加密/解密、密鑰管理、存儲虛擬化和其他任務。DPU 上的CPU核心通常比一般服務器CPU更節能,并且可以直接訪問網絡管線。
因此,即使一些網絡任務無法通過DPU的專用引擎來加速,DPU核心也能比服務器CPU更高效地執行SDN、遙測、深度數據包檢查或其他網絡任務。
有了DPU,承載網絡側專用性的網絡堆棧算法和傳輸協議運算轉移,數據中心可以更高效地應對多元化的算力需求,釋放CPU和GPU的算力資源,讓數據中心的性能得到進一步優化。
三、隔離,就是利用DPU的專用硬件,實現數據中心關鍵的安全功能。比如,數據中心常見的加密協議IPsec通常需要CPU或者專用的加密加速器卡來完成。而BlueField DPU就集成了對IPsec的硬件支持,讓關鍵的加解密過程不經過CPU,避免多用戶共享CPU和內存時發生數據竊取和攻擊;也不需要額外的專用加密卡,進一步節省成本。
和CPU相比,采用DPU卸載IPsec之后,每臺服務器耗電量降低21%,可節電高達140瓦;客戶端也可節省能耗,最高耗電降低34%,節電高達247瓦。對于大型數據中心而言,這相當于在三年間節省了近 900 萬美元的電費。
除了上面介紹的三個硬件特點之外,BlueField DPU還提供了DOCA軟件編程框架,它主要分成三個主要模塊,分別是DOCA服務、庫和驅動。此外,DOCA還將實例代碼、文檔、以及預打包容器都集成在一起,可以讓用戶直接對DPU進行編程。
有了這些框架和方法實例,軟件開發者就不需要管底層的硬件細節,更不需要再花時間去學習硬件相關的知識和編程方法,而可以專注于自己業務本身的開發。
通過采用并部署DPU,可以減少服務器的部署數量、并降低每臺服務器的耗電量。根據《NVIDIA BlueField DPU能效白皮書》中的數據,擁有1 萬臺服務器的大型數據中心三年期間可大幅節省 2600 萬美元。通過使用 DPU,服務器可節省 6.3%的資本性支出,由于較低的電力成本,運營性支出又節省了 46%。
此外,降低服務器耗電量還可以節省數據中心的附加成本,如配電和冷卻等。每瓦進入數據中心的電力都需要電源管理硬件。比如,不間斷電源、發電機(加上燃料輸送和存儲)和配電裝置,消耗的每一瓦電力都會轉變成必須從數據中心排放出來的熱量。從下圖中可以看到,高達 40% 的數據中心耗電量還專門用于冷卻。因此,服務器端節省的每一瓦電力都會減少數據中心冷卻裝置所需的電量,以及供電和散熱所需的資產設備數量。
結語
當下,全球DPU市場已經迎來爆發式增長。據賽迪顧問預計,中國DPU產業市場規模將在2025年超過565.9億元,復合增速達到 51.73%,而全球DPU產業市場規模更加龐大,將超過245.3億美元,復合增速高達至170.60%。
除了高性能和安全性的考慮,低功耗也逐漸成為DPU新的核心需求。通過DPU實現數據中心的綠色發展,已經逐漸成為提高數據中心效率、降低能耗的大勢所趨。
想了解更多DPU在數據中心里的能耗優勢,掃描二維碼獲取 NVIDIA BlueField DPU 能效白皮書。
審核編輯 :李倩
-
數據中心
+關注
關注
16文章
4696瀏覽量
71965 -
DPU
+關注
關注
0文章
354瀏覽量
24133 -
英偉達
+關注
關注
22文章
3749瀏覽量
90846
原文標題:英偉達DPU的最大優勢,竟然是省錢?
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論