如今,對人工智能的需求巨大。法國施耐德電氣公司估計(jì),2023年人工智能工作負(fù)載的功耗總計(jì)約為4.3吉瓦(GW),略低于塞浦路斯國家2021年的功耗( 4.7吉瓦)。該公司預(yù)計(jì),人工智能工作負(fù)載的功耗將以26%至36%的復(fù)合年增長率(CAGR)增長,這意味著到2028年,人工智能工作負(fù)載的功耗將從13.5吉瓦增至20吉瓦,這比冰島2021年消費(fèi)的電力消耗還要多。
巨大的電力需求
據(jù)施耐德電氣稱,到 2023 年,所有數(shù)據(jù)中心的總功耗預(yù)計(jì)將達(dá)到 54 GW,其中人工智能工作負(fù)載將占到 4.3 GW。在這些人工智能工作負(fù)載中,訓(xùn)練和推理之間的分配特點(diǎn)是 20% 的功耗用于訓(xùn)練目的,80% 分配給推理任務(wù)。這意味著人工智能工作負(fù)載將占今年數(shù)據(jù)中心總功耗的約8%。
展望 2028 年,施耐德預(yù)計(jì)數(shù)據(jù)中心的總能耗將增至 90 吉瓦,其中人工智能工作負(fù)載的能耗將達(dá)到 13.5 吉瓦至 20 吉瓦。這表明,到 2028 年,人工智能可能消耗數(shù)據(jù)中心總用電量的 15% 至 20% 左右,這表明數(shù)據(jù)中心人工智能工作負(fù)載的功耗比例在五年內(nèi)顯著增加。根據(jù)施耐德電氣的估計(jì),訓(xùn)練和推理之間的分布預(yù)計(jì)將略有變化,訓(xùn)練消耗 15% 的電力,推理則占 85%。
人工智能數(shù)據(jù)中心功耗不斷上升的主要原因是人工智能工作負(fù)載的加劇、人工智能GPU和人工智能處理器的進(jìn)步以及其他數(shù)據(jù)中心硬件的要求不斷增加。例如,Nvidia 2020 年的 A100 功耗高達(dá) 400W,而 2022 年的 H100 功耗高達(dá) 700W。除了 GPU 之外,AI 服務(wù)器還運(yùn)行耗電的 CPU 和網(wǎng)卡。
AI 工作負(fù)載,尤其是與訓(xùn)練相關(guān)的工作負(fù)載,需要大量計(jì)算資源,包括配備 AI GPU、專用 ASIC 或 CPU 的專用服務(wù)器。人工智能集群的規(guī)模受人工智能模型的復(fù)雜性和規(guī)模的影響,是功耗的主要決定因素。更大的人工智能模型需要更多數(shù)量的 GPU,從而增加總體能源需求。例如,擁有 22,000 個 H100 GPU 的集群使用大約 700 個機(jī)架。基于 H100 的機(jī)架在安裝八臺 HPE Cray XD670 GPU 加速服務(wù)器時,機(jī)架總密度為 80 kW。施耐德電氣指出,因此,整個集群需要大約 31 兆瓦的電力,這還不包括冷卻等額外基礎(chǔ)設(shè)施需求所需的能源。
這些集群和 GPU 在整個訓(xùn)練過程中通常幾乎滿負(fù)荷運(yùn)行,確保平均能耗幾乎與峰值功耗相同。該文件指出,大量AI集群的機(jī)架密度在30kW到100kW之間,具體取決于GPU的數(shù)量和型號。
網(wǎng)絡(luò)延遲在人工智能數(shù)據(jù)中心的功耗中也起著至關(guān)重要的作用。復(fù)雜的網(wǎng)絡(luò)基礎(chǔ)設(shè)施對于支持分布式訓(xùn)練過程中強(qiáng)大的 GPU 所需的高速數(shù)據(jù)通信至關(guān)重要。對高速網(wǎng)絡(luò)電纜和基礎(chǔ)設(shè)施(例如能夠支持高達(dá) 800 Gb/s 速度的電纜和基礎(chǔ)設(shè)施)的需求進(jìn)一步增加了總體能耗。
鑒于人工智能工作負(fù)載需要高耗電的 ASIC、GPU、CPU、網(wǎng)卡和 SSD,冷卻構(gòu)成了重大挑戰(zhàn)。鑒于高機(jī)架密度和計(jì)算過程中產(chǎn)生的巨大熱量,有效的冷卻解決方案對于保持最佳性能并防止硬件故障或失效至關(guān)重要。與此同時,空氣和液體冷卻方法在功耗方面也“昂貴”,這就是為什么它們也對用于人工智能工作負(fù)載的數(shù)據(jù)中心的功耗造成很大影響。
一些建議
施耐德電氣預(yù)計(jì)AI硬件的功耗不會很快降低,公司充分預(yù)計(jì)AI機(jī)架的功耗將達(dá)到100kW或更高。因此,施耐德電氣對專門處理人工智能工作負(fù)載的數(shù)據(jù)中心提出了一些建議。
施耐德電氣特別建議從傳統(tǒng)的120/208V過渡到240/415V配電,以更好地適應(yīng)人工智能工作負(fù)載的高功率密度。對于冷卻,建議從空氣冷卻轉(zhuǎn)向液體冷卻,以提高處理器的可靠性和能源效率,盡管沉浸式冷卻可能會產(chǎn)生更好的效果。使用的貨架應(yīng)更寬敞,其規(guī)格例如寬度至少為 750 毫米,靜態(tài)承重能力大于 1,800 公斤。
審核編輯:劉清
-
asic
+關(guān)注
關(guān)注
34文章
1195瀏覽量
120349 -
SSD
+關(guān)注
關(guān)注
20文章
2851瀏覽量
117253 -
人工智能
+關(guān)注
關(guān)注
1791文章
46896瀏覽量
237672 -
GPU芯片
+關(guān)注
關(guān)注
1文章
303瀏覽量
5781 -
AI芯片
+關(guān)注
關(guān)注
17文章
1860瀏覽量
34920
原文標(biāo)題:AI芯片成為耗電大戶,負(fù)載功耗接近一個小國家
文章出處:【微信號:Mobile-Info,微信公眾號:手機(jī)技術(shù)資訊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論