故事還是要從頭開始講起。
去年,國(guó)家發(fā)布了“東數(shù)西算”戰(zhàn)略,吸引了全社會(huì)的關(guān)注。
所謂“東數(shù)西算”,其實(shí)就是數(shù)據(jù)中心的任務(wù)分工調(diào)整。我們將東部沿海地區(qū)的部分算力需求,轉(zhuǎn)移到西部地區(qū)的數(shù)據(jù)中心完成。
之所以這么做,就是因?yàn)槲鞑康貐^(qū)能源資源比較充沛,而且自然溫度較低,可以大幅減少電費(fèi)以及碳排放。
我們都知道,數(shù)據(jù)中心是算力的載體,現(xiàn)階段我們大搞數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟(jì),離不開算力,也離不開數(shù)據(jù)中心。但是,數(shù)據(jù)中心的耗電問題,無法忽視。
根據(jù)數(shù)據(jù)顯示,2021年全國(guó)數(shù)據(jù)中心總用電量為2166億千瓦時(shí),占全國(guó)總用電量的2.6%,相當(dāng)于2個(gè)三峽水電站的年發(fā)電量,1.8個(gè)北京地區(qū)的總用電量。
如此恐怖的耗電量,對(duì)我們實(shí)現(xiàn)“雙碳”目標(biāo)造成了很大壓力。
于是乎,行業(yè)開始加緊研究,究竟如何才能將數(shù)據(jù)中心的能耗降下來。
數(shù)據(jù)中心(IDC)
大家應(yīng)該都知道,數(shù)據(jù)中心有一個(gè)重要的參數(shù)指標(biāo),那就是PUE(Power Usage Effectiveness,電能使用效率)。
PUE=數(shù)據(jù)中心總能耗/IT設(shè)備能耗。其中數(shù)據(jù)中心總能耗,包括IT設(shè)備能耗,以及制冷、配電等其它系統(tǒng)的能耗。
我們可以看出,除了用在主設(shè)備上的電量之外,還有很大一部分能耗,用在散熱和照明上。
所以,搗鼓數(shù)據(jù)中心的節(jié)能減排,思路就在兩點(diǎn):
1、減少主設(shè)備的功耗
2、減少散熱和照明方面的功耗(主要是散熱)
█ 主設(shè)備的功耗挑戰(zhàn)
說起主設(shè)備,大家馬上就想到了服務(wù)器。是的沒錯(cuò),服務(wù)器是數(shù)據(jù)中心最主要的設(shè)備,它上面承載了各種業(yè)務(wù)服務(wù),有CPU、內(nèi)存等硬件,可以輸出算力。
但實(shí)際上,主設(shè)備還包括一類重要的設(shè)備,那就是網(wǎng)絡(luò)設(shè)備,也就是交換機(jī)、路由器、防火墻等。
目前,AI/ML(人工智能/機(jī)器學(xué)習(xí))的加速落地,再加上物聯(lián)網(wǎng)的高速發(fā)展,使得數(shù)據(jù)中心的業(yè)務(wù)壓力越來越大。
這個(gè)壓力不僅體現(xiàn)在算力需求上,也體現(xiàn)在網(wǎng)絡(luò)流量上。數(shù)據(jù)中心的網(wǎng)絡(luò)接入帶寬標(biāo)準(zhǔn),從過去的10G、40G,一路提升到現(xiàn)在100G、200G甚至400G。
網(wǎng)絡(luò)設(shè)備為了滿足流量增長(zhǎng)的需求,自身也就需要不斷迭代升級(jí)。于是乎,更強(qiáng)勁的交換芯片,還有更高速率的光模塊,統(tǒng)統(tǒng)開始用上。
我們先看看交換芯片。
交換芯片是網(wǎng)絡(luò)設(shè)備的心臟,它的處理能力直接決定了設(shè)備的能力。這些年,交換芯片的功耗水漲船高,如下圖所示:
交換機(jī)芯片功耗變化趨勢(shì)
值得一提的是,雖然網(wǎng)絡(luò)設(shè)備的總體功耗在持續(xù)提升,但是,單Bit(比特)的功耗是持續(xù)降低的。也就是說,能效越來越高。
再看光模塊。
光模塊在光通信領(lǐng)域,擁有重要的地位,直接決定了網(wǎng)絡(luò)通信的帶寬。
早在2007年的時(shí)候,一個(gè)萬兆(10Gbps)的光模塊,功率才1W左右。
隨著40G、100G到現(xiàn)在的400G,800G甚至以后的1.6T光模塊,功耗提升速度就像坐上了火箭,一路飆升,直逼30W。大家可要知道,一個(gè)交換機(jī)可不止一個(gè)光模塊,滿載的話,往往就有幾十個(gè)光模塊(假如48個(gè),就是48×30=1440 W)。
一般來說,光模塊的功耗大約占整機(jī)功耗的40%以上。這就意味著,整機(jī)的功耗極大可能會(huì)超過3000 W。
一個(gè)數(shù)據(jù)中心,又不止一交換機(jī)。這背后的功耗,想想都很可怕。
除了交換芯片和光模塊之外,網(wǎng)絡(luò)設(shè)備還有一個(gè)大家可能不太熟悉的“耗電大戶”,那就是——SerDes。
SerDes是英文SERializer(串行器)/DESerializer(解串器)的簡(jiǎn)稱。在網(wǎng)絡(luò)設(shè)備中,它是一個(gè)重要器件,主要負(fù)責(zé)連接光模塊和網(wǎng)絡(luò)交換芯片。
? 簡(jiǎn)單來說,就是將交換芯片出來的并行數(shù)據(jù),轉(zhuǎn)換成串行數(shù)據(jù)進(jìn)行傳輸。然后,在接收端,又將串行數(shù)據(jù)轉(zhuǎn)換成并行數(shù)據(jù)。
前面提到,網(wǎng)絡(luò)交換芯片的能力在不斷提升。因此,SerDes的速率也必須隨之提升,以便滿足數(shù)據(jù)傳輸?shù)囊蟆?/p>
SerDes的速率提升,自然就帶動(dòng)了功耗的增加。
在102.4Tbps時(shí)代,SerDes速率需要達(dá)到224G,芯片SerDes(ASIC SerDes)功耗預(yù)計(jì)會(huì)達(dá)到300W。
需要注意的是,SerDes的速率和傳輸距離,會(huì)受到PCB材料工藝的影響,并不能無限增加。換句話說,當(dāng)SerDes速率增加、功耗增加時(shí),PCB銅箔能力不足,不能讓信號(hào)傳播得更遠(yuǎn)。只有縮短傳輸距離,才能保證傳輸效果。
這有點(diǎn)像扔鉛球比賽,當(dāng)鉛球越重(SerDes速率越高),你能扔的距離就越短。
具體來說,SerDes速率達(dá)到224G時(shí),最多只能支持5~6英寸的傳輸距離。
這意味著,在SerDes沒有技術(shù)突破的前提下,網(wǎng)絡(luò)交換芯片和光模塊之間的距離,必須縮短。
綜上所述,交換芯片、光模塊、SerDes,是網(wǎng)絡(luò)設(shè)備的三座“功耗”大山。
根據(jù)設(shè)備廠商的數(shù)據(jù)顯示,過去的12年時(shí)間,數(shù)據(jù)中心的網(wǎng)絡(luò)交換帶寬提升了80倍,背后的代價(jià)就是:交換芯片功耗提升約8倍,光模塊功耗提升26倍,交換芯片SerDes功耗提升25倍。
信息來源:2020 Cisco and/or its affiliates.All rights reserved.Cisco Public
在此情況下,網(wǎng)絡(luò)設(shè)備在數(shù)據(jù)中心內(nèi)的功耗占比,隨之不斷攀升。
網(wǎng)絡(luò)設(shè)備(紅色)的能耗占比
數(shù)據(jù)來源:Facebook-OIF CPO Webinar 2020
█ 散熱的功耗挑戰(zhàn)
前面小棗君仔細(xì)介紹了網(wǎng)絡(luò)設(shè)備的功耗挑戰(zhàn)。接下來,我們?cè)倏纯瓷帷?/p>
事實(shí)上,相比對(duì)網(wǎng)絡(luò)設(shè)備的功耗提升,散熱的功耗才是真正的大頭。
根據(jù)數(shù)據(jù)統(tǒng)計(jì),交換設(shè)備在典型數(shù)據(jù)中心總能耗中的占比,僅僅只有4%左右,還不到服務(wù)器的1/10。
但是散熱呢?根據(jù)CCID數(shù)據(jù)統(tǒng)計(jì),2019年中國(guó)數(shù)據(jù)中心能耗中,約有43%是用于IT設(shè)備的散熱,基本與45%的IT設(shè)備自身的能耗持平。
即便是現(xiàn)在國(guó)家對(duì)PUE提出了嚴(yán)格要求,按照三級(jí)能效(PUE=1.5,數(shù)據(jù)中心的限定值)來算,散熱也占了將近40%。
傳統(tǒng)的散熱方式(風(fēng)冷/空調(diào)制冷),已經(jīng)不能滿足當(dāng)前高密數(shù)據(jù)中心的業(yè)務(wù)發(fā)展需求。于是,我們引入了液冷技術(shù)。
液冷,是使用液體作為冷媒,為發(fā)熱部件散熱的一種新技術(shù)。引入液冷,可以降低數(shù)據(jù)中心能近90%的散熱能耗。數(shù)據(jù)中心整體能耗,則可下降近36%。
這個(gè)節(jié)能效果,可以說是非常給力了,直接省電三分之一。
除了散熱更強(qiáng)更省電之外,液冷在噪音、選址(不受環(huán)境氣候影響)、建設(shè)成本(可以讓機(jī)柜采用高密度布局,減少機(jī)房占地面積)等方面也有顯著優(yōu)勢(shì)。
所以,現(xiàn)在幾乎所有的數(shù)據(jù)中心,都在采用液冷。有的液冷數(shù)據(jù)中心,甚至可以將PUE干到1.1左右,接近1的極限值。
液冷,是不是把整個(gè)設(shè)備全部浸沒在液體里呢?
不一定。
液冷的方案,一般包括兩種,分別是浸沒式和冷板式。
浸沒式,也叫直接式,是將主設(shè)備里發(fā)熱量大的元器件,全部浸入冷卻液中,進(jìn)行散熱。
冷板式,也稱間接式,是將主要散熱部件與一塊金屬板貼合,然后金屬板里有冷媒液體流動(dòng),把熱量帶走。現(xiàn)在很多DIY組裝電腦,就是冷板式。
服務(wù)器采用液冷,已經(jīng)是非常成熟的技術(shù)。那么,既然要上液冷,當(dāng)然是服務(wù)器和網(wǎng)絡(luò)設(shè)備一起上,會(huì)更好啊,不然還要搞兩套體系。
問題來了,咱們的網(wǎng)絡(luò)設(shè)備,能上液冷嗎?
█ NPO/CPO,閃亮登場(chǎng)
當(dāng)當(dāng)當(dāng)!鋪墊了那么多,我們的主角,終于要閃亮登場(chǎng)了。
為了盡可能地降低網(wǎng)絡(luò)設(shè)備的自身工作功耗以及散熱功耗,在OIF(光互聯(lián)網(wǎng)絡(luò)論壇)的主導(dǎo)下,業(yè)界多家廠商,共同推出了——NPO/CPO技術(shù)。
2021年11月,國(guó)內(nèi)設(shè)備廠商銳捷網(wǎng)絡(luò)(Ruijie Networks),發(fā)布了全球第一款25.6T的NPO冷板式液冷交換機(jī)。2022年3月,他們又發(fā)布了51.2T的 NPO冷板式液冷交換機(jī)(概念機(jī))。
NPO冷板式液冷交換機(jī)
NPO,英文全稱Near packaged optics,近封裝光學(xué)。CPO,英文全稱Co-packaged optics,共封裝光學(xué)。
簡(jiǎn)單來說,NPO/CPO是將網(wǎng)絡(luò)交換芯片和光引擎(光模塊)進(jìn)行“封裝”的技術(shù)。
我們傳統(tǒng)的連接方式,叫做Pluggable(可插拔)。光引擎是可插拔的光模塊。光纖過來以后,插在光模塊上,然后通過SerDes通道,送到網(wǎng)絡(luò)交換芯片(AISC)。
CPO呢,是將交換芯片和光引擎共同裝配在同一個(gè)Socketed(插槽)上,形成芯片和模組的共封裝。
NPO是將光引擎與交換芯片分開,裝配在同一塊PCB基板上。
大家應(yīng)該能看出來,CPO是終極形態(tài),NPO是過渡階段。NPO更容易實(shí)現(xiàn),也更具開放性。
之所以要做集成(“封裝”),目的很明確,就是為了縮短了交換芯片和光引擎間的距離(控制在5~7cm),使得高速電信號(hào)能夠高質(zhì)量的在兩者之間傳輸,滿足系統(tǒng)的誤碼率(BER)要求。
縮短距離,保證高速信號(hào)的高質(zhì)量傳輸
集成后,還可以實(shí)現(xiàn)更高密度的高速端口,提升整機(jī)的帶寬密度。
此外,集成使得元件更加集中,也有利于引入冷板液冷。
NPO交換機(jī)內(nèi)部(揭開冷板后)
可以看到,交換芯片和光引擎之間的距離大幅縮短
NPO/CPO技術(shù)的背后,其實(shí)就是現(xiàn)在非常熱門的硅光技術(shù)。
硅光,是以光子和電子為信息載體的硅基光電子大規(guī)模集成技術(shù)。簡(jiǎn)單來說,就是把多種光器件集成在一個(gè)硅基襯底上,變成集成“光”路。它是一種微型光學(xué)系統(tǒng)。
硅光之所以這么火,根本原因在于微電子技術(shù)已經(jīng)逐漸接近性能極限,傳統(tǒng)的“電芯片”在帶寬、功耗、時(shí)延方面,越來越力不從心,所以,就改走了“(硅)光芯片”這個(gè)新賽道。
█ NPO/CPO交換機(jī)的進(jìn)展
NPO/CPO技術(shù)是目前各大廠商研究的熱門方向。尤其是NPO,因?yàn)閾碛凶顑?yōu)開放生態(tài),產(chǎn)業(yè)鏈更加成熟,可以獲得成本及功耗的最快收益,所以,發(fā)展落地更快。
前面提到了銳捷網(wǎng)絡(luò)的25.6T硅光NPO冷板式液冷交換機(jī)。
這款NPO交換機(jī)基于112G SerDes的25.6T的交換芯片,1RU的高度,前面板支持64個(gè)連接器的400G光接口,由16個(gè)1.6T(4×400G DR4)的NPO模塊組成,支持8個(gè)ELS/RLS(外置激光源模塊)。
散熱方面,采用了非導(dǎo)電冷卻劑的冷板冷卻方式。
那款51.2T硅光NPO冷板式液冷交換機(jī),高度不變,將NPO模組從1.6T升級(jí)到了3.2T,前面板支持64個(gè)800G連接器,每個(gè)連接器還可以分成2個(gè)400G端口,實(shí)現(xiàn)向前兼容。外置光源模塊增加到了16個(gè)。
51.2T NPO冷板式液冷交換機(jī)
在實(shí)際組網(wǎng)中,51.2T的NPO交換機(jī)(最快在2023年底商用發(fā)布),可以應(yīng)用于100G/200G的接入網(wǎng)絡(luò),作為接入&匯聚設(shè)備,實(shí)現(xiàn)高速互聯(lián)。
值得一提的是,NPO/CPO的技術(shù)和產(chǎn)品研發(fā),并不是一件簡(jiǎn)單的事情,背后是對(duì)一家企業(yè)整體研發(fā)實(shí)力的考驗(yàn)。
這次銳捷網(wǎng)絡(luò)能夠全球首發(fā)NPO/CPO產(chǎn)品,是他們持續(xù)投入資源進(jìn)行艱苦研發(fā)和創(chuàng)新的成果,也體現(xiàn)了他們?cè)谶@個(gè)領(lǐng)域的技術(shù)領(lǐng)先性。
銳捷網(wǎng)絡(luò)在2019年開始關(guān)注硅光領(lǐng)域技術(shù),2020年6月正式成立研發(fā)及產(chǎn)品團(tuán)隊(duì)。作為OIF/COBO的成員,他們一直都有參與工作組全球會(huì)議,參加相關(guān)標(biāo)準(zhǔn)的討論和制定。
在硅光這個(gè)方向上,銳捷網(wǎng)絡(luò)已經(jīng)走在了世界前列,未來可期。
█ 結(jié)語
好了,介紹了這么多,相信大家已經(jīng)看明白,到底什么是NPO/CPO了。
這兩項(xiàng)技術(shù),是數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備毫無疑問的發(fā)展方向。在目前的數(shù)字化浪潮下,我們對(duì)算力和網(wǎng)絡(luò)通信能力的追求是無止境的。在追求性能的同時(shí),我們也要努力平衡功耗。畢竟,我們要走的是可持續(xù)性發(fā)展的道路。
希望以NPO/CPO為代表的硅光科技,能夠進(jìn)一步加速落地,為信息基礎(chǔ)設(shè)施的綠色低碳做出貢獻(xiàn)。
未來,硅光技術(shù)究竟還會(huì)帶來怎樣的技術(shù)創(chuàng)新?讓我們拭目以待吧!
審核編輯:劉清
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9024瀏覽量
85187 -
人工智能
+關(guān)注
關(guān)注
1791文章
46872瀏覽量
237613 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8378瀏覽量
132425 -
交換芯片
+關(guān)注
關(guān)注
0文章
81瀏覽量
10992 -
CPO
+關(guān)注
關(guān)注
0文章
17瀏覽量
169
原文標(biāo)題:數(shù)據(jù)中心的黑科技——到底什么是NPO/CPO?
文章出處:【微信號(hào):鮮棗課堂,微信公眾號(hào):鮮棗課堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論