電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))近日Linux基金會(huì)再度牽手主要云服務(wù)廠商、半導(dǎo)體廠商以及系統(tǒng)方案供應(yīng)商,成立了超以太網(wǎng)聯(lián)盟(UEC)。聯(lián)盟成員包括AMD、微軟、博通、思科、HPE以及Meta等廠商,幾乎可以說(shuō)是HPC與AI領(lǐng)域的半壁江山了,而該聯(lián)盟的存在,很可能會(huì)為未來(lái)的以太網(wǎng)發(fā)展帶來(lái)新的契機(jī)。
AI與HPC廠商重新定義以太網(wǎng)下一代標(biāo)準(zhǔn)
那么為何以太網(wǎng)需要UEC這樣一個(gè)組織呢?這就不得不提到現(xiàn)在盛行的大規(guī)模AI計(jì)算了。隨著訓(xùn)練AI模型對(duì)效率和成本的追求,無(wú)論是GPT、PALM這樣的大語(yǔ)言模型,還是DLRM這樣的推介系統(tǒng),都需要在成千上萬(wàn)塊GPU上進(jìn)行訓(xùn)練,其中網(wǎng)絡(luò)的重要性愈發(fā)顯著。
UEC聯(lián)盟LOGO / UEC
傳統(tǒng)的以太網(wǎng)在這樣的負(fù)載上有諸多優(yōu)勢(shì),比如通用、多供應(yīng)商的生態(tài)系統(tǒng),包括以太網(wǎng)網(wǎng)關(guān)、NIC、線纜、光模塊、管理工具和軟件等等。其次,對(duì)于運(yùn)營(yíng)以太網(wǎng)而言,已經(jīng)有了一套成熟的試驗(yàn)、測(cè)量和部署流程,也可以擴(kuò)展到機(jī)架級(jí)、機(jī)房級(jí)或數(shù)據(jù)中心級(jí)。
但UEC認(rèn)為,未來(lái)面對(duì)AI和HPC的以太網(wǎng)絡(luò)還需要一些改進(jìn),比如逐包負(fù)載均衡、靈活的交付順序、更現(xiàn)代化的擁塞控制機(jī)制和端到端遙測(cè)等。UEC目前有四個(gè)工作組,分別為物理層、鏈路層、傳輸層和軟件層。
其中物理層工作組和鏈路層工作組負(fù)責(zé)開(kāi)發(fā)提高以太網(wǎng)性能、延遲和管理的規(guī)范,傳輸層工作組開(kāi)發(fā)專用于AI/HPC的大吞吐量、低延遲和高擴(kuò)展性規(guī)范,軟件層工作組則負(fù)責(zé)開(kāi)發(fā)不同AI/HPC應(yīng)用的軟件、API或開(kāi)源代碼。像博通之類的芯片模組廠商,也都會(huì)在未來(lái)推出符合UEC規(guī)范的以太網(wǎng)交換機(jī)、NIC等。
直接對(duì)標(biāo)英偉達(dá)InfiniBand
從聯(lián)盟成員以及該技術(shù)的定位我們還能看出一些端倪,比如英偉達(dá)、谷歌和亞馬遜這樣的廠商并沒(méi)有加入。這是因?yàn)檫@三家更愿意發(fā)展自己的專有優(yōu)勢(shì)技術(shù),而非加入聯(lián)盟去做通用標(biāo)準(zhǔn)。比如英偉達(dá)的Infiniband在HPC與AI領(lǐng)域已經(jīng)站穩(wěn)了腳跟,而谷歌的TPUv4則引入了內(nèi)部自研的光電交換技術(shù)OCS,亞馬遜則更傾向于使用自己的Nitro系統(tǒng)來(lái)為HPC與ML應(yīng)用提供支持。
這些自研方案固然可以用于極大提升競(jìng)爭(zhēng)力,但對(duì)于部分大規(guī)模云服務(wù)廠商來(lái)說(shuō),他們很討厭這種綁定單一供應(yīng)商的做法,而且其協(xié)議也不是最通用的以太網(wǎng),所以他們這才開(kāi)始聯(lián)手對(duì)以太網(wǎng)進(jìn)行AI與HPC時(shí)代下的改造,以求打破Infiniband可能存在的壟斷優(yōu)勢(shì)。
除了亞馬遜和谷歌這些選擇的云服務(wù)廠商以外,其他幾家廠商的最大競(jìng)爭(zhēng)對(duì)手自然而然地變成了英偉達(dá),他們?cè)谶@之前或多或少也有參與過(guò)互聯(lián)方案的開(kāi)發(fā)。比如HPE,他們的CraySlingshot也是HPC系統(tǒng)中常見(jiàn)的互聯(lián)技術(shù)之一,同時(shí)也是以太網(wǎng)技術(shù)的超集變體之一,當(dāng)下TOP500的不少超級(jí)計(jì)算機(jī)中用的仍是這一系統(tǒng)。而HPE則表示,他們支持UEC的目的是保證CraySlingshot能夠在一個(gè)開(kāi)放的生態(tài)系統(tǒng)中運(yùn)行,同時(shí)符合UEC標(biāo)準(zhǔn)的NIC也能夠享受到Slingshot的部分性能和擴(kuò)展性優(yōu)勢(shì)。
寫(xiě)在最后
考慮到UEC才成立沒(méi)多久,所以相關(guān)的標(biāo)準(zhǔn)和技術(shù)都處于早期開(kāi)發(fā)階段,第一版草案很可能會(huì)要到明年才能面世,至于第一批符合標(biāo)準(zhǔn)的產(chǎn)品,也需要等待立項(xiàng)開(kāi)發(fā)以及后續(xù)的市場(chǎng)驗(yàn)證。不過(guò)這也恰好展現(xiàn)AI計(jì)算與HPC市場(chǎng)的一個(gè)縮影,那就是有的廠商在不斷推進(jìn)專有化,而有的廠商則一直追求開(kāi)放標(biāo)準(zhǔn)。
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5378瀏覽量
171126
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論