“沒(méi)有好網(wǎng)絡(luò),別玩大模型。”
隨著AI大模型“百花齊放”,底層的算力需求與日俱增。目前,AI大模型的訓(xùn)練參數(shù)已飆升至萬(wàn)億級(jí)別,如此龐大的訓(xùn)練任務(wù)無(wú)法由單個(gè)服務(wù)器完成,需要大量服務(wù)器作為節(jié)點(diǎn),通過(guò)高速網(wǎng)絡(luò)組成算力集群,相互協(xié)作完成任務(wù)。這些服務(wù)器通過(guò)網(wǎng)絡(luò)相連接,不斷交換數(shù)據(jù)。
AI大模型需要一個(gè)超大規(guī)模、超高帶寬、超強(qiáng)可靠的網(wǎng)絡(luò),為訓(xùn)練提供強(qiáng)有力的支持。因此,高性能與高可用的網(wǎng)絡(luò)對(duì) AI 大模型的構(gòu)建尤為重要。
高性能網(wǎng)絡(luò)并非一蹴而就,其背后需要有從架構(gòu)設(shè)計(jì)到芯片方案等諸多細(xì)節(jié)的配合。本文盤(pán)點(diǎn)了部分互聯(lián)網(wǎng)廠商、設(shè)備廠商、芯片廠商以及運(yùn)營(yíng)商在AI大模型底層網(wǎng)絡(luò)支撐方面所做的工作與進(jìn)展。
*以下公司排名不分先后
互聯(lián)網(wǎng)公司
騰訊云
4月,騰訊云發(fā)布了新一代HCC高性能計(jì)算集群,為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智算能力支撐。6月,騰訊云進(jìn)一步披露了HCC高性能計(jì)算集群背后的網(wǎng)絡(luò)底座——星脈。
星脈是騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的第三次進(jìn)化,具備3.2T 通信帶寬,能提升 40% 的 GPU 利用率,節(jié)省 30%~60% 的模型訓(xùn)練成本,進(jìn)而為 AI 大模型帶來(lái) 10 倍通信性能提升。基于騰訊云HCC,可支持 10 萬(wàn)卡的超大計(jì)算規(guī)模。
據(jù)介紹,騰訊對(duì)大模型集群網(wǎng)絡(luò)做了以下幾大優(yōu)化:
1. 采用高性能 RDMA 網(wǎng)絡(luò)。騰訊自研的星脈 RDMA 網(wǎng)絡(luò),可以讓 GPU 之間直接進(jìn)行數(shù)據(jù)通信,CPU 資源得以節(jié)省,從而提高計(jì)算節(jié)點(diǎn)的整體性能和效率。
2. 自研網(wǎng)絡(luò)協(xié)議TiTa。騰訊云通過(guò)自研端網(wǎng)協(xié)同協(xié)議 TiTa ,使星脈網(wǎng)絡(luò)可以實(shí)現(xiàn) 90% 負(fù)載 0 丟包。TiTa 協(xié)議內(nèi)嵌擁塞控制算法,以實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)狀態(tài)并進(jìn)行通信優(yōu)化,使得數(shù)據(jù)傳輸更加流暢且延遲降低。
3. 定制化高性能集合通信庫(kù) TCCL。騰訊云為星脈定制了高性能集合通信庫(kù) TCCL,相對(duì)業(yè)界開(kāi)源集合通信庫(kù),可以提升 40% 左右的通信性能。
4. 多軌道網(wǎng)絡(luò)架構(gòu)。星脈網(wǎng)絡(luò)對(duì)通信流量做了基于多軌道的流量親和性規(guī)劃,使得集群通信效率達(dá) 80% 以上。
5. 異構(gòu)網(wǎng)絡(luò)自適應(yīng)通信。星脈網(wǎng)絡(luò)將機(jī)間(網(wǎng)卡 + 交換機(jī))、機(jī)內(nèi)(NVLink/NVSwitch 網(wǎng)絡(luò)、PCIe 總線網(wǎng)絡(luò))兩種網(wǎng)絡(luò)同時(shí)利用起來(lái),達(dá)成異構(gòu)網(wǎng)絡(luò)之間的聯(lián)合通信優(yōu)化,使大規(guī)模 All-to-All 通信在業(yè)務(wù)典型 message size 下的傳輸性能提升達(dá) 30%。
6. 自研全棧網(wǎng)絡(luò)運(yùn)營(yíng)系統(tǒng)。騰訊云自研了端到端全棧網(wǎng)絡(luò)運(yùn)營(yíng)系統(tǒng),實(shí)現(xiàn)了端網(wǎng)部署一體化以及一鍵故障定位,提升高性能網(wǎng)絡(luò)的易用性,進(jìn)而通過(guò)精細(xì)化監(jiān)控與自愈手段,提升可用性,為極致性能的星脈網(wǎng)絡(luò)提供全方位運(yùn)營(yíng)保障。
阿里云
面對(duì)日益爆發(fā)的算力需求,簡(jiǎn)單粗暴的硬件堆砌已不可持續(xù)。為此,阿里云基礎(chǔ)設(shè)施推出低延時(shí)、高帶寬、可線性擴(kuò)展的“磐久高性能網(wǎng)絡(luò)PredFabric”。
磐久PredFabric采用自研的Solar-RDMA高速網(wǎng)絡(luò)協(xié)議,使處理器可以通過(guò)load/store指令訪問(wèn)其他任意服務(wù)器的內(nèi)存,非常適合深度學(xué)習(xí)模型內(nèi)神經(jīng)網(wǎng)絡(luò)的交互形態(tài),相比傳統(tǒng)模式故障自愈時(shí)間和長(zhǎng)尾時(shí)延均可降低90%。同時(shí),結(jié)合網(wǎng)絡(luò)協(xié)議硬件化、芯片化,使整體性能得到極大提升,延時(shí)最低可至2微秒,并實(shí)現(xiàn)高算力下網(wǎng)絡(luò)規(guī)模的線性擴(kuò)展。
基于這套超高性能網(wǎng)絡(luò)技術(shù)及軟硬一體化能力,同年阿里云推出了新一代高性能AI訓(xùn)練計(jì)算平臺(tái)——靈駿。據(jù)悉靈駿可最小化所有非計(jì)算開(kāi)銷,實(shí)現(xiàn)5倍的通信性能提升,千卡并行計(jì)算效率高達(dá)90%。
此外,靈駿還具有以下特點(diǎn):
一云多芯:支持國(guó)產(chǎn)化CPU/GPU芯片,通過(guò)自研“共中心架構(gòu)”,解決多芯融合及跨代兼容問(wèn)題。
融合算力池:基于云原生技術(shù)體系,實(shí)現(xiàn)異構(gòu)算力資源池化(eGPU),使資源利用率提升3倍,最小化數(shù)據(jù)搬遷成本,加速AI研發(fā)過(guò)程;多元化算力支持混合負(fù)載,滿足人工智能等多領(lǐng)域應(yīng)用混合部署。
深度性能優(yōu)化:建立萬(wàn)卡級(jí)計(jì)算系統(tǒng)的通信與調(diào)度能力。自研RDMA高速網(wǎng)絡(luò)架構(gòu),將時(shí)延顯著降低90%;自研通信庫(kù)(C4),結(jié)合自研硬件,對(duì)超大規(guī)模AI計(jì)算系統(tǒng)提供無(wú)擁塞、高性能的通信環(huán)境;針對(duì)數(shù)據(jù)密集型場(chǎng)景,通過(guò)自研系統(tǒng)軟件KSpeed,最高可將系統(tǒng)IO性能提升10倍。
綠色低碳:支持自研單相浸沒(méi)液冷技術(shù),PUE最低可至1.09,能耗最高可降低50%。
據(jù)悉,阿里云在張北和烏蘭察布分別建設(shè)有兩座超級(jí)智算中心,規(guī)模超過(guò)了谷歌和特斯拉。不僅如此,阿里還擁有自研的芯片含光800和倚天710,能夠?yàn)锳I大模型提供算力支撐。
百度云
早在 2021 年 6 月,為了滿足未來(lái)的大模型訓(xùn)練任務(wù),百度智能云開(kāi)始規(guī)劃全新的高性能 GPU 集群的建設(shè),聯(lián)合英偉達(dá)共同完成了可以容納萬(wàn)卡以上規(guī)模的 IB 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),集群中節(jié)點(diǎn)間的每張 GPU 卡都通過(guò) IB 網(wǎng)絡(luò)連接, 并在 2022 年 4 月將集群建設(shè)完成,提供單集群 EFLOPS 級(jí)別的算力。
2023 年 3 月,文心一言大模型在這個(gè)高性能集群上誕生,并不斷迭代出新的能力。目前,這個(gè)集群的規(guī)模還在不斷擴(kuò)大。與此同時(shí),大模型訓(xùn)練對(duì)網(wǎng)絡(luò)也提出了要求。百度 AI 高性能網(wǎng)絡(luò)的三大目標(biāo):超大規(guī)模、超高帶寬以及超長(zhǎng)穩(wěn)定。
百度AI 高性能網(wǎng)絡(luò) AIPod有約 400 臺(tái)交換機(jī)、3000 張網(wǎng)卡、10000 根線纜和 20000 個(gè)光模塊。其中僅線纜的總長(zhǎng)度就相當(dāng)于北京到青島的距離。AIPod 網(wǎng)絡(luò)采用 3 層無(wú)收斂的 CLOS 組網(wǎng)結(jié)構(gòu)。
AIPod 網(wǎng)絡(luò)采用了 8 通道的架構(gòu),每個(gè)服務(wù)器上的 8 個(gè)網(wǎng)口對(duì)應(yīng) 8 個(gè) GPU,分別連接 8 個(gè)不同的 Leaf 交換機(jī),每個(gè)通道內(nèi) Spine 交換機(jī)和 Leaf 交換機(jī)之間做 fullmesh 全互聯(lián),一個(gè)集群最大可以支持超過(guò) 16K GPU??缤ǖ赖耐ㄐ磐ㄟ^(guò) SuperSpine 把不同的通道的 Spine 交換機(jī)連接起來(lái),打通各個(gè)通道。
在帶寬方面,為了減少跨交換機(jī)的通信,AIPod采用了網(wǎng)絡(luò)架構(gòu)感知的方法,允許上層感知到當(dāng)前 GPU 在網(wǎng)絡(luò)架構(gòu)的什么位置,歸屬于哪一個(gè)匯聚,讓訓(xùn)練任務(wù)調(diào)度的時(shí)候把同一個(gè)任務(wù)盡可能調(diào)度在同一個(gè)匯聚組下。當(dāng)通信不在一個(gè)匯聚組內(nèi)時(shí),通過(guò)匯聚組信息對(duì)全局 GPU 做有序化處理,讓通信庫(kù)在構(gòu)建 Allreduce 拓?fù)鋱D時(shí),減少跨交換機(jī)的互通流量。
在穩(wěn)定性方面,AIPod 網(wǎng)絡(luò)著重構(gòu)建快速?gòu)挠布收现谢謴?fù)的能力。其基于百度自研交換機(jī)設(shè)計(jì)了 AIPod 網(wǎng)絡(luò)的黑盒探測(cè)機(jī)制,保障各種網(wǎng)絡(luò)問(wèn)題被第一時(shí)間感知。此外還通過(guò)基于百度自研交換機(jī)的 Telemetry 遙測(cè)技術(shù),搭建了無(wú)損網(wǎng)絡(luò)的性能透視平臺(tái),確保網(wǎng)絡(luò)內(nèi)的任一丟包信息和 PFC、緩存的異常變化都能被迅速感知到。
谷歌
谷歌從2016年推出TPU v1開(kāi)始布局AI模型算力,TPU v4的算力水平全球領(lǐng)先。與傳統(tǒng)處理器不同,TPU v4 沒(méi)有專用的指令緩存,它采用類似于 Cell 處理器的直接內(nèi)存訪問(wèn) (DMA) 機(jī)制。
TPU v4利用了OCS 來(lái)快速實(shí)現(xiàn)不同的芯片互聯(lián)拓?fù)?。OCS 能夠動(dòng)態(tài)重新配置其互連拓?fù)?,以提高?guī)模、可用性、利用率和性能。與 Infiniband 相比,OCS 的成本更低、功耗更低、速度更快。TPU v4主要與Pod相連發(fā)揮作用,每一個(gè)TPU v4 Pod中有4096個(gè)TPU v4單芯片,得益于OCS獨(dú)特的互連技術(shù),能夠?qū)?shù)百個(gè)獨(dú)立的處理器轉(zhuǎn)變?yōu)橐粋€(gè)系統(tǒng)。
8月29日,谷歌宣布推出新一代TPU v5e ,與 TPU v4 相比,TPU v5e 可為L(zhǎng)LM和新一代 AI 模型提供高達(dá) 2 倍的訓(xùn)練性能和高達(dá) 2.5 倍的推理性能,并且成本還不到 TPU v4 的一半。
在NSDI2022會(huì)議上,谷歌發(fā)布了數(shù)據(jù)中心分布式交換架構(gòu)Aquila。Aquila將超低延遲作為核心設(shè)計(jì)目標(biāo),同時(shí)也支持傳統(tǒng)的數(shù)據(jù)中心業(yè)務(wù)。Aquila使用了一種新的二層基于單元的協(xié)議、GNet、一個(gè)集成交換機(jī)和一個(gè)定制的ASIC,ASIC和GNet一同設(shè)計(jì),并具有低延遲遠(yuǎn)程存儲(chǔ)訪問(wèn)(RMA)。
此前,谷歌還提出了下一代人工智能架構(gòu) “Pathways” 。Pathways旨在提高異構(gòu)AI加速芯片集群上的數(shù)據(jù)處理效率。隨著大模型語(yǔ)料規(guī)模、算力規(guī)模、參數(shù)規(guī)模的不斷上升,簡(jiǎn)單的數(shù)據(jù)并行(將數(shù)據(jù)分成不同份,每份在一個(gè)計(jì)算集群上進(jìn)行訓(xùn)練)已難以滿足大模型訓(xùn)練的需求,例如PaLM即采用了數(shù)據(jù)并行與模型并行(將模型按層分成不同份,每份在一個(gè)計(jì)算集群上進(jìn)行訓(xùn)練)相結(jié)合的方式提升訓(xùn)練效率。
Meta
近日,MIT和Meta團(tuán)隊(duì)發(fā)布了名為“Rail-Only”的全新大語(yǔ)言模型架構(gòu)設(shè)計(jì),對(duì)專門用于訓(xùn)練大型語(yǔ)言模型的 GPU 集群的傳統(tǒng)any-to-any網(wǎng)絡(luò)架構(gòu)提出了挑戰(zhàn)。
Rail-Only架構(gòu)通過(guò)將GPU分組,組成一個(gè)高帶寬互聯(lián)域(HB域),然后再將這些HB域內(nèi)的特定的GPU跨接到特定的Rail交換機(jī),雖然增加了跨域通信的路由調(diào)度復(fù)雜度,但是通過(guò)合理的HB域和Rail交換機(jī)設(shè)計(jì),整體架構(gòu)可以大量減少交換機(jī)的使用,最多可以降低75%的網(wǎng)絡(luò)通信耗費(fèi)。
與傳統(tǒng)的Rail-Optimized GPU集群相比,Rail-Only保留了HB域,并僅在同一Rail上提供連接。實(shí)現(xiàn)Rail-Only架構(gòu)的一個(gè)簡(jiǎn)單方法是,刪除傳統(tǒng)基于Rail-Optimized的any-to-any網(wǎng)絡(luò)架構(gòu)中的Spine交換機(jī),并將連接Rail交換機(jī)到Spine的所有上行鏈路重新用作到GPU的下行鏈路。因此,每個(gè)Rail都由專用且獨(dú)立的Clos網(wǎng)絡(luò)連接。Rail-Only網(wǎng)絡(luò)架構(gòu)消除了不同Rail中具有不同等級(jí)GPU之間的網(wǎng)絡(luò)連接。
未來(lái),Meta還將針對(duì)人工智能工作負(fù)載開(kāi)發(fā)新的數(shù)據(jù)中心架構(gòu),以及開(kāi)發(fā)用于運(yùn)行人工智能模型的自研定制芯片。新數(shù)據(jù)中心將采用人工智能優(yōu)化設(shè)計(jì),支持液冷人工智能硬件和高性能人工智能網(wǎng)絡(luò),將數(shù)千個(gè)人工智能芯片連接在一起,形成數(shù)據(jù)中心規(guī)模的人工智能訓(xùn)練集群。
此外,Meta表示正在開(kāi)發(fā)人工智能超級(jí)計(jì)算機(jī),以支持下一代人工智能模型的訓(xùn)練、增強(qiáng)現(xiàn)實(shí)工具并支持實(shí)時(shí)翻譯技術(shù)。
設(shè)備廠商
華為
華為CloudFabric智能無(wú)損網(wǎng)絡(luò)通過(guò)AI Ready的硬件架構(gòu)及AI智能無(wú)損算法,為AI人工智能、存儲(chǔ)、HPC高性能計(jì)算等應(yīng)用場(chǎng)景提供提供“無(wú)丟包、低時(shí)延、高吞吐”的網(wǎng)絡(luò)環(huán)境,加速計(jì)算和存儲(chǔ)的效率。
邊緣網(wǎng)絡(luò)級(jí)智能采用獨(dú)創(chuàng)擁塞調(diào)度算法:動(dòng)態(tài)擁塞水線、虛擬輸入隊(duì)列和快速擁塞反饋,實(shí)現(xiàn)定時(shí)獲取流量特征、網(wǎng)絡(luò)狀態(tài)實(shí)時(shí)監(jiān)測(cè)和動(dòng)態(tài)基線智能調(diào)整。
核心計(jì)算級(jí)智能采用華為獨(dú)創(chuàng)iLossless智能無(wú)損算法,該算法采用逐流業(yè)務(wù)感知,不僅可以感知網(wǎng)絡(luò)的PFC幀數(shù)、隊(duì)列出口利用率等,還可以感知業(yè)務(wù)的AI訓(xùn)練、高性能數(shù)據(jù)庫(kù)等。
iLosslessTM 智能無(wú)損交換算法
此外,華為還面向AI智算場(chǎng)景推出了星河AI網(wǎng)絡(luò)。星河AI網(wǎng)絡(luò)通過(guò)獨(dú)創(chuàng)的網(wǎng)絡(luò)級(jí)負(fù)載均衡(NSLB)、網(wǎng)絡(luò)智能調(diào)優(yōu)AI ECN以及數(shù)據(jù)面故障快速收斂等創(chuàng)新技術(shù),為客戶打造高吞吐、低時(shí)延、高可靠的AI智算網(wǎng)絡(luò)。
星河AI網(wǎng)絡(luò)融合運(yùn)得多、運(yùn)得快、運(yùn)得穩(wěn)三大優(yōu)勢(shì),為客戶提供了大規(guī)模、高吞吐、高可靠的網(wǎng)絡(luò)建設(shè)。目前,華為星河AI網(wǎng)絡(luò)解決方案已在全球100+個(gè)人工智能計(jì)算中心成功商用部署。
運(yùn)得多:大帶寬,大組網(wǎng)。AI大模型中適配萬(wàn)卡集群是網(wǎng)絡(luò)最基本的要求,華為打造端到端200GE/400GE設(shè)備構(gòu)建大帶寬AI無(wú)損網(wǎng)絡(luò),4倍于業(yè)界規(guī)模,完美匹配AI場(chǎng)景訴求,支撐網(wǎng)絡(luò)運(yùn)得多。
運(yùn)得快:高吞吐,性能加速。華為采用算網(wǎng)一體化的方式部署,效率可以提升10倍以上,整個(gè)過(guò)程自動(dòng)校驗(yàn)0配置差錯(cuò)。獨(dú)創(chuàng)AI網(wǎng)絡(luò)加速器,大大提高網(wǎng)絡(luò)吞吐,保障網(wǎng)絡(luò)運(yùn)得快。
運(yùn)得穩(wěn):月級(jí)訓(xùn)練不中斷。大規(guī)模高性能網(wǎng)絡(luò)的運(yùn)維是一大難題,華為采用智能化運(yùn)維保證訓(xùn)練全程實(shí)時(shí)可視,分鐘級(jí)識(shí)別慢主機(jī)(丟包、超時(shí)延),保障集群持續(xù)穩(wěn)定運(yùn)行,月級(jí)訓(xùn)練無(wú)中斷,護(hù)航網(wǎng)絡(luò)運(yùn)得穩(wěn)。
華為在各單點(diǎn)創(chuàng)新的基礎(chǔ)上,充分發(fā)揮云、計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、能源的綜合優(yōu)勢(shì),進(jìn)行架構(gòu)創(chuàng)新,以“DC as a Computer”的理念推出昇騰AI集群。目前,昇騰AI集群已支撐全國(guó)25個(gè)城市的人工智能計(jì)算中心建設(shè),其中7個(gè)城市公共算力平臺(tái)入選首批國(guó)家“新一代人工智能公共算力開(kāi)放創(chuàng)新平臺(tái)”。
近期,華為宣布昇騰AI集群全面升級(jí),集群規(guī)模從最初的4000卡集群擴(kuò)展至16000卡,是業(yè)界首個(gè)萬(wàn)卡AI集群,擁有更快的訓(xùn)練速度和30天以上的穩(wěn)定訓(xùn)練周期。
思科
AI大模型的爆發(fā)開(kāi)辟了構(gòu)建AI算力的新戰(zhàn)場(chǎng),這對(duì)網(wǎng)絡(luò)也提出了全新的要求。思科正在通過(guò) Silicon One 芯片和網(wǎng)絡(luò)架構(gòu)的創(chuàng)新,幫助客戶構(gòu)建面向未來(lái)的高性能、可擴(kuò)展且高效率的新一代 AI 數(shù)據(jù)中心網(wǎng)絡(luò)。思科 Silicon One 的統(tǒng)一芯片架構(gòu)優(yōu)點(diǎn)使得客戶可以通過(guò)軟件定義的方式將 AI 數(shù)據(jù)中心網(wǎng)絡(luò)配置成為三種模式:1)基于 ECMP 的標(biāo)準(zhǔn)以太網(wǎng);2)增強(qiáng)以太網(wǎng);3)全調(diào)度分布交換(Distributed Switch Fabric, DSF)以太網(wǎng)(VOQ+逐包負(fù)載分擔(dān))
Silicon One 可以靈活支持多種架構(gòu),客戶不需要在網(wǎng)絡(luò)建設(shè)的第一天就固化技術(shù)演進(jìn)路線圖,可以根據(jù)業(yè)務(wù)的不斷發(fā)展采集網(wǎng)絡(luò)傳輸?shù)膶?shí)際數(shù)據(jù),并做出數(shù)據(jù)驅(qū)動(dòng)的技術(shù)決策。而 Silicon One 的 P4 可編性程架構(gòu)通過(guò)軟件迭代持續(xù)支持未來(lái)不同 AI 模型業(yè)務(wù)的需求與發(fā)展。
為了分析不同網(wǎng)絡(luò)架構(gòu)對(duì) AI 任務(wù)的執(zhí)行效能的影響,思科創(chuàng)建了一個(gè)小型訓(xùn)練集群模型,其中包含 256 個(gè) GPU、八個(gè)架頂 (TOR) 交換機(jī)和四個(gè)主干(SPINE)交換機(jī)。通過(guò)使用一個(gè) all-to-all 集約通訊來(lái)傳輸 64MB 的集約數(shù)據(jù),通過(guò)改變網(wǎng)絡(luò)上同時(shí)運(yùn)行的 AI 任務(wù)數(shù)量,以及 TOR 到 SPINE 設(shè)備互聯(lián)鏈路帶寬的加速比來(lái)測(cè)量最終 AI 作業(yè)完成時(shí)間(JCT)以考察不同網(wǎng)絡(luò)架構(gòu)的性能差異。
另一方面,DSF 網(wǎng)絡(luò)架構(gòu)提供了完全無(wú)阻塞的通訊性能,并且網(wǎng)絡(luò)不會(huì)暫停 GPU 發(fā)送流量。這意味著對(duì)于相同的物理網(wǎng)絡(luò),采用 DSF 架構(gòu)可連接的 GPU 數(shù)量是 ECMP 以太網(wǎng)架構(gòu)的兩倍。這大大地提高了網(wǎng)絡(luò)的效率、降低了成本。
此外,思科 Silicon One 同樣可以支持遙測(cè)(INT)增強(qiáng)的 AI 以太網(wǎng)架構(gòu), 這種架構(gòu)的目標(biāo)是通過(guò)在數(shù)據(jù)包內(nèi)部插入沿途網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)擁塞位置與程度的信息,向收發(fā)側(cè)的服務(wù)器或采集器節(jié)點(diǎn)發(fā)出業(yè)務(wù)路徑、擁塞信號(hào),從而可以快速、主動(dòng)改進(jìn)負(fù)載均衡決策來(lái)提高標(biāo)準(zhǔn)以太網(wǎng) ECMP 的吞吐性能,并降低時(shí)延,避免丟包。上述三種網(wǎng)絡(luò)架構(gòu)采用的各種技術(shù)的相對(duì)優(yōu)點(diǎn)因客戶而異,并且可能會(huì)隨著時(shí)間和不同業(yè)務(wù)需求的變化發(fā)生改變。
中興
2022 年,中興通訊推出星云 1.0 解決方案,基于數(shù)字星云的架構(gòu),可以替代已有的“煙囪”數(shù)據(jù),形成數(shù)據(jù)共享。2023 年,中興通訊進(jìn)一步發(fā)布數(shù)字星云 2.0,提供更強(qiáng)大的接入集成、計(jì)算存儲(chǔ)、數(shù)據(jù)治理和共享交易能力服務(wù),可以在數(shù)據(jù)處理、AI 訓(xùn)練、AI 推理部署三大環(huán)節(jié),幫助企業(yè)節(jié)省算力資源、 提升算力使用效率。數(shù)字星云 2.0 將在數(shù)智時(shí)代高價(jià)值場(chǎng)景發(fā)揮更為明顯的優(yōu)勢(shì)。同時(shí),在生成式 AI 方面的能力提升將成為數(shù)字星云未來(lái)發(fā)展的長(zhǎng)期規(guī)劃。
此外,在網(wǎng)絡(luò)方面,中興通訊采用了高速“無(wú)損”網(wǎng)絡(luò),實(shí)現(xiàn)了AI算力的“無(wú)損”。以DPU為中心,基于無(wú)損交換機(jī)的高性能RDMA網(wǎng)絡(luò),構(gòu)建了超大規(guī)模算力集群。引入NEO智能云卡,服務(wù)器可實(shí)現(xiàn)單節(jié)點(diǎn)800Gbps轉(zhuǎn)發(fā)性能、微秒級(jí)時(shí)延,從而突破了節(jié)點(diǎn)間網(wǎng)絡(luò)瓶頸,可以將 GPU集群算力發(fā)揮到極致。
在服務(wù)器方面,中興通訊全系列服務(wù)器支持GPU和液冷,可以以極致低耗構(gòu)建大模型計(jì)算資源池,使數(shù)據(jù)中心的PUE降到1.13以下。中興通訊已經(jīng)推出R6500G5 GPU服務(wù)器,最大支持20個(gè)GPU; 今年底,還將推出更高性能的R6900G5 GPU訓(xùn)練服務(wù)器。
在存儲(chǔ)方面,中興通訊提供高帶寬多元融合存儲(chǔ),以滿足AI訓(xùn)練多態(tài)數(shù)據(jù)存儲(chǔ)需求。中興通訊提供分布式磁陣和高端全閃磁陣組合方案,兼顧了大容量和高性能需求,同時(shí)提供文件、對(duì)象和塊等多元存儲(chǔ)。此外,通過(guò)NEO智能云卡卸載高性能存儲(chǔ)傳輸協(xié)議NVMe,實(shí)現(xiàn)了3M IOPS的存儲(chǔ)性能。
中興表示未來(lái)將重點(diǎn)投入三個(gè)產(chǎn)品方向:
1. 公司新一代智算中心基礎(chǔ)設(shè)施產(chǎn)品,全面支持大模型訓(xùn)練和推理,包括高性能 AI 服務(wù)器、高性能交換機(jī)、DPU 等;
2. 下一代數(shù)字星云解決方案,利用生成式 AI 技術(shù),在代碼生成、辦公和運(yùn)營(yíng)智能化等領(lǐng)域展開(kāi)研究,全面提升企業(yè)效率;
3. 新一代 AI 加速芯片、模型輕量化技術(shù),大幅降低大模型推理成本。
新華三
新華三集團(tuán)憑借在企業(yè)網(wǎng)絡(luò)領(lǐng)域20多年的深厚積累,針對(duì)AI大模型和AIGC熱潮,有著自己的體系化思考,也布局了很多技術(shù)。6月,新華三集團(tuán)發(fā)布了全新的智算解決方案,全面助推AI業(yè)務(wù)加速前行。
異構(gòu)算力:提供異構(gòu)的多元AI算力,主要有商業(yè)英偉達(dá)GPU(主)、國(guó)產(chǎn)AI計(jì)算加速卡,在大規(guī)模分布式訓(xùn)練為主的場(chǎng)景(如NLP),主推R5500G5機(jī)型服務(wù)器,該機(jī)型內(nèi)部AI計(jì)算加速卡為OAM模組形態(tài),訓(xùn)練時(shí)服務(wù)器內(nèi)部以高速互聯(lián)協(xié)議傳輸數(shù)據(jù),節(jié)點(diǎn)之間可支持8張100G RoCE網(wǎng)卡與其他節(jié)點(diǎn)互聯(lián),形成AI集群;在小規(guī)模訓(xùn)練為主的場(chǎng)景(如小型CV),可以選用R5300G5,此機(jī)型主要支持PCIE款型AI加速卡,內(nèi)部通過(guò)PCIESwich互聯(lián),成本較低,可適配的AI加速卡款型較多。
海量存儲(chǔ):分為冷熱數(shù)據(jù),冷數(shù)據(jù)以存檔為主,通過(guò)OneStor的對(duì)象存儲(chǔ)提供,對(duì)象存儲(chǔ)有讀取方便(HTTP協(xié)議)、不可在線編輯、集群大的優(yōu)勢(shì),可為用戶提供數(shù)據(jù)集、鏡像、算法、模型的廉價(jià)歸檔空間;熱數(shù)據(jù)以分布式并行文件存儲(chǔ)為主,通過(guò)CX8028/CX5036提供,分布式文件存儲(chǔ)具有IOPS高、延遲低的特性,可為大規(guī)模訓(xùn)練提供高性能的數(shù)據(jù)集、訓(xùn)練臨時(shí)數(shù)據(jù)的讀寫(xiě)空間。
無(wú)損網(wǎng)絡(luò):支持RoCEv2協(xié)議,主要設(shè)備為S9820-8C,可提供100G/400G速率的端口。單臺(tái)設(shè)備提供128個(gè)100G端口的能力,支持16臺(tái)R5500G5服務(wù)器接入,算力規(guī)??蛇_(dá)80P 峰值算力。
銳捷
銳捷針對(duì)AIGC算力、GPU利用率與網(wǎng)絡(luò)的關(guān)系,以及主流HPC組網(wǎng)面臨的挑戰(zhàn),推出了“智速”DDC(Distributed Disaggregated Chassis,分布式分散式機(jī)箱)高性能網(wǎng)絡(luò)方案,并計(jì)劃于今年推出兩款可交付產(chǎn)品,分別是400G NCP交換機(jī)和200G NCF交換機(jī)。
DDC是一種分布式解耦機(jī)框設(shè)備的解決方案,它將傳統(tǒng)軟硬一體的框式設(shè)備的組件進(jìn)行拆解,以NCP替代傳統(tǒng)框式設(shè)備的線卡板,以NCF替代交換網(wǎng)板,并通過(guò)光纖互聯(lián)替代原先兩者之間的連接器組件;傳統(tǒng)框式設(shè)備的控制管理引擎也獨(dú)立出來(lái),可以以軟件化的方式靈活部署于任何一臺(tái)標(biāo)準(zhǔn)服務(wù)器或多臺(tái)服務(wù)器,能有效節(jié)省部署成本,提升系統(tǒng)冗余性和可靠性。
DDC方案突破了傳統(tǒng)框式設(shè)備的資源限制,讓大規(guī)模組網(wǎng)化繁為簡(jiǎn),不僅具有擴(kuò)展彈性、擴(kuò)容升級(jí)快、單機(jī)功耗低、運(yùn)維管理效率高等特點(diǎn),可靈活支持AI集群大規(guī)模部署,而且具有集群路由設(shè)計(jì)簡(jiǎn)單、數(shù)據(jù)轉(zhuǎn)發(fā)方式更優(yōu)化等優(yōu)勢(shì),能有效提升網(wǎng)絡(luò)通信性能。
在支持AI集群超大規(guī)模部署方面,在單POD組網(wǎng)中,采用96臺(tái)NCP作為接入,其中NCP下行共18個(gè)400G接口,負(fù)責(zé)連接AI計(jì)算集群的網(wǎng)卡。上行共40個(gè)200G接口最大可以連接40臺(tái)NCF,NCF提供96個(gè)200G接口,該規(guī)模上下行帶寬為超速比1.1:1。整個(gè)POD可支撐1728個(gè)400G網(wǎng)絡(luò)接口,按照一臺(tái)服務(wù)器配8塊GPU來(lái)計(jì)算,可支撐216臺(tái)AI計(jì)算服務(wù)器。
在多級(jí)POD組網(wǎng)中,可以實(shí)現(xiàn)基于POD的按需建設(shè)??紤]該場(chǎng)景POD中NCF設(shè)備要犧牲一半的SerDes用于連接第二級(jí)的NCF,單POD采用48臺(tái)NCP作為接入,下行共18個(gè)400G接口,單POD內(nèi)可以支撐864個(gè)400G接口。通過(guò)橫向增加POD實(shí)現(xiàn)規(guī)模擴(kuò)容,整體最大可支撐6912個(gè)400G網(wǎng)絡(luò)端口。
浪潮
浪潮認(rèn)為要解決超大規(guī)模、超高帶寬、超強(qiáng)可靠的“三超”網(wǎng)絡(luò)的挑戰(zhàn),就需要著重思考如何建設(shè)符合大規(guī)模訓(xùn)練的組網(wǎng)方案。從組網(wǎng)架構(gòu)上看,當(dāng)前AIGC組網(wǎng)一般多采用胖樹(shù)架構(gòu),具有高帶寬、低延遲的特性,以及較好的可拓展性。而在組網(wǎng)協(xié)議上,當(dāng)前業(yè)界主流的是基于IB及RoCE兩種無(wú)損網(wǎng)絡(luò)技術(shù),兩種技術(shù)都可以很好的滿足大規(guī)模訓(xùn)練高帶寬、低延遲的要求。IB的延遲足夠低,而RoCE在開(kāi)放性、性價(jià)比及易維護(hù)性等方面更勝一籌。
浪潮推出了基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案,助力AIGC“三超”網(wǎng)絡(luò)的打造,其具備如下優(yōu)勢(shì):
一是多協(xié)議、多場(chǎng)景的融合。在大規(guī)模集群中,往往存在通用計(jì)算集群、AI/HPC集群、存儲(chǔ)等多種場(chǎng)景,傳統(tǒng)方案是部署以太網(wǎng)、IB、FC等多套網(wǎng)絡(luò)及多種協(xié)議,各協(xié)議之間互不兼容,大大增加了管理和維護(hù)的難度。
浪潮基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案,可以適配通用計(jì)算、AI/HPC、存儲(chǔ)等多種場(chǎng)景,并實(shí)現(xiàn)以太/IB/FC三網(wǎng)融合。這樣從維護(hù)多張網(wǎng)絡(luò)到維護(hù)一張網(wǎng)絡(luò),大大降低了整體建設(shè)和維護(hù)成本。
二是智能彈性、動(dòng)態(tài)調(diào)整。在大規(guī)模集群訓(xùn)練中,要求整個(gè)集群可以快速部署與交付,在節(jié)約訓(xùn)練時(shí)間的同時(shí),盡可能減少宕機(jī)等故障的發(fā)生。
浪潮基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案中,通過(guò)數(shù)字化網(wǎng)絡(luò)引擎IDE可以實(shí)現(xiàn)集群網(wǎng)絡(luò)的自動(dòng)化部署,加速業(yè)務(wù)上線。并實(shí)時(shí)監(jiān)控設(shè)備與鏈路的負(fù)載和健康狀態(tài),如CRC錯(cuò)包,端口帶寬百分比、隊(duì)列緩存,CNP及Pause反壓幀等,完成故障的快速定位及智能分析,實(shí)現(xiàn)基于業(yè)務(wù)的網(wǎng)絡(luò)跟蹤。此外,還可以提供北向標(biāo)準(zhǔn)API接口,能夠與上層計(jì)算平臺(tái)進(jìn)行對(duì)接,實(shí)現(xiàn)算網(wǎng)聯(lián)動(dòng),更好的釋放集群算力。
芯片廠商
伴隨AI、大數(shù)據(jù)等新興技術(shù)的崛起,傳統(tǒng)通用計(jì)算性能愈發(fā)捉襟見(jiàn)肘,異構(gòu)計(jì)算成為了整個(gè)半導(dǎo)體行業(yè)的前行方向。英特爾正考慮如何在異構(gòu)平臺(tái)上合理分配負(fù)載,以進(jìn)行AI處理工作。在底層方面,英特爾采用了OneAPI(一種統(tǒng)一編程模型和應(yīng)用程序接口)思路,利用OneAPI提供的優(yōu)化庫(kù),希望以打包的平臺(tái)方案整合自家龐雜的產(chǎn)品路線,降低客戶對(duì)底層硬件差異的敏感度。
英特爾還計(jì)劃提高網(wǎng)絡(luò)傳輸?shù)目煽啃裕ㄟ^(guò)更新和創(chuàng)新更高層網(wǎng)絡(luò)協(xié)議來(lái)提高以太網(wǎng)傳輸RDMA協(xié)議的可靠性,這個(gè)功能將包含在即將發(fā)布的下一代IPU中。
針對(duì)AI在不同場(chǎng)景、不同環(huán)節(jié)的異構(gòu)計(jì)算需求,英特爾將其產(chǎn)品線分為通用計(jì)算與加速計(jì)算。其中,英特爾的CPU產(chǎn)品,第四代至強(qiáng)處理器解決通用計(jì)算,可滿足客戶在大部分模型較小場(chǎng)景的AI推理需求;Gaudi2解決加速計(jì)算,可解決大模型的訓(xùn)練及推理需求。
英特爾用來(lái)實(shí)現(xiàn)AI能力的是一個(gè)CPU上首次出現(xiàn)的全新計(jì)算模式——VPU,VPU是專門為AI設(shè)計(jì)的一套架構(gòu),能夠非常高效地完成一些矩陣運(yùn)算,而且對(duì)稀疏化的處理非常擅長(zhǎng)。VPU最大的優(yōu)勢(shì)就是在消費(fèi)端PC上用最快速、最便宜、最低成本的方式實(shí)現(xiàn)AI功能。
下半年即將面市的Meteor Lake集成了Movidius視覺(jué)處理器,與以往的通過(guò)CPU和GPU的人工智能加速指令集去實(shí)現(xiàn)人工智能服務(wù)不同,這是一個(gè)獨(dú)立的處理單元,在針對(duì)人工智能進(jìn)行加速處理模式中,采用的是“CPU+GPU+VPU“的混合處理方式,通過(guò)各個(gè)計(jì)算單元的特點(diǎn),將AI處理效率最大力。
在暴漲的AI需求下,博通發(fā)布了Tomahawk 5系列網(wǎng)絡(luò)芯片。由于做到了更高的端口密度,Tomahawk 5可以實(shí)現(xiàn)256高性能AI/ML加速器之間的單跳連接,且每個(gè)都能做到200Gbps的網(wǎng)絡(luò)帶寬。這對(duì)于數(shù)據(jù)中心的AI訓(xùn)練和推理的負(fù)載來(lái)說(shuō),無(wú)疑提高了吞吐效率,尤其是針對(duì)日益流行且愈發(fā)復(fù)雜的生成式AI模型。
4月,博通發(fā)布了Jericho3-AI芯片,用于將超級(jí)計(jì)算機(jī)連接在一起,利用已廣泛使用的網(wǎng)絡(luò)技術(shù)進(jìn)行人工智能工作。Jericho3-AI針對(duì)AI訓(xùn)練負(fù)載做了特殊的優(yōu)化,更高的端口密度使得Jericho3-AI可以在單個(gè)集群中連接32000個(gè)GPU,并做到800Gbps的連接帶寬表現(xiàn)。
Jericho3-AI芯片結(jié)構(gòu)設(shè)計(jì)是為了降低在網(wǎng)絡(luò)間進(jìn)行人工智能訓(xùn)練時(shí)間。Jericho3-AI 擁有一系列的先進(jìn)特性,如改進(jìn)的負(fù)載平衡,可以確保在最高網(wǎng)絡(luò)負(fù)載下實(shí)現(xiàn)最大的網(wǎng)絡(luò)利用率,無(wú)擁塞操作,無(wú)流量沖突和抖動(dòng),以及零影響故障轉(zhuǎn)移——確保低于10ns 的自動(dòng)路徑收斂。所有這些特性都將減少AI工作負(fù)載的完成時(shí)間。
據(jù)介紹,Jericho3-AI 的最高吞吐量為 28.8Tb/s。它有 144 個(gè)以 106Gbps PAM4 運(yùn)行的 SerDes 通道,支持多達(dá) 18 個(gè) 800GbE/36 個(gè) 400GbE/72 個(gè) 200GbE 網(wǎng)絡(luò)端口。
博通將其與英偉達(dá)自己的InfiniBand方案對(duì)比,Jericho3-AI在完成時(shí)間上有著10%左右的優(yōu)勢(shì)。這也是Jericho系列獨(dú)有的優(yōu)勢(shì),實(shí)現(xiàn)標(biāo)準(zhǔn)以太網(wǎng)芯片無(wú)法實(shí)現(xiàn)卻在AI或HPC應(yīng)用上被看重的靈活功能。
英偉達(dá)
在AI驅(qū)動(dòng)下,英偉達(dá)在大規(guī)模、大算力、高性能的場(chǎng)景下創(chuàng)造了一個(gè)新的網(wǎng)絡(luò)應(yīng)用場(chǎng)景,即AI工廠。英偉達(dá)首創(chuàng)了NVLink + NVSwitch技術(shù),為多GPU系統(tǒng)提供更加快速的互聯(lián)解決方案。借助NVLINK技術(shù),能最大化提升系統(tǒng)吞吐量,很好的解決了GPU互聯(lián)瓶頸。最新的英偉達(dá)Hopper架構(gòu)采用NVLINK4.0技術(shù),總帶寬最高可達(dá)900GB/s。
今年5月英偉達(dá)推出了面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺(tái)——Spectrum-X,其擁有無(wú)損網(wǎng)絡(luò)、動(dòng)態(tài)路由、流量擁塞控制、多業(yè)務(wù)性能隔離等主要特性,能夠滿足云上部署AI或生成式AI工作負(fù)載對(duì)網(wǎng)絡(luò)性能的要求,有助于節(jié)約訓(xùn)練成本、縮短訓(xùn)練時(shí)間,加速大模型走向面市。
Spectrum-X網(wǎng)絡(luò)平臺(tái)采用了國(guó)際上先進(jìn)的Co-Design的技術(shù),將英偉達(dá)Spectrum-4以太網(wǎng)交換機(jī)與BlueField-3 DPU緊密耦合,實(shí)現(xiàn)了相比傳統(tǒng)以太網(wǎng)架構(gòu)1.7倍的整體AI性能和能效提升,并通過(guò)性能隔離技術(shù)增強(qiáng)了多租戶功能運(yùn)行多任務(wù)的性能,在多租戶環(huán)境中保持與Bare Metal一致、可預(yù)測(cè)的性能。
基于最新發(fā)布的Spectrum-X平臺(tái),英偉達(dá)構(gòu)建了生成式AI云超級(jí)計(jì)算機(jī)——Israel-1,實(shí)現(xiàn)基于Spectrum-X網(wǎng)絡(luò)平臺(tái)的生成式AI云。在其中投入了256 臺(tái)基于NVIDIA HGX平臺(tái)的Dell服務(wù)器,共包括2048個(gè)GPU,并且,配備了2560個(gè)BlueField-3 DPU、80 多臺(tái) Spectrum-4 以太網(wǎng)交換機(jī)。
英偉達(dá)的兩個(gè)網(wǎng)絡(luò)架構(gòu),可以用到不同AI場(chǎng)景,滿足不同客戶對(duì)網(wǎng)絡(luò)通信的需求:追求超大規(guī)模、高性能可以采用NVLink+InfiniBand網(wǎng)絡(luò);多租戶、工作負(fù)載多樣性,需融入生成式AI,則用高性能Spectrum-X以太網(wǎng)架構(gòu)。如果對(duì)性能和低延時(shí)要求更高,AI云體系架構(gòu)也可以使用InfiniBand。
Marvell
今年3月,Marvell推出了用于 800 Gb/秒交換機(jī)的 51.Teralynx 10交換機(jī)芯片。這是一款支持1.6T以太網(wǎng)和800G以太網(wǎng)的交換機(jī)芯片。該芯片采用了PAM-4技術(shù)和Nova DSP芯片,可以實(shí)現(xiàn)更高的速度和更高的可靠性。此外,該芯片還支持多種不同速率的端口,從而實(shí)現(xiàn)更高的靈活性和可擴(kuò)展性。
除了用到業(yè)界頂級(jí)的112G SerDes IP和先進(jìn)的工藝實(shí)現(xiàn)低功耗的系統(tǒng)設(shè)計(jì)以外,Marvell宣稱Teralynx 10可以提供1.7倍的延遲優(yōu)勢(shì),這對(duì)于生成式AI這種看重完成時(shí)間和網(wǎng)絡(luò)傳輸時(shí)間的應(yīng)用來(lái)說(shuō)至關(guān)重要。
據(jù)Marvell介紹,Teralynx 10 旨在解決運(yùn)營(yíng)商帶寬爆炸的問(wèn)題,同時(shí)滿足嚴(yán)格的功耗和成本要求。它可適用于下一代數(shù)據(jù)中心網(wǎng)絡(luò)中的 leaf 和 spine 應(yīng)用,以及 AI / ML 和高性能計(jì)算 (HPC) 結(jié)構(gòu)。
據(jù)介紹,一個(gè) Teralynx 10 相當(dāng)于 12 個(gè) 12.8 Tbps 一代芯片,由此可以在同等容量下減少 80% 的功耗。Teralynx 10 具有 512 個(gè)長(zhǎng)距離 (LR) 112G SerDes,有了它,交換機(jī)系統(tǒng)可以開(kāi)發(fā)出更全面的交換機(jī)配置,例如 32 x 1.6T、 64 x 800G 和 128 x 400G 鏈路。
運(yùn)營(yíng)商
中國(guó)移動(dòng)
中國(guó)移動(dòng)把握算力時(shí)代發(fā)展脈搏,以網(wǎng)強(qiáng)算提出發(fā)展算力網(wǎng)絡(luò)的全新理念,持續(xù)開(kāi)拓創(chuàng)新,不斷提升算力網(wǎng)絡(luò)發(fā)展的高度、廣度、深度。今年5月,中國(guó)移動(dòng)聯(lián)合騰訊等率先發(fā)布了《全調(diào)度以太網(wǎng)技術(shù)(GSE)架構(gòu)白皮書(shū)》,其中詳細(xì)描述了容器化Packet分發(fā)(PKTC)+全局動(dòng)態(tài)調(diào)度隊(duì)列(DGSQ)的技術(shù)機(jī)制。
容器化Packet分發(fā)機(jī)制引入分組容器(PKTC)的邏輯概念,而不是單純的Per Packet分發(fā),在Packet級(jí)均衡的基礎(chǔ)上能兼顧不同鏈路Byte級(jí)的均衡效果。DGSQ也不同于傳統(tǒng)基于VoQ的流量調(diào)度,沒(méi)有采用傳統(tǒng)基于端口靜態(tài)分配,而是基于數(shù)據(jù)流目標(biāo)設(shè)備端口按需、動(dòng)態(tài)創(chuàng)建,實(shí)現(xiàn)全網(wǎng)優(yōu)化調(diào)度。
此外,中國(guó)移動(dòng)加快發(fā)展智能算力,以新型智算中心為發(fā)力點(diǎn),打造算力高峰,推動(dòng)算力網(wǎng)絡(luò)實(shí)現(xiàn)智能躍遷。
新型智算中心(NICC)是以GPU、AI加速卡等智能集群算力為核心集約化建設(shè)的E級(jí)超大規(guī)模新型算力基礎(chǔ)設(shè)施,具備軟硬件全棧環(huán)境,是支撐AI大模型的高效訓(xùn)練,推動(dòng)行業(yè)數(shù)智化轉(zhuǎn)型升級(jí)的基石。相較于傳統(tǒng)云數(shù)據(jù)中心,新型智算中心在算、存、網(wǎng)、管、效五大方面升級(jí),躍遷到更高水平,具備GPU集群算力、多元融合存儲(chǔ)、高速無(wú)損網(wǎng)絡(luò)、異構(gòu)算力池化、高效節(jié)能控制五大特征。
面向新型智算中遠(yuǎn)期發(fā)展,中國(guó)移動(dòng)加大算存網(wǎng)管效五大方面技術(shù)的融合創(chuàng)新突破,體系化布局攻關(guān)“打破異構(gòu)生態(tài)豎井”的算力原生、“突破經(jīng)典馮氏架構(gòu)”的存算一體、“突破無(wú)損以太性能瓶頸”的全調(diào)度以太網(wǎng)、“改變互聯(lián)網(wǎng)基礎(chǔ)架構(gòu)”的算力路由、“匯聚多樣算力”的算力并網(wǎng)等創(chuàng)新技術(shù),打造原創(chuàng)技術(shù)策源地。
中國(guó)聯(lián)通
在AI加速行業(yè)發(fā)展的當(dāng)下,中國(guó)聯(lián)通在AI領(lǐng)域不斷創(chuàng)新,致力于建設(shè)云算網(wǎng)一體的信息基礎(chǔ)設(shè)施,從算力供給、輸送、調(diào)度和服務(wù)四個(gè)方面規(guī)劃算力網(wǎng)絡(luò),構(gòu)建中國(guó)聯(lián)通智算網(wǎng)絡(luò)。
2023 年 4 月,中國(guó)聯(lián)通研究院、廣東聯(lián)通攜手華為建成全棧自主創(chuàng)新AI智算中心,并完成全國(guó)首個(gè)OSU(光業(yè)務(wù)單元,Optical Service Unit)靈活入多云的現(xiàn)網(wǎng)驗(yàn)證,實(shí)現(xiàn)算網(wǎng)融合發(fā)展新突破。
廣東聯(lián)通攜手華為打造運(yùn)營(yíng)商首個(gè)全棧自主創(chuàng)新智算平臺(tái),創(chuàng)建算法商城和一體化算力門戶交易平臺(tái),提供多樣性算力服務(wù),并具備全棧自主創(chuàng)新、極簡(jiǎn)開(kāi)發(fā)、全場(chǎng)景端邊云協(xié)同和豐富的生態(tài)體系四大能力優(yōu)勢(shì):
自主創(chuàng)新的基礎(chǔ)軟硬件:基于昇騰硬件、歐拉開(kāi)源操作系統(tǒng)、昇思MindSpore全場(chǎng)景AI框架,CANN異構(gòu)計(jì)算架構(gòu)等全棧自主創(chuàng)新的基礎(chǔ)軟硬件支撐原生創(chuàng)新。
極簡(jiǎn)易用的訓(xùn)推一體平臺(tái):提供從訓(xùn)練到推理的一站式AI開(kāi)發(fā)平臺(tái),通過(guò)昇思AI框架和全流程開(kāi)發(fā)工具包,加速行業(yè)算法和應(yīng)用開(kāi)發(fā),快速實(shí)現(xiàn)AI使能業(yè)務(wù)能力。
全場(chǎng)景的端邊云協(xié)同能力:硬件層面均采用統(tǒng)一的達(dá)芬奇架構(gòu),軟件層面支持主流操作系統(tǒng)、多種AI框架,實(shí)現(xiàn)增量訓(xùn)練模型迭代,全場(chǎng)景自適應(yīng)感知與協(xié)同。
不斷豐富的生態(tài)體系:依托智算平臺(tái),聯(lián)合高校、算法廠商等合作伙伴聯(lián)合創(chuàng)新,孵化AI行業(yè)應(yīng)用,實(shí)現(xiàn)產(chǎn)學(xué)研用深度融合,構(gòu)筑成熟AI生態(tài)體系。
廣東聯(lián)通在社會(huì)算力并網(wǎng)方面也積極實(shí)踐,實(shí)現(xiàn)省內(nèi)算力協(xié)同和生態(tài)體系共享;以智算平臺(tái)為載體,逐步構(gòu)建區(qū)域AI應(yīng)用創(chuàng)新體系,滿足多樣性AI應(yīng)用需求使能千行百業(yè)。
中國(guó)電信
中國(guó)電信正在上海試點(diǎn)新一代智云網(wǎng)絡(luò),以高質(zhì)量、廣覆蓋大帶寬、低時(shí)延、云-邊-端協(xié)同的算力網(wǎng)絡(luò)為人工智能的大規(guī)模應(yīng)用提供堅(jiān)實(shí)的基礎(chǔ)。
2022年,中國(guó)電信自研天翼云4.0算力分發(fā)網(wǎng)絡(luò)平臺(tái)——“息壤”入選國(guó)資委央企十大超級(jí)工程。目前,“息壤”已全面接入天翼云的多級(jí)資源,并與多個(gè)合作伙伴實(shí)現(xiàn)算力并網(wǎng),實(shí)現(xiàn)基于云原生和跨域大規(guī)模調(diào)度技術(shù)的智能算網(wǎng)調(diào)度,為“東數(shù)西算”、云渲染、跨云調(diào)度、性能壓測(cè)、混合云AI計(jì)算等應(yīng)用場(chǎng)景,提供多樣化、差異化的算力產(chǎn)品形態(tài),滿足不同業(yè)務(wù)需求。
今年來(lái),AI大模型呈井噴式爆發(fā),面對(duì)節(jié)奏越來(lái)越快的技術(shù)迭代、創(chuàng)新和升級(jí),堅(jiān)實(shí)的網(wǎng)絡(luò)基礎(chǔ)的重要性愈發(fā)凸顯。早在去年中國(guó)電信就順應(yīng)時(shí)代趨勢(shì)和產(chǎn)業(yè)發(fā)展需求,在AI助力管理應(yīng)用創(chuàng)新方面,推出全球首款以云網(wǎng)融合為核心架構(gòu)的“星河AI賦能平臺(tái)”,這也是業(yè)界首個(gè)百億參數(shù)級(jí)別的城市治理大模型。
中國(guó)電信星河AI賦能平臺(tái)在全球率先以云網(wǎng)融合為核心架構(gòu),搭載“全網(wǎng)、區(qū)域、邊、端”四級(jí)算力,擁有31個(gè)省級(jí)算力集群的人工智能產(chǎn)品和能力平臺(tái),可以實(shí)現(xiàn)AI能力一鍵下發(fā)、快速部署、全場(chǎng)景應(yīng)用。
得益于構(gòu)架層的創(chuàng)新,星河AI實(shí)現(xiàn)了算力動(dòng)態(tài)調(diào)度、資源高可用、標(biāo)準(zhǔn)開(kāi)放的API(應(yīng)用編程接口),能夠極速部署安裝,集成千余種AI算法能力納管和封裝,滿足多樣協(xié)議視頻流智能接入,實(shí)現(xiàn)AI能力平臺(tái)可視化編排。
寫(xiě)在最后
數(shù)據(jù)中心和算力集群是AI的核心,網(wǎng)絡(luò)則是它的命脈,它們共同構(gòu)筑了AI大模型底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施,實(shí)現(xiàn)了數(shù)據(jù)和智能的無(wú)縫傳遞。正如身體需要心臟泵血來(lái)保持生命,AI也需要這些要素來(lái)持續(xù)演進(jìn),我們應(yīng)致力于構(gòu)建更加安全、高效和可靠的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以確保AI的無(wú)限潛力能夠得以實(shí)現(xiàn)。網(wǎng)絡(luò)不僅是連接,更是創(chuàng)新與合作的橋梁。
-
AI
+關(guān)注
關(guān)注
87文章
30178瀏覽量
268441 -
算力
+關(guān)注
關(guān)注
1文章
931瀏覽量
14747 -
大模型
+關(guān)注
關(guān)注
2文章
2335瀏覽量
2491 -
AI大模型
+關(guān)注
關(guān)注
0文章
307瀏覽量
293
原文標(biāo)題:盤(pán)點(diǎn):AI 大模型背后不同玩家的網(wǎng)絡(luò)支撐
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論