整個(gè)2023年,全球科技界都在為大模型沸騰。云計(jì)算產(chǎn)業(yè)作為AI大模型與產(chǎn)業(yè)場(chǎng)景間的最短路徑,自然也在大模型浪潮中備受關(guān)注。目前階段,云廠商已經(jīng)紛紛入局大模型,從多個(gè)角度探索大模型帶給云計(jì)算產(chǎn)業(yè)的可能性。
但我們往往會(huì)忽略這樣一個(gè)關(guān)鍵節(jié)點(diǎn):“百模千態(tài)”的大模型,第一項(xiàng)挑戰(zhàn)是AI算力。而做好大模型服務(wù),首當(dāng)其沖也要做好算力服務(wù)。
在AI算力這個(gè)最為基礎(chǔ)的能力中,隱藏著AI云服務(wù)如何能走向更遠(yuǎn)的真正答案。
9月21日,在華為全聯(lián)接大會(huì)2023期間,華為常務(wù)董事、華為云CEO張平安圍繞“共建智能世界云底座,讓AI重塑千行萬業(yè)”發(fā)表主題演講,發(fā)布盤古大模型在礦山、政務(wù)、汽車、氣象、醫(yī)學(xué)、數(shù)字人、研發(fā)等領(lǐng)域的創(chuàng)新服務(wù),并宣布華為云昇騰AI云服務(wù)正式上線,加快讓千行萬業(yè)實(shí)現(xiàn)大模型普惠。圍繞盤古大模型落地,本次華為云分享的主題是“解難題,做難事”。讓AI算力能用、夠用、好用、有大用,就是華為云解開的第一道難題。
算力入山河,AI始落地。
為了做好這件重要的“難事”,昇騰AI云服務(wù)出發(fā)了。
大山大河,需要AI大算力
信息革命以來,人類逐步發(fā)現(xiàn)科技創(chuàng)新的幅度與算力消耗成正比,這一點(diǎn)在大模型身上又一次得到了印證。
大模型的出現(xiàn)和成熟,給千行萬業(yè)智能化帶來了全新的機(jī)遇。可以說,每個(gè)行業(yè)的每個(gè)場(chǎng)景都值得融入大模型,甚至其中大部分可以被大模型所重塑。而無論是大模型本身模型規(guī)模大、數(shù)據(jù)參數(shù)多的特點(diǎn),還是各個(gè)行業(yè)涌現(xiàn)的大模型需求,都指向同一個(gè)結(jié)果:社會(huì)生產(chǎn)體系所消耗的AI算力,將得到指數(shù)級(jí)提升。
大模型需要大算力,已經(jīng)成為了行業(yè)共識(shí)。但如果我們具體打開這個(gè)問題,會(huì)發(fā)現(xiàn)圍繞AI算力產(chǎn)生的產(chǎn)業(yè)挑戰(zhàn)非常多樣。我們可以將其概括為供需矛盾、能效挑戰(zhàn)、運(yùn)維需求、安全顧慮四種。
先來看AI算力最為核心的挑戰(zhàn),即供需之間客觀上的不平衡。
截至2023年7月,中國(guó)累計(jì)已經(jīng)有130個(gè)大模型問世。“百模大戰(zhàn)”帶來了AI算力的巨量增長(zhǎng)。根據(jù)相關(guān)數(shù)據(jù)報(bào)告,過去10年全球AI算力需求增長(zhǎng)了30萬倍,而未來10年我們還面臨著需求500倍的增長(zhǎng)。根據(jù)《2022-2023中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》顯示,在2022年中國(guó)進(jìn)行的AI計(jì)算總量已經(jīng)超過了通用計(jì)算。在可見的未來,AI算力將會(huì)變成社會(huì)各界需求量最大、供需缺口最大、資源最為緊張的計(jì)算形態(tài)。
其次是大模型與大算力,帶來了尖銳的能效問題。
由于大模型訓(xùn)練需要集群式AI計(jì)算,因此其訓(xùn)練任務(wù)大量依靠數(shù)據(jù)中心,而AI服務(wù)器的功率密度遠(yuǎn)超普通服務(wù)器,單機(jī)柜的功耗是過去的6到8倍。在雙碳大背景下,數(shù)據(jù)中心的能效比必須持續(xù)下降,因此大模型帶來的計(jì)算能效問題已刻不容緩。如何在AI算力提升與能效比下降之間達(dá)成平衡,成為了產(chǎn)業(yè)界必須面對(duì)的問題。
除此之外,我們還要看到AI算力在應(yīng)用過程中發(fā)生了一系列運(yùn)維難題。由于大模型的訓(xùn)練、部署目標(biāo)各不相同,各自的訓(xùn)練與部署環(huán)境也差異巨大,期間也自然會(huì)產(chǎn)生網(wǎng)絡(luò)時(shí)延、模型可靠性、運(yùn)維管理門檻等運(yùn)維問題。舉個(gè)例子,一些大模型需要極大量級(jí)的算力集群來支撐,而大量服務(wù)器與計(jì)算單元之間的協(xié)同往往會(huì)出現(xiàn)問題,一旦計(jì)算單元出現(xiàn)問題,研發(fā)人員就需要重啟訓(xùn)練。大模型訓(xùn)練中巨大的時(shí)間、人才、算力成本消耗,就發(fā)生在頻繁的故障與重啟訓(xùn)練任務(wù)當(dāng)中。因此,大模型不僅需要AI算力充足,還需要算力服務(wù)精細(xì),幫助用戶降低整體運(yùn)維難題。
最后,我們還要看到大模型帶來新的安全顧慮。
由于大模型的部署場(chǎng)景大多事關(guān)國(guó)計(jì)民生,因此其安全隱患必須全部掃清。在數(shù)據(jù)訪問、存儲(chǔ)加密、傳輸安全等領(lǐng)域,大模型目前還存在著諸多的安全隱患。
整體而言,大模型并不是高度一致化的產(chǎn)品。其本身技術(shù)分類復(fù)雜、工程化路徑多變,并且各個(gè)用戶還需要根據(jù)自身需求進(jìn)行大模型的精調(diào)與訂制化工作。這些問題讓大模型對(duì)AI算力服務(wù)有了多方面、多角度的差異化需求。
滿足大模型的AI算力需求,已經(jīng)成為了大模型時(shí)代的頭一道考題。
把昇騰AI云服務(wù)做實(shí),做精,做成競(jìng)爭(zhēng)力
對(duì)于華為云來說,要把算力這道題答好,需要兼顧兩方面的建設(shè):一個(gè)是如何讓AI算力充足可用,另一個(gè)是如何跨越算力服務(wù)在運(yùn)維、安全、能效等方面的挑戰(zhàn)。AI算力既要做實(shí),還要做精。
今年7月,華為云發(fā)布了最新的昇騰AI云服務(wù),可以為千行萬業(yè)的用戶提供澎湃AI算力。在其背后,是華為云堅(jiān)實(shí)的算力基礎(chǔ)設(shè)施建設(shè)。
截至目前,華為云在貴安、烏蘭察布、蕪湖建設(shè)了3大AI算力中心。基于此,昇騰AI云服務(wù)在全國(guó)范圍內(nèi)實(shí)現(xiàn)了20ms的時(shí)延圈。用戶可以實(shí)現(xiàn)就近接入,一根光纖即可聯(lián)接澎湃的AI算力,服務(wù)即開即用。為確保大模型訓(xùn)練數(shù)據(jù)的全生命周期安全,昇騰AI云服務(wù)還采用了數(shù)據(jù)傳輸與存儲(chǔ)加密、數(shù)據(jù)安全清除、數(shù)據(jù)訪問控制、數(shù)據(jù)水印防泄露等多重技術(shù)。值得注意的是,無論對(duì)于企業(yè)還是社會(huì)整體,云服務(wù)都是能效比最優(yōu)的雙碳時(shí)代AI算力獲取方式。
為了實(shí)現(xiàn)AI算力的極致性能,華為云還在基礎(chǔ)設(shè)施之上進(jìn)行了針對(duì)AI云服務(wù)的技術(shù)優(yōu)化。比如ModelArts提供了數(shù)據(jù)、訓(xùn)練、推理三層加速,通過DataTurbo數(shù)據(jù)加速技術(shù)能夠利用計(jì)算節(jié)點(diǎn)存儲(chǔ)資源構(gòu)建分布式緩存,將數(shù)據(jù)讀取時(shí)延降低至亞毫秒級(jí)。TrainTurbo訓(xùn)練加速技術(shù)可以實(shí)現(xiàn)在訓(xùn)練數(shù)據(jù)超過100T時(shí)數(shù)據(jù)讀取時(shí)間縮短50%,并使能整體訓(xùn)練效率提升20%以上。在模型的推理環(huán)節(jié),InferTurbo推理加速技術(shù)通過圖編譯技術(shù)加速模型推理,通過全鏈路垂直協(xié)同優(yōu)化,將大模型的推理性能提升30%。
在這樣強(qiáng)大基建與核心技術(shù)加持下,用戶可以獲得極致的AI計(jì)算性能,而為了讓算力不僅“夠用”,還要“好用”,華為云進(jìn)行了一系列把AI算力“做精”的探索。
比如說,AI開發(fā)有賴于工具與平臺(tái)的全面。昇騰AI云服務(wù)背后,有著異構(gòu)計(jì)算架構(gòu)CANN、全場(chǎng)景AI框架昇思MindSpore、AI開發(fā)生產(chǎn)線ModelArts等一系列華為持續(xù)打造的AI底層開發(fā)工具與技術(shù)平臺(tái),從而為大模型提供分布式并行加速,算子和編譯優(yōu)化、集群級(jí)通信優(yōu)化等關(guān)鍵能力,奠定AI算力服務(wù)的根技術(shù)加持。
如上文所說,在大模型訓(xùn)練、部署過程中還面臨著一系列運(yùn)維、能效等問題。在算力服務(wù)的優(yōu)化方面,昇騰AI云服務(wù)可以提供更長(zhǎng)穩(wěn)的AI算力服務(wù),千卡訓(xùn)練30天長(zhǎng)穩(wěn)率達(dá)到90%,還可以實(shí)現(xiàn)分鐘級(jí)信息獲取、2小時(shí)定界、24小時(shí)提供解決方案,斷點(diǎn)恢復(fù)時(shí)長(zhǎng)不超過10分鐘,任務(wù)恢復(fù)時(shí)長(zhǎng)小于半小時(shí)。
在模型遷移方面,華為云為用戶提供了遷移工具鏈,并集成全棧的開發(fā)工具,能夠?qū)崿F(xiàn)典型模型遷移效率低至2周,主流場(chǎng)景自助遷移。此外,昇騰AI云服務(wù)還適配了業(yè)界主流的開源大模型,如LLAMA、Stable Diffusion等,從而真正讓昇騰AI云服務(wù)滿足“百模千態(tài)”的大模型需求。
對(duì)于運(yùn)動(dòng)員來說,基本功就是競(jìng)爭(zhēng)力。在云+大模型的賽道上,華為云通過基建、技術(shù)、服務(wù)的集成,也把AI算力練成了競(jìng)爭(zhēng)力。
澎湃易用的AI算力,是大模型產(chǎn)業(yè)化落地的基石,也是一切故事的開端。
算力,技術(shù),場(chǎng)景:構(gòu)筑大模型正循環(huán)
在大模型這個(gè)突然到來的巨大智能化機(jī)遇面前,千行萬業(yè)的用戶有著差異化巨大的需求。有人缺少算力,有人需要模型,有人尋覓場(chǎng)景,也有人需要特定技術(shù)工具的幫助。任何一個(gè)條件的缺失,都會(huì)讓大模型的飛輪無法旋轉(zhuǎn)。
換個(gè)角度看,算力資源、技術(shù)工具、模型的場(chǎng)景化應(yīng)用都能變成支點(diǎn)。這些要素可以通過全棧配合、彼此推動(dòng)的方式,幫助企業(yè)用戶和開發(fā)者走上大模型之路。
華為云提供的昇騰AI云服務(wù),不僅AI算力能用、夠用,好用,還能通過與華為云一系列布局進(jìn)行聯(lián)動(dòng),讓大模型從此“有大用”,從而共同實(shí)現(xiàn)盤古大模型解難題,做難事。
比如說,我們能夠看到眾多技術(shù)創(chuàng)新與昇騰AI云服務(wù)相輔相成,共同解決著AI算力需求大、供給難的挑戰(zhàn)。華為云最新發(fā)布的分布式QingTian架構(gòu)就有著這樣的效果。
以AIGC為代表的大模型應(yīng)用,算力需求特點(diǎn)是高度依賴分布式計(jì)算能力,這也對(duì)算力架構(gòu)產(chǎn)生了新的挑戰(zhàn)。分布式QingTian架構(gòu)作為新一代對(duì)等架構(gòu),能夠?qū)鹘y(tǒng)的數(shù)據(jù)中心算力集群,演變?yōu)榛诟咚倏偩€的對(duì)等池化系統(tǒng)集群,從而打破單一部件的性能限制,實(shí)現(xiàn)軟硬協(xié)同、管控面全卸載、資源與性能零損耗,最終為用戶帶來性能、可靠性、安全可信等方面的極致體驗(yàn)。
除此之外,華為云還圍繞不斷發(fā)展的AI需求,在AI云存儲(chǔ)、GaussDB向量數(shù)據(jù)庫(kù)、數(shù)智融合、Serverless+大模型工程套件等一系列領(lǐng)域進(jìn)行了技術(shù)創(chuàng)新,從系統(tǒng)架構(gòu)層、數(shù)據(jù)處理層、模型訓(xùn)練層、應(yīng)用開發(fā)層實(shí)現(xiàn)系統(tǒng)性創(chuàng)新,從而掃清了用戶使用AI云服務(wù)過程中的障礙,讓AI算力真正對(duì)齊到千行萬業(yè)的場(chǎng)景化需求。
在基礎(chǔ)AI算力與系列技術(shù)創(chuàng)新之上,就是華為云提供的盤古系列大模型。在華為全聯(lián)接大會(huì)2023上,我們也可以看到盤古大模型在行業(yè)中有了更為深入的場(chǎng)景化落地。
在汽車行業(yè),盤古汽車大模型能夠覆蓋車企的設(shè)計(jì)、生產(chǎn)、營(yíng)銷、研發(fā)等環(huán)節(jié),并在自動(dòng)駕駛訓(xùn)練、專用場(chǎng)景落地等領(lǐng)域發(fā)揮獨(dú)特價(jià)值。在自動(dòng)駕駛領(lǐng)域,盤古汽車大模型可基于實(shí)際場(chǎng)景采集的照片和視頻,構(gòu)建該場(chǎng)景的數(shù)字孿生空間,加入可移動(dòng)的物體、可編輯的天氣、光照等,生成供自動(dòng)駕駛學(xué)習(xí)的場(chǎng)景樣本。在港口、礦區(qū)等作業(yè)場(chǎng)景,盤古汽車大模型的多場(chǎng)景、多車型控制算法,可讓60噸的重卡橫向誤差小于0.2米、精準(zhǔn)停靠誤差小于0.1米。目前在新疆疆納礦業(yè)和內(nèi)蒙古伊敏露天煤礦,已有23輛無人重卡在礦山中24小時(shí)不間斷作業(yè)。
在直播+數(shù)字人領(lǐng)域,盤古數(shù)字人大模型基于十萬級(jí)高質(zhì)量直播話術(shù)進(jìn)行預(yù)訓(xùn)練,能夠自動(dòng)生成專業(yè)話術(shù),從而準(zhǔn)確、流利地介紹產(chǎn)品,并且還能自動(dòng)捕捉彈幕和觀眾實(shí)時(shí)互動(dòng)。在貴州丹寨,盤古數(shù)字人大模型已經(jīng)讓非遺產(chǎn)業(yè)蠟染走向全球。
總結(jié)一下不難發(fā)現(xiàn),華為云已經(jīng)形成AI算力作為底座,技術(shù)創(chuàng)新作為驅(qū)動(dòng),盤古大模型融入行業(yè)場(chǎng)景為導(dǎo)向的“大模型正循環(huán)”。澎湃AI算力可以帶動(dòng)大模型的使用;技術(shù)創(chuàng)新將不斷降低大模型的門檻;行業(yè)場(chǎng)景將帶動(dòng)大模型規(guī)模化落地。算力推動(dòng)場(chǎng)景和技術(shù)發(fā)展;技術(shù)進(jìn)步實(shí)現(xiàn)算力得到充分釋放,場(chǎng)景價(jià)值被深入挖掘;場(chǎng)景的進(jìn)步將帶動(dòng)算力建設(shè),引領(lǐng)技術(shù)進(jìn)步。三者滾動(dòng)向前,吸引千行萬業(yè)在云上尋找大模型的答案。
以算力為基礎(chǔ),以算力為鑰匙,讓AI融入山河大地——這便是華為云的AI長(zhǎng)歌。
-
華為
+關(guān)注
關(guān)注
216文章
34327瀏覽量
251218 -
云計(jì)算
+關(guān)注
關(guān)注
39文章
7744瀏覽量
137211 -
AI
+關(guān)注
關(guān)注
87文章
30239瀏覽量
268474 -
華為云
+關(guān)注
關(guān)注
3文章
2435瀏覽量
17322 -
AI算力
+關(guān)注
關(guān)注
0文章
73瀏覽量
8573
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論