摩爾線程重磅宣布其AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案實(shí)現(xiàn)重大升級(jí),從當(dāng)前的千卡級(jí)別大幅擴(kuò)展至萬(wàn)卡規(guī)模。摩爾線程夸娥(KUAE)萬(wàn)卡智算集群,以全功能GPU為底座,旨在打造國(guó)內(nèi)領(lǐng)先的、能夠承載萬(wàn)卡規(guī)模、具備萬(wàn)P級(jí)浮點(diǎn)運(yùn)算能力的國(guó)產(chǎn)通用加速計(jì)算平臺(tái),專為萬(wàn)億參數(shù)級(jí)別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)。這一里程碑式的進(jìn)展,樹立了國(guó)產(chǎn)GPU技術(shù)的新標(biāo)桿,有助于實(shí)現(xiàn)國(guó)產(chǎn)智算集群計(jì)算能力的全新跨越,將為我國(guó)人工智能領(lǐng)域技術(shù)與應(yīng)用創(chuàng)新、科研攻堅(jiān)和產(chǎn)業(yè)升級(jí)提供堅(jiān)實(shí)可靠的關(guān)鍵基礎(chǔ)設(shè)施。
此外,摩爾線程聯(lián)合中國(guó)移動(dòng)通訊集團(tuán)青海有限公司、中國(guó)聯(lián)通青海公司、北京德道信科集團(tuán)、中國(guó)能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司(排名不分先后)分別就三個(gè)萬(wàn)卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約,多方聚力共同構(gòu)建好用的國(guó)產(chǎn)GPU集群。
摩爾線程創(chuàng)始人兼CEO張建中表示:“當(dāng)前,我們正處在生成式人工智能的黃金時(shí)代,技術(shù)交織催動(dòng)智能涌現(xiàn),GPU成為加速新技術(shù)浪潮來(lái)臨的創(chuàng)新引擎。摩爾線程矢志投身于這一歷史性的創(chuàng)造進(jìn)程,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺(tái)。夸娥萬(wàn)卡智算集群作為摩爾線程全棧AI戰(zhàn)略的一塊重要拼圖,可為各行各業(yè)數(shù)智化轉(zhuǎn)型提供澎湃算力,不僅有力彰顯了摩爾線程在技術(shù)創(chuàng)新和工程實(shí)踐上的實(shí)力,更將成為推動(dòng)AI產(chǎn)業(yè)發(fā)展的新起點(diǎn)。”
AI主戰(zhàn)場(chǎng),萬(wàn)卡通用算力是標(biāo)配
大模型自問世以來(lái),關(guān)于其未來(lái)的走向和發(fā)展趨勢(shì)亟待時(shí)間驗(yàn)證,但從當(dāng)前來(lái)看,幾種演進(jìn)趨勢(shì)值得關(guān)注,使得其對(duì)算力的核心需求也愈發(fā)明晰。
首先,Scaling Law將持續(xù)奏效。Scaling Law自2020年提出以來(lái),已揭示了大模型發(fā)展背后的“暴力美學(xué)”,即通過算力、算法、數(shù)據(jù)的深度融合與經(jīng)驗(yàn)積累,實(shí)現(xiàn)模型性能的飛躍,這也成為業(yè)界公認(rèn)的將持續(xù)影響未來(lái)大模型的發(fā)展趨勢(shì)。Scaling Law將持續(xù)奏效,需要單點(diǎn)規(guī)模夠大并且通用的算力才能快速跟上技術(shù)演進(jìn)。
其次,Transformer架構(gòu)不能實(shí)現(xiàn)大一統(tǒng),和其他架構(gòu)會(huì)持續(xù)演進(jìn)并共存,形成多元化的技術(shù)生態(tài)。生成式AI的進(jìn)化并非僅依賴于規(guī)模的簡(jiǎn)單膨脹,技術(shù)架構(gòu)的革新同樣至關(guān)重要。Transformer架構(gòu)雖然是當(dāng)前主流,但新興架構(gòu)如Mamba、RWKV和RetNet等不斷刷新計(jì)算效率,加快創(chuàng)新速度。隨著技術(shù)迭代與演進(jìn),Transformer架構(gòu)并不能實(shí)現(xiàn)大一統(tǒng),從稠密到稀疏模型,再到多模態(tài)模型的融合,技術(shù)的進(jìn)步都展現(xiàn)了對(duì)更高性能計(jì)算資源的渴望。
與此同時(shí),AI、3D和HPC跨技術(shù)與跨領(lǐng)域融合不斷加速,推動(dòng)著空間智能、物理AI和AI 4Science、世界模型等領(lǐng)域的邊界拓展,使得大模型的訓(xùn)練和應(yīng)用環(huán)境更加復(fù)雜多元,市場(chǎng)對(duì)于能夠支持AI+3D、AI+物理仿真、AI+科學(xué)計(jì)算等多元計(jì)算融合發(fā)展的通用加速計(jì)算平臺(tái)的需求日益迫切。
多元趨勢(shì)下,AI模型訓(xùn)練的主戰(zhàn)場(chǎng),萬(wàn)卡已是標(biāo)配。隨著計(jì)算量不斷攀升,大模型訓(xùn)練亟需超級(jí)工廠,即一個(gè)“大且通用”的加速計(jì)算平臺(tái),以縮短訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代。當(dāng)前,國(guó)際科技巨頭都在通過積極部署千卡乃至超萬(wàn)卡規(guī)模的計(jì)算集群,以確保大模型產(chǎn)品的競(jìng)爭(zhēng)力。隨著模型參數(shù)量從千億邁向萬(wàn)億,模型能力更加泛化,大模型對(duì)底層算力的訴求進(jìn)一步升級(jí),萬(wàn)卡甚至超萬(wàn)卡集群成為這一輪大模型競(jìng)賽的入場(chǎng)券。
然而,構(gòu)建萬(wàn)卡集群并非一萬(wàn)張GPU卡的簡(jiǎn)單堆疊,而是一項(xiàng)高度復(fù)雜的超級(jí)系統(tǒng)工程。它涉及到超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計(jì)算、長(zhǎng)期穩(wěn)定性和高可用性等諸多技術(shù)難題。這是難而正確的事情,摩爾線程希望能夠建設(shè)一個(gè)規(guī)模超萬(wàn)卡、場(chǎng)景夠通用、生態(tài)兼容好的加速計(jì)算平臺(tái),并優(yōu)先解決大模型訓(xùn)練的難題。
夸娥:國(guó)產(chǎn)萬(wàn)卡萬(wàn)P萬(wàn)億大模型訓(xùn)練平臺(tái)
夸娥(KUAE)是摩爾線程智算中心全棧解決方案,是以全功能GPU為底座,軟硬一體化、完整的系統(tǒng)級(jí)算力解決方案,包括以夸娥計(jì)算集群為核心的基礎(chǔ)設(shè)施、夸娥集群管理平臺(tái)(KUAE Platform)以及夸娥大模型服務(wù)平臺(tái)(KUAE ModelStudio),旨在以一體化交付的方式解決大規(guī)模GPU算力的建設(shè)和運(yùn)營(yíng)管理問題。
基于對(duì)AI算力需求的深刻洞察和前瞻性布局,摩爾線程夸娥智算集群可實(shí)現(xiàn)從千卡至萬(wàn)卡集群的無(wú)縫擴(kuò)展,旨在滿足大模型時(shí)代對(duì)于算力“規(guī)模夠大+計(jì)算通用+生態(tài)兼容”的核心需求,通過整合超大規(guī)模的GPU萬(wàn)卡集群、極致的計(jì)算效率優(yōu)化以及高度穩(wěn)定的運(yùn)行環(huán)境,以萬(wàn)卡智算集群的新超級(jí)工程,重新定義國(guó)產(chǎn)集群計(jì)算能力的新標(biāo)準(zhǔn)。
夸娥萬(wàn)卡智算解決方案具備多個(gè)核心特性:
超大算力,萬(wàn)卡萬(wàn)P:在集群計(jì)算性能方面,全新一代夸娥智算集群實(shí)現(xiàn)單集群規(guī)模超萬(wàn)卡,浮點(diǎn)運(yùn)算能力達(dá)到10Exa-Flops,大幅提升單集群計(jì)算性能,能夠?yàn)槿f(wàn)億參數(shù)級(jí)別大模型訓(xùn)練提供堅(jiān)實(shí)算力基礎(chǔ)。同時(shí),在GPU顯存和傳輸帶寬方面,夸娥萬(wàn)卡集群達(dá)到PB級(jí)的超大顯存總?cè)萘俊⒚棵隤B級(jí)的超高速卡間互聯(lián)總帶寬和每秒PB級(jí)超高速節(jié)點(diǎn)互聯(lián)總帶寬,實(shí)現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化,全面提升集群計(jì)算性能。
超高穩(wěn)定,月級(jí)長(zhǎng)穩(wěn)訓(xùn)練:穩(wěn)定性是衡量超萬(wàn)卡集群性能的關(guān)鍵。在集群穩(wěn)定性方面,摩爾線程夸娥萬(wàn)卡集群平均無(wú)故障運(yùn)行時(shí)間超過15天,最長(zhǎng)可實(shí)現(xiàn)大模型穩(wěn)定訓(xùn)練30天以上,周均訓(xùn)練有效率在99%以上,遠(yuǎn)超行業(yè)平均水平。這得益于摩爾線程自主研發(fā)的一系列可預(yù)測(cè)、可診斷的多級(jí)可靠機(jī)制,包括:軟硬件故障的自動(dòng)定位與診斷預(yù)測(cè)實(shí)現(xiàn)分鐘級(jí)的故障定位,Checkpoint多級(jí)存儲(chǔ)機(jī)制實(shí)現(xiàn)內(nèi)存秒級(jí)存儲(chǔ)和訓(xùn)練任務(wù)分鐘級(jí)恢復(fù)以及高容錯(cuò)高效能的萬(wàn)卡集群管理平臺(tái)實(shí)現(xiàn)秒級(jí)納管分配與作業(yè)調(diào)度。
極致優(yōu)化,超高M(jìn)FU:MFU是評(píng)估大模型訓(xùn)練效率的通用指標(biāo),可以直接反應(yīng)端到端的集群訓(xùn)練效率。夸娥萬(wàn)卡集群在系統(tǒng)軟件、框架、算法等層面一系列優(yōu)化,實(shí)現(xiàn)大模型的高效率訓(xùn)練,MFU最高可達(dá)到60%。其中,在系統(tǒng)軟件層面,基于極致的計(jì)算和通訊效率優(yōu)化等技術(shù)手段,大幅提升集群的執(zhí)行效率和性能表現(xiàn)。在框架和算法層面,夸娥萬(wàn)卡集群支持多種自適應(yīng)混合并行策略與高效顯存優(yōu)化等,可以根據(jù)應(yīng)用負(fù)載選擇并自動(dòng)配置最優(yōu)的并行策略,大幅提升訓(xùn)練效率和顯存利用。同時(shí),針對(duì)超長(zhǎng)序列大模型,夸娥萬(wàn)卡集群通過CP并行、RingAttention等優(yōu)化技術(shù),有效縮減計(jì)算時(shí)間和顯存占用,大幅提升集群訓(xùn)練效率。
全能通用,生態(tài)友好:夸娥萬(wàn)卡集群是一個(gè)通用加速計(jì)算平臺(tái),計(jì)算能力為通用場(chǎng)景設(shè)計(jì),可加速LLM、MoE、多模態(tài)、Mamba等不同架構(gòu)、不同模態(tài)的大模型。同時(shí),基于高效易用的MUSA編程語(yǔ)言、完整兼容CUDA能力和自動(dòng)化遷移工具M(jìn)usify,加速新模型“Day0”級(jí)遷移,實(shí)現(xiàn)生態(tài)適配“Instant On”,助力客戶業(yè)務(wù)快速上線。
萬(wàn)眾一芯,共建大模型應(yīng)用生態(tài)
萬(wàn)卡集群的建設(shè)需要產(chǎn)業(yè)界的齊心協(xié)力,為實(shí)現(xiàn)大模型創(chuàng)新應(yīng)用的快速落地,讓國(guó)產(chǎn)算力“為用而建”。發(fā)布會(huì)現(xiàn)場(chǎng),摩爾線程攜手中國(guó)移動(dòng)通訊集團(tuán)青海有限公司、中國(guó)聯(lián)通青海公司、北京德道信科集團(tuán)、中國(guó)能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司(排名不分先后),分別就青海零碳產(chǎn)業(yè)園萬(wàn)卡集群項(xiàng)目、青海高原夸娥萬(wàn)卡集群項(xiàng)目、廣西東盟萬(wàn)卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約。
借助摩爾線程先進(jìn)的夸娥全棧智算解決方案,各方將攜手共建強(qiáng)大的全國(guó)產(chǎn)智算平臺(tái),以加速產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展。夸娥萬(wàn)卡智算集群項(xiàng)目標(biāo)志著國(guó)產(chǎn)AI算力基礎(chǔ)設(shè)施的又一重大進(jìn)展,將為各地的數(shù)字經(jīng)濟(jì)發(fā)展注入新活力。
發(fā)布會(huì)后,無(wú)問芯穹、清程極智、360、京東云、智平方等五家合作伙伴代表紛紛登臺(tái),分享了摩爾線程夸娥智算集群如何助力其在大模型訓(xùn)練、大模型推理、具身智能等不同場(chǎng)景和領(lǐng)域的創(chuàng)新,展現(xiàn)了夸娥智算集群在實(shí)際應(yīng)用中的巨大潛力與廣泛適用性。
摩爾線程愿與廣大行業(yè)伙伴并肩同行,發(fā)揮全棧AI的力量,加速推動(dòng)一個(gè)由萬(wàn)卡智算集群為強(qiáng)大底座,多領(lǐng)域伙伴共建、廣泛賦能數(shù)字經(jīng)濟(jì)的國(guó)產(chǎn)智算生態(tài),共同開啟一個(gè)屬于大模型與生成式人工智能的新時(shí)代,為美好世界加速。在WAIC期間,摩爾線程將在上海世博展覽館(H2館D616)開展“全棧AI 為美好世界加速”的主題成果展示,包括加速卡、服務(wù)器、超融合一體機(jī)和AIGC應(yīng)用在內(nèi)的摩爾線程全棧AI產(chǎn)品悉數(shù)亮相,并攜手眾多行業(yè)合作伙伴聯(lián)合展示基于夸娥智算集群的豐富行業(yè)大模型與應(yīng)用方案。
關(guān)于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。
我們的目標(biāo)是成為具備國(guó)際競(jìng)爭(zhēng)力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺(tái)。我們的愿景是為美好世界加速。
-
gpu
+關(guān)注
關(guān)注
28文章
4700瀏覽量
128700 -
AI
+關(guān)注
關(guān)注
87文章
30137瀏覽量
268411 -
人工智能
+關(guān)注
關(guān)注
1791文章
46854瀏覽量
237551 -
摩爾線程
+關(guān)注
關(guān)注
2文章
198瀏覽量
4520
原文標(biāo)題:萬(wàn)卡萬(wàn)P萬(wàn)億參數(shù)通用算力!摩爾線程夸娥智算中心解決方案重磅升級(jí)
文章出處:【微信號(hào):moorethreads,微信公眾號(hào):摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論