海外龍頭廠商占據(jù)壟斷地位,AI 加速芯片市場(chǎng)呈現(xiàn)“一超多強(qiáng)”態(tài)勢(shì)。數(shù)據(jù)中心 CPU 市場(chǎng)上,英特爾份額有所下降但仍保持較大領(lǐng)先優(yōu)勢(shì),AMD 持續(xù)搶占份額勢(shì)頭正盛。AI 加速芯片市場(chǎng)上,英偉達(dá)憑借硬件優(yōu)勢(shì)和軟件生態(tài)一家獨(dú)大,在訓(xùn)練、推理端均占據(jù)領(lǐng)先地位。根據(jù) Liftr Insights 數(shù)據(jù),2022 年數(shù)據(jù)中心 AI 加速市場(chǎng)中,英偉達(dá)份額達(dá) 82%,其余海外廠商如 AWS 和 Xilinx 分別占比 8%、4%,AMD、Intel、Google 均占比 2%。
龍芯CPU技術(shù)研究報(bào)告合集處理器
國(guó)內(nèi)廠商起步較晚正逐步發(fā)力,部分加速芯片領(lǐng)域已經(jīng)涌現(xiàn)出一批破局企業(yè),但目前多為初創(chuàng)企業(yè)規(guī)模較小,技術(shù)能力和生態(tài)建設(shè)仍不完備,在高端 AI 芯片領(lǐng)域與海外廠商仍存在較大差距。未來(lái),隨著美國(guó)持續(xù)加大對(duì)中國(guó)高端芯片的出口限制,AI 芯片國(guó)產(chǎn)化進(jìn)程有望加快。
GPU 市場(chǎng)方面,海外龍頭占據(jù)壟斷地位,國(guó)產(chǎn)廠商加速追趕。當(dāng)前英偉達(dá)、AMD、英特爾三巨頭霸占全球 GPU 芯片市場(chǎng)的主導(dǎo)地位。集成 GPU 芯片一般在臺(tái)式機(jī)和筆記本電腦中使用,性能和功耗較低,主要廠商包括英特爾和 AMD;獨(dú)立顯卡常用于服務(wù)器中,性能更高、功耗更大,主要廠商包括英偉達(dá)和 AMD。分應(yīng)用場(chǎng)景來(lái)看,應(yīng)用在人工智能、科學(xué)計(jì)算、視頻編解碼等場(chǎng)景的服務(wù)器 GPU 市場(chǎng)中,英偉達(dá)和 AMD 占據(jù)主要份額。根據(jù) JPR,2023 年 Q1 英偉達(dá)的獨(dú)立顯卡(包括 AIB 合作伙伴顯卡)的市場(chǎng)份額達(dá) 84%, AMD 和 Intel則分別占比 12%、4%。
圖形渲染GPU:2006 年起,英偉達(dá) GPU架構(gòu)保持約每?jī)赡旮乱淮蔚墓?jié)奏,各代際產(chǎn)品性能提升顯著,生態(tài)構(gòu)建完整,Geforce 系列產(chǎn)品市占率長(zhǎng)期保持市場(chǎng)首位,最新代際 GeForce RTX 40 系列代表了目前顯卡的性能巔峰,采用全新的 Ada Lovelace 架構(gòu),臺(tái)積電 5nm 級(jí)別工藝,擁有 760 億晶體管和 18000 個(gè) CUDA 核心,與 Ampere 相比架構(gòu)核心數(shù)量增加約 70%,能耗比提升近兩倍,可驅(qū)動(dòng) DLSS 3.0 技術(shù)。性能遠(yuǎn)超上代產(chǎn)品。AMD 獨(dú)立 GPU 在 RDNA 架構(gòu)迭代路徑清晰,RDNA3 架構(gòu)采用 5nm 工藝和 chiplet 設(shè)計(jì),比 RDNA 2 架構(gòu)有 54%每瓦性能提升,預(yù)計(jì) 2024 年前 RDNA 4 架構(gòu)可正式發(fā)布,將采用更為先進(jìn)的工藝制造。
目前國(guó)內(nèi)廠商在圖形渲染 GPU 方面與國(guó)外龍頭廠商差距不斷縮小。芯動(dòng)科技的“風(fēng)華 2 號(hào)”GPU 像素填充率 48GPixel/s,F(xiàn)P32 單精度浮點(diǎn)性能 1.5TFLOPS,AI 運(yùn)算(INT8)性能 12.5TOPS,實(shí)測(cè)功耗 4~15W,支持 OpenGL4.3、DX11、Vulkan 等 API,實(shí)現(xiàn)國(guó)產(chǎn)圖形渲染 GPU 突破。景嘉微在工藝制程、核心頻率、浮點(diǎn)性能等方面雖落后于英偉達(dá)同代產(chǎn)品,但差距正逐漸縮小。2023 年順利發(fā)布 JM9 系列圖形處理芯片,支持 OpenGL 4.0、HDMI 2.0 等接口,以及 H.265/4K 60-fps 視頻解碼,核心頻率至少為 1.5GHz,配備 8GB顯存,浮點(diǎn)性能約 1.5TFlops,與英偉達(dá) GeForce GTX1050 性能相近,有望對(duì)標(biāo) GeForce GTX1080。
GPGPU:英偉達(dá)和 AMD 是目前全球 GPGPU 的領(lǐng)軍企業(yè)。英偉達(dá)的通用計(jì)算芯片具備優(yōu)秀的硬件設(shè)計(jì),通過(guò) CUDA 架構(gòu)等全棧式軟件布局,實(shí)現(xiàn)了 GPU 并行計(jì)算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應(yīng)用領(lǐng)域中,均推出了高性能的軟硬件組合,逐步成為全球 AI 芯片領(lǐng)域的主導(dǎo)者。根據(jù) stateof.AI 2022 報(bào)告,英偉達(dá)芯片在 AI 學(xué)術(shù)論文中的出現(xiàn)頻次遠(yuǎn)超其他類型的 AI 芯片,是學(xué)術(shù)界最常用的人工智能加速芯片。
在 Oracle 以及騰訊云中,也幾乎全部采用英偉達(dá)的 GPU 作為計(jì)算加速芯片。AMD 2018 年發(fā)布用于數(shù)據(jù)中心的Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架構(gòu),如 MI250X 采用 CDNA2 架構(gòu),在通用計(jì)算領(lǐng)域?qū)崿F(xiàn)計(jì)算能力和互聯(lián)能力的顯著提升,此外還推出了對(duì)標(biāo)英偉達(dá) CUDA 生態(tài)的 AMD ROCm 開源軟件開發(fā)平臺(tái)。英偉達(dá)的 H100 及 A100、AMD 的 MI100、MI200 系列等是當(dāng)前最為主流的 GPGPU 產(chǎn)品型號(hào)。
國(guó)內(nèi) GPGPU 廠商正逐步縮小與英偉達(dá)、AMD 的差距。英偉達(dá)憑借其硬件產(chǎn)品性能的先進(jìn)性和生態(tài)構(gòu)建的完善性處于市場(chǎng)領(lǐng)導(dǎo)地位,國(guó)內(nèi)廠商雖然在硬件產(chǎn)品性能和產(chǎn)業(yè)鏈生態(tài)架構(gòu)方面與前者有所差距,但正在逐步完善產(chǎn)品布局和生態(tài)構(gòu)建,不斷縮小與行業(yè)龍頭廠商的差距。國(guó)內(nèi)主要 GPGPU 廠商及產(chǎn)品如下:
1)海光信息:公司第一代 DCU 產(chǎn)品深算一號(hào)已于 2021 年實(shí)現(xiàn)商業(yè)化應(yīng)用,采用 7nm 制程,基于大規(guī)模并行計(jì)算微結(jié)構(gòu)進(jìn)行設(shè)計(jì),能支持 FP64 雙精度浮點(diǎn)運(yùn)算,同時(shí)在單精度、半精度、整型計(jì)算方面表現(xiàn)同樣優(yōu)異,是一款計(jì)算性能強(qiáng)大、能效比較高的通用協(xié)處理器,且該產(chǎn)品集成片上高帶寬內(nèi)存芯片,可以在大規(guī)模數(shù)據(jù)計(jì)算過(guò)程中提供優(yōu)異的數(shù)據(jù)處理能力,高速并行數(shù)據(jù)處理能力強(qiáng)大,在典型應(yīng)用場(chǎng)景下,主要性能指標(biāo)可對(duì)標(biāo) AMDMI100、英偉達(dá) P100,接近英偉達(dá) A100;第二代 DCU 產(chǎn)品深算二號(hào)處于研發(fā)階段,進(jìn)展順利。DCU 系列產(chǎn)品全面兼容“類 CUDA”環(huán)境,因此能夠較好地適配、適應(yīng)國(guó)際主流商業(yè)計(jì)算軟件和人工智能軟件,公司積極參與開源軟件項(xiàng)目,加快了公司產(chǎn)品的推廣速度,并實(shí)現(xiàn)與 GPGPU 主流開發(fā)平臺(tái)的兼容。未來(lái)有望廣泛應(yīng)用于大數(shù)據(jù)處理、人工智能、商業(yè)計(jì)算等領(lǐng)域。
2)天數(shù)智芯:2021 年 11 月宣布量產(chǎn)國(guó)內(nèi)首款云端 7nm GPGPU 產(chǎn)品卡“天垓 100”,采用業(yè)界領(lǐng)先的臺(tái)積電 7nm FinFET 制造工藝、2.5D CoWoS 封裝技術(shù),搭配臺(tái)積電 65nm 工藝的自研 Interposer(中介層),集成多達(dá)240 億個(gè)晶體管,整合 32GB HBM2 內(nèi)存、存儲(chǔ)帶寬達(dá) 1.2TB,支持 FP32、FP/BF16、INT32/16/8 等多精度數(shù)據(jù)混合訓(xùn)練,系統(tǒng)接口 PCIe 4.0 x16。支持國(guó)內(nèi)外主流 GPGPU 生態(tài)和多種主流深度學(xué)習(xí)框架。
3)壁仞科技:2022 年 9 月針對(duì)人工智能訓(xùn)練、推理,及科學(xué)計(jì)算等更廣泛的通用計(jì)算場(chǎng)景推出 BR100 系列通用 GPU 芯片,目前主要包括 BR100、BR104 兩款芯片,基于壁仞科技原創(chuàng)芯片架構(gòu)研發(fā),采用 7nm 制程,可容納 770 億顆晶體管,并在國(guó)內(nèi)率先采用 Chiplet 技術(shù),新一代主機(jī)接口 PCIe 5.0,支持 CXL 互連協(xié)議,雙向帶寬最高達(dá) 128GB/s,具有高算力、高通用性、高能效三大優(yōu)勢(shì)。創(chuàng)下全球算力紀(jì)錄,16 位浮點(diǎn)算力達(dá)到 1000T以上、8 位定點(diǎn)算力達(dá)到 2000T 以上,單芯片峰值算力達(dá)到 PFLOPS 級(jí)別,達(dá)到國(guó)際廠商在售旗艦產(chǎn)品 3 倍以上,創(chuàng)下國(guó)內(nèi)互連帶寬紀(jì)錄。
4)摩爾線程:2022 年基于自研第二代 MUSA 架構(gòu)處理器“春曉”GPU 推出針對(duì)數(shù)據(jù)中心的全功能 MTT?S2000/S3000。MTT S3000 具有 PCIe Gen5 接口,F(xiàn)P32 算力為 15.2 TFLOPS,核心頻率 1.9 GHz,顯存容量 32 GB,支持 MUSA 安全引擎 1.0 以及 GPU 彈性切分技術(shù),支持在云端的虛擬化和容器化。此外,摩爾線程推出了完備的 MUSA 軟件棧,可幫助 MUSA 開發(fā)者快速基于摩爾線程全功能 GPU 開發(fā)各種不同的應(yīng)用軟件,并可通過(guò)CUDA ON MUSA 兼容 CUDA 語(yǔ)言開發(fā)。
5)沐曦:沐曦首款異構(gòu) GPGPU 產(chǎn)品 MXN100 采用 7nm 制程, 已于 2022 年 8 月回片點(diǎn)亮, 主要應(yīng)用于推理側(cè);應(yīng)用于 AI 訓(xùn)練及通用計(jì)算的產(chǎn)品 MXC500 已于 2022 年 12 月交付流片,公司計(jì)劃 2024 年全面量產(chǎn)。2023 年發(fā)布首款 AI 推理 GPU 加速卡——曦思 N100 及解決方案在安防領(lǐng)域的應(yīng)用。曦思 N100 是一款面向云端數(shù)據(jù)中心應(yīng)用的 AI 推理 GPU 加速卡,內(nèi)置異構(gòu)的 GPGPU 通用處理器核心“MXN100”,同時(shí)集成了HBM2E 高帶寬內(nèi)存,單卡的 INT8 整數(shù)算力達(dá) 160TOPS,F(xiàn)P16 浮點(diǎn)算力則達(dá) 80TFLOPS,具備高帶寬、低延時(shí)特性。支持 128 路編碼和 96 路解碼的高清視頻處理能力,兼容 HEVC(H.265)、H.264、AV1、AVS2 等多種視頻格式,最高支持 8K 分辨率。
ASIC 市場(chǎng)方面,由于其一定的定制化屬性,市場(chǎng)格局較為分散。在人工智能領(lǐng)域,ASIC 也占據(jù)一席之地。
其中谷歌處于相對(duì)前沿的技術(shù)地位,自 2016 年以來(lái),就推出了專為機(jī)器學(xué)習(xí)定制的 ASIC,即張量處理器(Tensor?Processing Unit,TPU),近期,谷歌首次公布了其用于訓(xùn)練人工智能模型的 AI 芯片 TPU v4 的詳細(xì)信息,其采用低精度計(jì)算,在幾乎不影響深度學(xué)習(xí)處理效果的前提下大幅降低了功耗、加快運(yùn)算速度,同時(shí)使用了脈動(dòng)陣列等設(shè)計(jì)來(lái)優(yōu)化矩陣乘法與卷積運(yùn)算,對(duì)大規(guī)模矩陣的乘法可以最大化數(shù)據(jù)復(fù)用,減少訪存次數(shù),大幅提升Transformer 模型的訓(xùn)練速度,同時(shí)節(jié)約訓(xùn)練成本。
國(guó)產(chǎn)廠商快速發(fā)展,寒武紀(jì)等異軍突起。通過(guò)產(chǎn)品對(duì)比發(fā)現(xiàn),目前寒武紀(jì)、海思昇騰、遂原科技等國(guó)產(chǎn)廠商正通過(guò)技術(shù)創(chuàng)新和設(shè)計(jì)優(yōu)化,持續(xù)提升產(chǎn)品的性能、能效和易用性,推動(dòng)產(chǎn)品競(jìng)爭(zhēng)力不斷提升,未來(lái)國(guó)產(chǎn)廠商有望在 ASIC 領(lǐng)域持續(xù)發(fā)力,突破國(guó)外廠商在 AI 芯片的壟斷格局。國(guó)內(nèi)主要 AI 用 ASIC 廠商及產(chǎn)品如下:
1)寒武紀(jì):云端人工智能領(lǐng)域,推出思元系列產(chǎn)品。其中,MLU100 芯片是中國(guó)首款高峰值云端智能芯片。MLU290 芯片是寒武紀(jì)首款云端訓(xùn)練智能芯片,采用了 7nm 工藝,性能功耗上接近英偉達(dá) A100,理論峰值性分別高達(dá) 1024TOPS(INT4)、512TOPS(INT8)。思元 370(MLU370)芯片是寒武紀(jì)首款采用 Chiplet(芯粒)技術(shù)的人工智能芯片,是寒武紀(jì)第二代云端推理產(chǎn)品思元 270 算力的 2 倍。MLU370-X8 與 MLU370-M8 是寒武紀(jì)基于思元 370 云端智能芯片打造的兩款不同形態(tài)的人工智能加速卡。MLU370-X8 采用雙芯思元 370 配置,為雙槽位 250w 全尺寸智能加速卡,提供 24TFLOPS(FP32)訓(xùn)練算力和 256TOPS(INT8)推理算力;MLU370-M8 是寒武紀(jì)面向數(shù)據(jù)中心場(chǎng)景打造的 OAM 形態(tài)智能加速卡,可提供 32TFLOPS(FP32)訓(xùn)練算力和 340 TOPS(INT8)推理算力。兩款加速卡均支持寒武紀(jì) MLU-Link 芯片間互聯(lián),可滿足多樣化人工智能模型的訓(xùn)練和推理需求。
此外,公司正在開展新一代思元 590 的開發(fā),將采用 MLUarch05 全新架構(gòu),能夠提供更大的內(nèi)存容量和更高的內(nèi)存帶寬,其 I/O 和片間互聯(lián)接口也較上代實(shí)現(xiàn)大幅升級(jí)。
2)華為海思:推出昇騰系列產(chǎn)品。其中昇騰 310 在典型配置下可以輸出 16TOPS@INT8, 8TOPS@FP16,功耗僅為 8W,采用自研華為達(dá)芬奇架構(gòu),集成豐富的計(jì)算單元, 提高 AI 計(jì)算完備度和效率,進(jìn)而擴(kuò)展該芯片的適用性,全 AI 業(yè)務(wù)流程加速,大幅提高 AI 全系統(tǒng)的性能,有效降低部署成本。昇騰 910 是業(yè)界算力最強(qiáng)的AI 處理器,基于自研華為達(dá)芬奇架構(gòu) 3D Cube 技術(shù),半精度(FP16)算力達(dá)到 320 TFLOPS,整數(shù)精度(INT8)算力達(dá)到 640 TOPS,功耗 310W,可支持云邊端全棧全場(chǎng)景應(yīng)用。表觀性能上,昇騰 910 芯片性能接近英偉達(dá)A100,但華為是基于自研的深度學(xué)習(xí)框架 MindSpore 與算力芯片進(jìn)行相互優(yōu)化,與 Tensorflow/Pytorch 兩大主流深度學(xué)習(xí)訓(xùn)練框架的融合度不足,未來(lái)仍需要一定的時(shí)間進(jìn)行生態(tài)建設(shè)。
3)燧原科技:2019 年 12 月首發(fā)云端 AI 訓(xùn)練加速芯片邃思 1.0 及訓(xùn)練加速卡產(chǎn)品,2020 年推出推理加速卡,2021 年 7 月推出的第二代云端 AI 訓(xùn)練加速芯片邃思 2.0,單精度 FP32 峰值算力達(dá)到 40TFLOPS,單精度張量 TF32 峰值算力達(dá)到 160TFLOPS。同時(shí)搭載了 4 顆 HBM2E 片上存儲(chǔ)芯片,高配支持 64GB 內(nèi)存,帶寬達(dá)1.8TB/s。
4)昆侖芯:昆侖芯 1 代 AI 芯片于 2020 年量產(chǎn),在百度搜索引擎、小度等業(yè)務(wù)中部署數(shù)萬(wàn)片,是國(guó)內(nèi)唯一一款經(jīng)歷過(guò)互聯(lián)網(wǎng)大規(guī)模核心算法考驗(yàn)的云端 AI 芯片。昆侖芯 2 代 AI 芯片于 2021 年 8 月量產(chǎn),是國(guó)內(nèi)首款采用 GDDR6 顯存的通用 AI 芯片,相比昆侖芯 1 代 AI 芯片性能提升 2-3 倍,且在通用性、易用性方面也有顯著增強(qiáng)。昆侖芯 3 代有望在 2024 年規(guī)模上市,或?qū)⒉捎昧?Huawei Da Vinci(達(dá)芬奇) 架構(gòu),峰值性能為 256TeraFLOPS,支持更多的運(yùn)算和深度學(xué)習(xí)技術(shù),例如 ONNX、TensorFlow 和 PyTorch。
英偉達(dá)領(lǐng)先地位穩(wěn)固。英偉達(dá)憑借良好的硬件性能和完善的 CUDA 生態(tài)將持續(xù)處于領(lǐng)先地位,但起步較晚的挑戰(zhàn)者也在奮起直追,未來(lái)有望出現(xiàn)一超多強(qiáng)的多元化競(jìng)爭(zhēng)格局。訓(xùn)練市場(chǎng)方面,英偉達(dá)高算力 GPU 是當(dāng)前AI 訓(xùn)練主流選擇,谷歌 TPU 面臨著通用性的局限,AMD 存在生態(tài)構(gòu)建差距,但在二者的沖擊及云廠商自研芯片的競(jìng)爭(zhēng)下,AI 訓(xùn)練市場(chǎng)也或?qū)⒊霈F(xiàn)格局的變動(dòng)。推理市場(chǎng)方面,GPU 具有較好的生態(tài)延續(xù)性仍占主流,如英偉達(dá)針對(duì)推理市場(chǎng)的產(chǎn)品 Tesla T4 上的芯片包含了 2560 個(gè) CUDA 內(nèi)核,性能達(dá)到了 FP64 0.25 TFLOPS、FP32 8.1TFLOPS、INT8 達(dá) 130 TOPS,可提供多精度推理性能,以及優(yōu)于 CPU 40 倍的低延時(shí)高吞吐量,可以實(shí)時(shí)滿足更多的請(qǐng)求。但其他解決方案在成本、功耗具有優(yōu)勢(shì),特定市場(chǎng)競(jìng)爭(zhēng)格局相對(duì)激烈,工作負(fù)載不同對(duì)應(yīng)的芯片性能需求不同,T4 PCIe,有望出現(xiàn)各類芯片共存的局面。
國(guó)內(nèi)算力芯片廠商具備較好的入局機(jī)會(huì)。國(guó)產(chǎn)算力芯片市場(chǎng)需求巨大,國(guó)內(nèi)人工智能生態(tài)環(huán)境較好,在 AI應(yīng)用領(lǐng)域的步伐處于全球前列,國(guó)產(chǎn) GPU 廠商具孵化和發(fā)展的沃土,國(guó)內(nèi)廠商供應(yīng)鏈多元化的需求帶來(lái)了國(guó)內(nèi)AI 芯片廠商適配窗口期,尤其是當(dāng)前大模型發(fā)展早期是適配的黃金窗口期。其中,寒武紀(jì)、華為等兼容 CUDA和自建生態(tài)是國(guó)產(chǎn)廠商發(fā)展的兩大趨勢(shì),具備很大的競(jìng)爭(zhēng)力潛力。短期來(lái)看,國(guó)內(nèi)廠商兼容英偉達(dá) CUDA,可以減輕開發(fā)和遷移難度,進(jìn)而快速實(shí)現(xiàn)客戶端導(dǎo)入。
同時(shí)需要避開英偉達(dá)絕對(duì)優(yōu)勢(shì)領(lǐng)域,在芯片設(shè)計(jì)結(jié)構(gòu)上形成差異化競(jìng)爭(zhēng);長(zhǎng)期來(lái)看,國(guó)產(chǎn) GPU 如果完全依賴 CUDA 生態(tài),硬件更新將不得不綁定英偉達(dá)的開發(fā)進(jìn)程,應(yīng)借鑒 AMD、Google 構(gòu)建自身生態(tài)體系,開展軟硬件結(jié)合的平臺(tái)化布局,并打造不同領(lǐng)域快速落地垂直解決方案的能力,鑄造自己的生態(tài)圈核心壁壘。預(yù)計(jì)硬件性能高效以及能夠構(gòu)建符合下游需求的生態(tài)體系的國(guó)產(chǎn)廠商有望脫穎而出。
編輯:黃飛
?
評(píng)論
查看更多