国产精品欧美_亚洲综合色一区二区三区_亚洲av无码专区在线观看素人

【核芯觀察】是電子發燒友編輯部出品的深度系列專欄，目的是用最直觀的方式令讀者盡快理解電子產業架構，理清上、中、下游的各個環節，同時迅速了解各大細分環節中的行業現狀。以ChatGPT為首的AI大模型在今年以來可以說是最熱的賽道，而AI大模型對算力的需求爆發，也帶動了AI服務器中各種類型的芯片需求，所以本期核芯觀察將關注ChatGPT背后所用到的算力芯片產業鏈，梳理目前主流類型的AI算力芯片產業上下游企業以及運作模式。

接上期ChatGPT背后的算力芯片（二）

AI服務器中的主要算力芯片之FPGA

市場現狀

FPGA的最大特點就是，在芯片被設計、制造完成之后，用戶依然可以通過修改其邏輯單元和開關陣列編程，來進行功能配置，實現所需要的功能。在AI算法快速迭代的過程中，用戶可以通過持續優化FPGA的功能配置，來提高運算效率。這也是FPGA與CPU、GPU、ASIC等芯片最大的不同。

所以最初FPGA被大量用于通信領域，可以靈活更改高速通信協議的處理方式，適配不同場景。根據Frost&Sullivan的預測數據，2022年中國FPGA下游應用中，通信占比最高為41.52%，工業應用其次，占比31.23%。數據中心、汽車、消費電子、AI分別占比10.54%、6.94%、5.89%、3.88%。

從全球市場來看，根據Frost&Sullivan數據，估算2021年全球FPGA市場規模為68.6億美元，2022年預計為79.4億美元，同比增長15.7%；到2025年市場規模將增長至125.8億美元，2021年到2025年年均復合增長率約16.4%。

中國市場上，2021年FPGA市場規模為176.8億元，到2025年 FPGA芯片銷售額將達到332.2億元，2021至2025年年均復合增長率將達到17.1%。出貨量方面，中國市場FPGA芯片出貨量在2020年約為1.6億顆，預計到2025年將達到3.3億顆，2021至2025年年均復合增長率將達到15.0%。

其中數據中心、AI領域市場增長迅速，FPGA能夠使數據中心的不同器件更加有效地協同，最大程度發揮每個器件的硬件優勢避免數據轉換導致的算力空耗；在運算加速領域，FPGA 在矩陣運算、圖像處理、機器學習、非對稱加密、搜索排序等領域有著很廣闊的應用前景。

在中國數據中心細分市場，Frost&Sullivan預計該市場規模在2021年為18.7億元，到2025年會達到34.6億元，其間年均復合增長率將為16.6%。

不過自去年年底以來，由OpenAI掀起的AI熱潮，有望推動FPGA市場以遠超出此前預期的速度增長。

近年沒有新的FPGA市場份額數據，按照Frost&Sullivan 2019年的數據，中國市場上AMD（賽靈思）、英特爾（Altera）兩家占到FPGA市場銷售額的九成以上，分別為55.1%和36%。而按照FPGA出貨量來看，同期AMD占36.6%、英特爾占25.3%、萊迪思占23.2%、安路科技占6%。

FPGA的核心參數是邏輯單元容量，按照邏輯單元容量來分，2019年中國FPGA市場中需求量最大的是100K以下和100K—500K邏輯單元容量的FPGA，份額分別占市場的38.2%和31.7%，更高端的500K-1KK以及1KK以上邏輯單元容量的FPGA則分別占24.4%和5.7%的份額。

全球范圍來看，FPGA市場目前由AMD和英特爾雙寡頭壟斷，占整個市場份額近90%，第二梯隊的海外廠商有萊迪思、Microsemi等，各占5%左右。國內FPGA廠商主要有復旦微電子、紫光國微（紫光同創）、安路科技、高云半導體、華微電子、智多晶、京微齊力等等，不過從邏輯單元容量來看，國內廠商主要集中在500K以下，更多產品線的邏輯單元容量在200K以下，中低端市場布局較為完善，但中高端領域目前國產FPGA仍未有大規模涉足。

復旦微電子在2018年推出了億門級FPGA系列，邏輯單元容量可達700K，據了解，其新一代十億門級的大容量FPGA有望在2023年內推出。而2019年英特爾推出的 Stratix 10 GX 10M FPGA邏輯單元已經高達10KK，相比之下國產FPGA在高端市場目前缺口還是較大的，但目前重要的是在中低端市場站穩，奪得更多的國內市場份額。

AI服務器FPGA的趨勢

衡量FPGA的容量，有兩個階段，在2000年以前，FPGA廠商用門級數量規模來衡量FPGA的容量，因為ASIC的最小功能單元是“門”，而本質上FPGA與ASIC都可以同樣功能，甚至在ASIC設計過程中都會使用到FPGA進行驗證，所以“門”可以間接體現FPGA的容量。

后來2000年后，FPGA廠商逐漸開始轉用統一的邏輯單元來表示FPGA容量，這主要是由于FPGA性能需求的升級，芯片內部的LUT結構和集成度不斷改變，用門級數來表示FPGA容量越來越難。

如今FPGA不僅是單純的FPGA，而是將RAM、DSP、收發器、DDR 接口、CPU、GPU等許多功能嵌入到 FPGA 中，所以對于FPGA的評價指標，也變得更加復雜，需要根據不同應用去衡量參數。

在AI服務器中，FPGA往往起到加速計算的作用，FPGA的特性可以令其在深度學習中異構計算、并行計算方面有一定優勢，且其具備低延時的特性，在AI服務器中FPGA還可以實現數據高速收發、交換等功能。同時，相比于CPU和GPU，FPGA單位能耗比還更低，特別在深度學習領域，近年來微軟、百度、亞馬遜等已經在數據中心大規模部署FPGA。

有數據顯示，在保持相同神經網絡模型計算結果的同時，FPGA平臺的16位定點計算性能普遍是CPU的2到3倍，計算資源利用率更是CPU的接近20倍；與GPU相比，盡管計算性能沒有明顯領先，但功耗顯著降低，所以FPGA在AI服務器中用于計算加速是有明顯優勢的。

在AI服務器中，FPGA的一些重要指標包括邏輯單元數、DSP的數量、收發器的傳輸速率等。另一方面，FPGA的制程工藝也是考量FPGA的一個重要標準，目前高端FPGA的制程基本是20nm以下，AMD目前最高端的產品線就采用臺積電16nm制程。

同時邏輯單元數大于700K，基本在1KK以上的水平；DSP的數量較多，比如超過10000的DSP；較高的Bloch RAM容量，比如1000Mb以上；收發器速率高于50GB/s，還集成CPU等的處理單元和PCIe 5等先進接口。

總而言之，高端的FPGA往往以SoC的形式呈現。而為了更加便于數據中心、AI服務器等應用的導入，FPGA廠商也提供了比如數據中心加速卡的解決方案，比如AMD Alveo系列。

AI服務器中的主要算力芯片之ASIC

市場現狀

近年來，TPU、NPU、VPU、DPU、BPU等各種名詞層出不窮，其實這些從廣義的概念看都屬于ASIC。

ASIC其實與前面提到的FPGA有密切的關系，在ASIC開發的過程中，往往要用到FPGA驗證。理論上一些芯片功能如果能用FPGA做出來，那么ASIC就同樣可以做到，本質上是用兩種不同的設計理念來讓芯片實現部分相同的功能。

當然，FPGA的靈活程度是ASIC不可比擬的，ASIC自設計之初就被限定了功能，無法像FPGA一樣在實際使用中還可以隨時重新配置芯片功能。

雖然ASIC的設計流程漫長，但ASIC相比FPGA由于進行了完整的定制，專為特定程序優化電路，在進行特定任務時性能會更加穩定，并且運行效率、能效比都會優于FPGA。

根據Bob Broderson數據，FPGA的能效比集中在1-10MOPS/mW之間。ASIC的能效比處于專用硬件水平，超過100MOPS/mW，是FPGA的10倍以上。

目前來看，在AI服務器場景中，ASIC主要用于推理服務器，針對已經訓練完成的模型來設計高效的運算硬件。但當前AI大模型領域正處于爆發初期，ASIC在AI服務器上的份額或許會呈現后發趨勢，在相關應用的AI模型成熟后，未來在云端推理方面將有較大的市場空間。正如地平線CEO余凱曾說的，“一旦軟件算法固定下來，專用集成電路ASIC一定是未來的方向”。

KBVResearch報告數據顯示，到2025年，全球ASIC芯片市場規模預計將達到247億美元，在2019到2025年間的復合年增長率為8.2%。

也正因為目前應用方面的一些難點，暫時來看，全球ASIC市場還未出現明顯的領先者，海內外廠商都在高速發展的過程中。

海外的主要玩家有谷歌、Habana（英特爾收購）等，谷歌目前已經推出了四代 TPU產品，TPU v5據稱即將在今年內面世；英特爾在2019年收購了Habana，隨后在2022年推出了Gaudi 2；云服務器巨頭亞馬遜也在持續布局開發ASIC，此前亞馬遜計劃在Alexa語音助手運算上采用ASIC，以降低對英偉達的依賴；微軟近幾年都有消息傳出，正在開發一款名為Athena的AI訓練專用ASIC，據稱還將采用臺積電5nm制程，不過還未有這款芯片的具體消息。

國內玩家有海思、寒武紀、燧原科技、百度、阿里等，其中海思、百度、阿里由于其公司業務場景對ASIC存在天然需求，因此選擇ASIC能降低其服務器建設成本。海思在2019年推出了昇騰910，百度也在同年推出了昆侖芯片、阿里也在2019年推出了含光800。

其中華為通過ASIC部署了端到端的完整生態，比如使用昇騰910時，需要搭配華為的大模型支持框架MindSpore和盤古大模型等；阿里則將含光800用于自家業務平臺的加速，比如為淘寶等平臺提供算力支持；百度的昆侖芯則主要在自身服務器、算力集群等應用，對政企客戶等提供算力。

以公開的算力數據來算，海思的昇騰910在BF16浮點算力為320Tflops，已經超越谷歌最新一代產品TPUv4的275Tflops，在INT8定點算力上同樣大幅領先。同時遂原科技和寒武紀的產品在整體性能上也與谷歌的TPUv4相差不遠，當然，由于應用上的區別，可能是設計上有不同傾向，比如TPUv4互聯帶寬較高，1000GB/s遠遠領先于遂原科技和寒武紀的產品。

燧原科技在2021年推出了邃思2.0，采用12nm制程，單精度 FP32 算力為 40TFLOPS，單精度張量 TF32 算力為 160TFLOPS，整數精度 INT8 算力為 320TOPS，可用于云端AI訓練；同期寒武紀也推出了思元370芯片，采用7nm先進制程，算力最高可達 256TOPS (INT8)，可靈活應用于云端推理、訓練等領域。

AI服務器上ASIC的發展趨勢

ASIC作為一種專用的集成電路，它的發展永遠是跟隨算法需求而定，這種表現在谷歌、百度、阿里、華為等云服務廠商中可能尤為明顯。

不過在2020年，英特爾發布了全新可定制解決方案，同時也將“結構化ASIC”的概念帶火。從上文我們也了解到，FPGA與ASIC關系密切，同時又各有優勢，英特爾提出的“結構化ASIC”，就是一種各項特性上介于FPGA和ASIC之間的芯片。

這種結構化ASIC在量產成本、邏輯門利用率、能耗、效能速度等表現上優于FPGA，但又不如純ASIC表現得優異，同時也具有FPGA的可編程化邏輯功效，以及加速芯片的研發設計速度與修改彈性，使芯片能更快完成并投入市場。

簡單來說，結構化ASIC是一種“半成品”的ASIC，它的性能和功耗接近標準單元ASIC，同時能夠節省一半的一次性工程費用和設計時間。但也有所損失，因為密度只有標準單元ASIC的50%到75%，所以結構化ASIC的成本會是標準單元ASIC的1.5-2倍。

按照英特爾的說法，采用結構化ASIC后，芯片編程不能像FPGA一樣可以在現場修改，而是需要在芯片工廠完成對芯片的編程。盡管成本仍然高達數十萬美元，但只需要幾個月時間就可以完成，傳統ASIC則至少需要兩年。

所以目前ASIC的一個最大痛點是，設計時間和資源消耗，這在如今快速迭代的AI大模型和AI算法中，是難以成為主流的。而從結構化ASIC的發展來看，事實上這個概念并非英特爾首創，但過去由于半導體工藝制程的高速發展，使得制程帶來的性能紅利要遠遠大于ASIC的帶來的能效提升，因此結構化ASIC沒有受到市場重視。

而近年來摩爾定律逐漸放緩，芯片制程工藝也已經邁入一個較為穩定的階段，因此現階段ASIC應用的主要限制就在于設計周期和流片等工程費用投入。或許結構化ASIC能夠成為下一階段ASIC的一個重要發展方向，加速ASIC在AI服務器上的部署。

值得一提的是，電子發燒友網主辦的第七屆人工智能大會將在2023年8月23日正式召開，

在過去的三屆大會中，我們舉辦的“中國人工智能卓越創新獎”評選活動得到了業界的普遍認可和廣泛好評。2023年我們將繼續這一殊榮的評選，舉辦“2023第四屆中國人工智能卓越創新獎”評選活動，旨在發掘和表彰人工智能領域優秀人才、企業、技術以及產品。

“2023第四屆中國人工智能卓越創新獎”獎項提名于即日起到6月30日截至，提名詳情可掃描下方二維碼了解。