共讀好書
張志偉 田果 王世權
摘要:
AI芯片是被專門設計用于加速人工智能計算任務的集成電路。在過去幾十年里,AI芯片經歷了持續的演進和突破,促進著人工智能領域的發展。文章探討了AI芯片的發展史、主流技術和應用場景,以及面臨的挑戰和問題。進而提出采用Chiplet技術,將不同的功能模塊獨立集成為獨立的Chiplet,并融合在一個AI芯片上,從而實現更高的計算能力。該設計不僅允許獨立開發和升級各個模塊,還可在封裝過程中將它們巧妙組合起來,使得AI芯片能夠隨著人工智能技術的不斷優化而持續發展。
1 AI芯片發展的歷史與現狀
AI(人工智能)芯片是被專門設計用于加速人工智能計算任務的集成電路。在過去幾十年里,AI芯片經歷了持續的演進和突破,為人工智能領域發展作出了巨大貢獻。
1.1 AI芯片演進與重大突破
AI芯片的歷史可以追溯到20世紀80年代初。最早的AI計算任務是采用通用微處理器進行人工智能計算而完成的,但由于計算需求與通用處理器性能之間不匹配,計算效率并不高。隨著人工智能領域的迅速發展,社會對高效計算的需求越來越迫切,AI芯片研究逐漸受到重視。在20世紀90年代,圖形處理單元(GPU)成為AI計算的主要加速器。GPU在圖形渲染方面表現出色,但其架構對于一些特定的AI計算任務并不高效。然而,GPU的并行計算能力為AI芯片發展奠定了基礎。隨著人工智能的興起,20世紀末和21世紀初一些專用AI加速硬件出現了,如FPGA(現場可編程門陣列)和ASIC(專用集成電路)。這些芯片采用定制化的架構,能夠更好地滿足AI計算的需求,但設計和生產成本較高,限制了其廣泛應用。
2010年,深度學習興起推動了AI芯片技術重大突破。GPU在深度學習中的應用取得了巨大成功,但為了更好地適應深度學習模型的特點,研究人員開始探索新的AI芯片架構。ASIC出現進一步提高了AI計算的性能和能效,諸如Google的TPU(張量處理單元)和NVIDIA的Tensor Cores就是這一時期的代表。
1.2 當前的主流AI芯片技術與其應用場景
目前,AI芯片技術呈現多樣化的發展趨勢,主要包括以下幾種類型。
(1)圖形處理單元。GPU因其并行計算能力成為早期AI計算的主流加速器。現代GPU在深度學習訓練和推理方面表現出色,廣泛應用于計算機視覺、自然語言處理等領域。
(2)張量處理單元。TPU是Google推出的專用AI加速器,特別優化了張量計算。TPU在大規模深度學習模型訓練中表現出色,廣泛應用于云端AI服務。
(3)神經處理單元(NPU)。NPU是一類專門用于神經網絡計算的AI芯片,廣泛應用于智能手機和移動設備中,用于加速圖像識別、語音識別等任務。
(4)量子芯片。量子芯片是一種革命性的AI芯片,利用量子位來進行計算。盡管目前處于早期階段,但量子芯片在解決某些特定問題上顯示出巨大潛力,如優化問題和密碼學。
(5)腦神經芯片。腦神經芯片研發受到人腦神經元結構的啟發,試圖模擬神經元之間的連接和信息傳遞。這種芯片在模擬類腦計算和智能機器方面具有潛在應用。
從廣義上講,能運行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能執行AI算法,但執行效率有巨大的差異。CPU可以快速執行復雜的數學計算,但同時執行多項任務時,CPU性能開始下降,目前行業內基本確認CPU不適用于AI計算。CPU+xPU的異構方案成為大算力場景標配,GPU為應用最廣泛的AI芯片。目前業內廣泛認同的AI芯片類型包括GPU、FPGA、NPU等。當前主流AI芯片廣泛應用于各個領域,包括但不限于自動駕駛、智能語音助手、醫療圖像識別、金融風控等。隨著技術的不斷進步,AI芯片的應用場景將進一步拓展。
1.3 ChatGPT引燃AI及半導體產業及資本市場熱情
瑞銀集團(UBS)發布的研究報告顯示,ChatGPT在2023年1月份的月活躍用戶數已達1億,對比各大熱門平臺月活躍用戶數破億所需時長,ChatGPT只花了2個月的時間(見圖1),成為史上用戶數增長最快的消費者應用。在資本市場上,知情人士透露,聊天機器人ChatGPT背后的研究實驗室OpenAI正談判以收購要約的形式出售現有股份,交易對該公司的估值達到290億美元左右,使其在沒有收入的情況下成為賬面上最值錢的美國初創公司之一。國內外科技巨頭都非常重視ChatGPT引發的科技浪潮,積極布局生成式AI。與此同時,全球半導體資本市場也迎來大幅上漲,費城半導體指數自2023年1月至今已上漲約30%(見圖2)。
1.4 短期內GPU增量與市場規模
參考OpenAI算法,假設每日1億用戶,每人進行10條交互,每個問題的回答長度為50詞,算力利用率30%,則單個大語言模型(LLM)的日常需求有望帶來2.13萬片A100芯片的增量,對應市場規模2.13億美元。假設有5家大企業推出此類LLM,則總增量為10.7萬片
A100芯片,對應市場規模10.7億美元。短期服務器增量與市場規模:單個服務器包含8個GPU,因此單個LLM帶來2 669臺服務器需求,對應市場規模3.39億美元,5家大企業共需要13 345臺,對應市場規模20億美元。長期市場空間:參考谷歌,若每日訪問30億次,需要106.74萬片A100芯片,對應13.3萬臺服務器DGX A100,帶來市場空間200億美元。根據Verified Market Research數據,2020年,全球GPU市場規模為254.1億美元(約1717.2億人民幣)。隨著需求的不斷增長,預計到2027年全球將達到1 853億美元,年復合增長率為32.82%,如圖3(左)。2020年中國大陸的獨立GPU市場規模為47.39億美元,GPU市場廠商NVIDIA、Intel、AMD份額占比分別為79%、1%、20%,如圖3(右),預計2027年將超過345.57億美元。
1.5 AI芯片發展所面臨的挑戰與問題
雖然AI芯片在過去幾十年取得了顯著的進展,但在其發展過程中仍然面臨一些挑戰與問題。
(1)復雜的算法與模型。隨著深度學習等復雜算法的出現,其對AI芯片計算能力和存儲要求提出了更高的挑戰。一些大規模的神經網絡模型需要海量的計算資源才能高效運行,因此,如何在芯片設計中實現高度并行和高效的計算,是亟待解決的問題。
(2)能耗和散熱問題。隨著AI芯片計算規模的增加,能耗和散熱問題變得日益嚴峻。高功耗會導致芯片發熱過多,進而影響計算性能和穩定性。因此,如何在保證性能的同時降低能耗,并解決散熱問題,是AI芯片發展中需要攻克的難題。
(3)可編程性與定制化。通用處理器如GPU雖然在AI計算中有一定的應用,但其可編程性相對較弱,不能完全適應各類AI任務的需求。與此同時,定制化AI芯片雖然能提供更高效的計算性能,但其開發和生產成本較高。如何在可編程性與定制化之間找到平衡,是AI芯片發展的一個重要課題。
(4)安全與隱私問題。AI芯片在智能設備和云端服務中廣泛應用,但這也帶來了安全和隱私方面的問題。一些AI算法可能會面臨對抗攻擊,導致模型輸出錯誤。同時,個人隱私保護也成為AI芯片應用的一大挑戰。
(5)國際競爭與政策制約。AI芯片領域的競爭日益激烈,許多國家都在加大投入進行技術研發。在國際競爭中,如何保持技術領先優勢,以及應對不同國家對AI芯片技術的政策限制,都是需要面對的問題。
2 先進封裝Chiplet技術概述
2.1Chiplet技術的定義與特性
Chiplet是一種先進封裝技術,它將芯片功能分割成多個獨立的模塊,稱為Chiplet(小芯片)。每個Chiplet都具有特定的功能,例如處理器核心、存儲器控制器或其他外圍設備。這些獨立的Chiplet可以單獨設計、測試和生產,并在封裝過程中組合在一起,形成一個完整的芯片。這種模塊化的設計使得芯片開發更具靈活性和可擴展性,同時也提高了生產效率。
2.2Chiplet的主要應用與發展趨勢
Chiplet技術在現代半導體行業中具有廣泛的應用和良好的發展趨勢。其中一個主要應用領域是高性能計算領域,例如數據中心和超級計算機。通過組合多個特定功能的Chiplet,可以實現更高的計算能力和效能。此外,將芯片分割成多個模塊還可以提高整體芯片的可靠性和可維護性。另一個重要的應用是在物聯網(IoT)設備和移動設備中。這些設備通常需要集成多種功能,如無線通信、傳感器、處理器和存儲器。通過使用Chiplet技術,可以獨立開發和升級不同功能的模塊,從而提供更大的靈活性和可擴展性。
2.3 與傳統芯片封裝的比較
相比傳統的單一芯片封裝方式,Chiplet技術具有一些顯著的優勢。首先,可以實現更高的整體芯片集成度,因為不同的模塊可以在較小的面積上組合。其次,芯片的開發周期可以更短(見表1),因為各個功能模塊可以同步開發和測試,而不需要等待整個芯片的開發完成。此外,由于不同模塊可以由不同的制造商提供,因此可以實現更多元化的供應鏈(見圖4),從而提高生產效率并降低成本。使用Chiplet技術將不同設計公司中的不同Wafer 制程的芯片集成為一個系統或子系統中。
3 AI芯片與Chiplet結合
3.1 解決AI芯片發展問題的Chiplet方案隨著人工智能應用的不斷發展,AI芯片面臨著一些挑戰,例如計算能力提升、能源效率提高和更高的集成度要求。在這些挑戰中,Chiplet技術可以提供解決方案。例如,TSMC工藝和Xilinx的新一代Virtex系列FPGA產品(見圖5),基于硅基板進行集成。通過將不同的功能模塊作為獨立的Chiplet集成在一個AI芯片上,可以實現更高的計算能力。例如,將處理器核心、神經網絡加速器和存儲器控制器作為獨立的模塊,可以獨立開發和升級,同時在封裝過程中組合在一起,形成一個高性能的AI芯片。
3.2 AI芯片與Chiplet結合的實例分析
GPU性能提升與功能豐富逐步滿足AI運算需要。2010年NVIDIA提出的Fermi架構是首個完整的GPU計算架構,其中提出的許多新概念沿用至今。Kepler架構在硬件上擁有了雙精度計算單元(FP64),并提出GPU Direct技術,繞過CPU/System Memory,與其他GPU直接進行數據交互。Pascal架構應用了第一代NVLink。Volta架構開始應用Tensor Core,對AI計算加速具有重要意義。簡要回顧NVIDIA GPU硬件變革歷程,工藝、計算核心數增加等基礎特性的升級持續推動性能提升,同時每一代架構所包含的功能特性也在不斷豐富,逐漸更好地適配AI運算的需要。
目前已經有一些實際的AI芯片與Chiplet技術結合的實例。AMD公司的與Chiplet技術結合的實例是AMD在其Zen 2架構的Ryzen 3000系列CPU中采用了Chiplet設計 [6] 。該設計允許AMD將更多的CPU核心集成到單個CPU中。同樣,AMD也計劃將Chiplet技術應用于GPU設計中,以解決GPU制造中遇到的一些挑戰,比如增加芯片尺寸導致產量下降和成本增加。在這個GPU的Chiplet設計中,AMD使用了高帶寬互連(HBX)來促進不同Chiplet之間的通信,該互連類似于Zen 3 CPU中使用的互連方式。這種設計通過一個被稱為HBX的交叉連接來解決在GPU計算工作負載中并行性難以跨多個Chiplet傳輸的問題。而這種設計使得CPU與GPU交互時,看起來就像是與一個大型的單一GPU通信,而不是與許多小型GPU通過控制器通信。
3.3 AI芯片與Chiplet結合展望
AI芯片與Chiplet技術結合在未來將繼續發展和擴展。隨著人工智能應用的不斷演進,對于更高的計算能力、更低的功耗和更高的集成度的需求將持續增加。因此,進一步改進和發展Chiplet技術,并與AI芯片相結合,將是未來的發展方向。此外,隨著物聯網設備的普及,對于更靈活、可擴展的芯片解決方案的需求也將增加。因此,將AI芯片與各種不同的Chiplet結合,以滿足不同物聯網設備的需求,將成為未來的一個重要發展方向。
4 結論
Chiplet技術是一種模塊化的封裝方法,其優勢在于提供了更高的靈活性、可擴展性和生產效率。AI芯片面臨著一些挑戰,如計算能力提升、能源效率提高和更高的集成度要求。
為了更好地發展AI芯片與先進封裝Chiplet技術結合,提出以下建議。
(1)加強合作。鼓勵芯片制造商、封裝技術供應商和研究機構之間合作,促進技術共享和交流,以加速AI芯片與Chiplet技術結合發展。
(2)技術創新。持續投入研發,不斷創新先進封裝Chiplet技術,以滿足AI芯片不斷提高的性能要求。
(3)標準化。制定相關的技術標準,以確保不同廠商生產的芯片和Chiplet之間的互換性,推動整個行業健康發展。
隨著人工智能應用的不斷擴展和技術的進步,AI芯片與先進封裝Chiplet技術結合將會得到更廣泛的應用。這種結合將不僅僅用于高性能計算領域,也將廣泛應用于物聯網設備、智能手機和其他各種人工智能應用中,為人們的生活和工作帶來更多的便利。
審核編輯 黃宇
-
芯片
+關注
關注
453文章
50387瀏覽量
421783 -
封裝
+關注
關注
126文章
7778瀏覽量
142718 -
AI
+關注
關注
87文章
30106瀏覽量
268399 -
人工智能
+關注
關注
1791文章
46845瀏覽量
237535 -
chiplet
+關注
關注
6文章
416瀏覽量
12558
發布評論請先 登錄
相關推薦
評論