微軟自研人工智能芯片進程脈絡梳理

微軟在最近的人工智能浪潮中可謂是占到了聚光燈下，從花重金完成OpenAI的交易，到把ChatGPT集成到Bing搜索引擎中，都站在了整個領域發展的前沿。而在幾天前，又有消息傳出微軟正在和AMD合作開發自研的人工智能芯片。整個故事一波三折，我們在這里把微軟自研人工智能芯片的大概脈絡梳理一下。

首先，大約在半個月前，有媒體報道微軟正在為了大語言模型（LLM，目前最前沿的人工智能技術，同時也是ChatGPT背后的模型技術）自研芯片，內部代號是Athena。然后，在五月二號，在AMD發布2023年第一季度財報之后的分析師電話會議上，有分析師問到AMD如何看待目前互聯網云計算公司自研芯片，是否有和相關公司合作研發半定制芯片的計劃，AMD CEO Lisa Su表示AMD目前在CPU、GPU、FPGA和DPU等領域擁有非常完整的IP庫，同時也有很強的半定制芯片團隊，所以公司有計劃在該領域進一步投入來為大客戶合作。兩天后，彭博社報道AMD正在和微軟合作人工智能芯片，一方面微軟在為AMD提供人工智能方面的研發支持，另一方面AMD正在為微軟開發Athena芯片。在該報道發出之后，AMD的股價一度上漲6%。緊接著彭博社的報道，微軟發言人表示AMD是微軟重要的合作伙伴，但是目前微軟的Athena芯片并非由AMD開發。但是，微軟并沒有否認和AMD在人工智能方面合作的報道。

我們認為，總結現有的報道，一方面AMD的半定制芯片領域將會是未來人工智能領域公司的重點投入方向之一，因為人工智能應用的大客戶（主要是互聯網科技巨頭）對于這個領域有非常大的興趣；另一方面微軟雖然Athena芯片未必是直接交由AMD開發，但是微軟在人工智能硬件方面和AMD合作開發的可能性很大。目前看來，最有可能的狀況是微軟正在和AMD合作開發一整套用于加速人工智能大語言模型的硬件解決方案，該解決方案中包括了微軟自研的Athena芯片，同時也包括了AMD的CPU等芯片。在Athena芯片開發過程中，很大可能微軟會考慮加入對于AMD芯片組相關的接口和優化（甚至可能會用到一些AMD的IP），同時AMD在設計該合作的硬件解決方案中，有可能也會考慮加入一些由微軟定義的半定制成分（例如數據接口，存儲帶寬，對于微軟人工智能框架的優化等）。

最后在芯片系統集成方面，如果微軟使用AMD已經具有豐富經驗的高級封裝技術把Athena和AMD的芯片集成到一起也會是一個情理之中的結果，而在上層軟件整合方面，預計微軟和AMD會深度合作并且保證整個人工智能系統能高效地運行在系統中。

看到這里的發展，不禁讓人感慨時過境遷：30年前，正是微軟和Intel深度合作的Wintel聯盟點燃了整個PC市場的高速發展，微軟和Intel都在該過程中獲得了高速增長，而在那個時候AMD還是一個市場上可有可無的角色，甚至有說法認為Intel留著AMD主要是避免觸發反壟斷法被拆分；而到了今天，AMD的市值已經超越了Intel，微軟則在最火熱的人工智能領域選擇了和AMD合作。另一方面，我們認為微軟和AMD在硬件和芯片領域深度合作也掀開了科技巨頭自研芯片的新篇章，即從強調自己造芯片到強調和傳統芯片公司合作——注意這里的合作并不只是代工或者設計服務方面的合作，而是在設計指標、IP、軟硬件接口等領域的深度合作。

互聯網科技公司自研芯片的歷史

我們不妨回顧一下互聯網公司造芯的歷史。互聯網公司自研芯片幾乎和2016年開始的人工智能熱潮同步。人工智能的崛起對于互聯網的業務起了決定性的影響，在云端，人工智能技術大大提高了推薦系統和廣告系統等互聯網公司的核心業務，而在終端，人工智能也為諸多重要的計算機視覺和語音技術賦能。為了人工智能相關業務而自研芯片的公司幾乎囊括了所有的科技巨頭，包括谷歌、微軟、亞馬遜、阿里巴巴、字節跳動、百度等等。從自研芯片的出發點來看，過去互聯網科技公司自研芯片主要出于兩方面的考慮，即成本和功能。

從成本角度來看，由于人工智能計算需要非常大的算力，因此成本也很高。供應鏈角度來看，Nvidia是最主流的云端人工智能芯片供應商，而其GPU的售價一方面很高，另一方面對于科技巨頭來說過分依賴單一供應商也存在供應鏈風險成本（尤其是對于中國互聯網巨頭來說，依賴Nvidia的風險更是由于受到地緣政治的影響存在很高的不確定性）。而另一個角度是GPU的能效比在運行人工智能應用時并不完美，事實上在云端數據中心應用中，有很大一部電費成本是在為人工智能應用在買單。因此，互聯網科技巨頭在云端人工智能芯片領域自研的主要目的是一方面減少對于Nvidia的依賴，另一方面是希望能實現比Nvidia更好的能效比，這樣在大規模部署的時候，從綜合成本的角度來看可以比直接購買Nvidia的GPU成本更低。在這方面，谷歌的TPU是一個著名的例子，在迭代了幾代之后，我們看到目前谷歌TPU的性能和Nvidia的GPU通常相類似，但是在能效比等影響成本的角度，可以實現比Nvidia更好。

另一個互聯網科技公司自研芯片的主要目的是為了實現更強的功能，即目前市面上并不存在能滿足公司需求的芯片，因此需要能自研芯片來滿足設計需求，同時相較于使用第三方通用芯片的其他公司創造了更高的產品競爭力。這里的典型例子就是微軟在HoloLens中使用的自研HPU芯片來加速人工智能機器視覺相關的應用，從而為HoloLens的核心功能模塊（例如室內SLAM定位等）提供足夠的算力同時不會消耗太多電池。而谷歌用在Pixel手機上的Tensor處理器也是另一個相關的例子。

互聯網公司之前的自研芯片往往強調“自主”這個方向。自主意味著自研芯片的最關鍵模塊（IP）以及系統架構是由互聯網公司自己設計。在實際操作層面，由于互聯網科技巨頭畢竟在芯片行業積累不多，因此通常會構建一支數百人的團隊，該團隊主要負責芯片架構定義和核心IP的設計驗證；而另一方面，通用IP（例如DDR等）通常使用購買的方式，同時在后端設計等可以可以外包的職責則交由外部設計服務公司完成。總而言之，互聯網公司造芯的通常模式是由自己的核心團隊完成芯片架構定義和核心模塊設計，然后和中立的第三方IP公司和設計服務公司合作以購買其他的通用IP并完成整個芯片設計流程。

微軟掀開互聯網造芯新篇章

微軟和AMD的合作是科技巨頭造芯的一個新里程碑：這次微軟并不是只和中立的第三方設計服務公司合作，而且同時和一個傳統芯片大廠合作來設計支持下一代人工智能技術的芯片和硬件系統。換句話說，科技巨頭自研芯片從強調“自主”慢慢走到了今天開始走向“合作”。

如果我們想要探究這個轉變的原因，我們認為目前至少有兩個因素在驅動這個轉變。第一個因素就是未來人工智能對于算力的需求在指數級上升，其對于芯片系統復雜度的要求也是和之前不可同日而語。

舉例來說，2016年的時候最熱門的人工智能應用是機器視覺（物體識別和分類任務），主流模型參數量通常在10M-100M之間，算力需求在1-10 GFLOPs左右；而目前流行的大語言模型（例如ChatGPT以及其下一代GPT-4）的模型參數量在1T數量級，算力需求在1-10PTOPS左右，可以說無論是參數量還是算力需求都比原來大了1000倍以上。在這種情況下，人工智能芯片設計已經和2017年時候谷歌主要為了機器視覺類人工智能任務設計的TPU完全不同——在2017年，谷歌TPU可以圍繞其基于脈動陣列的卷積加速IP以及較大的片上SRAM就能完成大量的人工智能任務加速，其TPU可以說和系統里的其他芯片相對而言更獨立，可以只要把那個脈動陣列IP和片上存儲做好了性能就能達標；而在2023年，由于模型的參數量和算力需求都已經高了幾個數量級，因此在設計人工智能加速芯片時必須仔細考慮硬件系統里的其他芯片，包括存儲訪問、高速數據互聯、數據和計算在CPU和人工智能芯片之間的分割和移動等等，可以說是一個非常復雜的系統，而且這個復雜系統里必須把每一個芯片的性能都做到合理才能保證整體系統的效率，否則系統里面的任何一塊芯片都可能成為整體效率的瓶頸——換句話說如果只是優化人工智能加速芯片而沒有其他芯片的搭配優化，那么很有可能整體性能并不會很高。

顯然，科技巨頭不可能去自研系統里的所有這些芯片，而必須和傳統芯片大廠深度合作才能完成一個整體都很優化的系統，尤其是AMD在整體系統整合（高級封裝技術和數據互聯技術）都有非常深厚的積累，而微軟則在軟件層面有更多的能力，兩者深度合作可謂是優勢互補。

除了系統復雜度之外，另外一個驅動因素是目前的經濟形勢。對于科技巨頭來說，雖然人工智能保持火熱，但是全球的整體宏觀經濟形勢并不樂觀，因此科技巨頭都傾向于降低非核心業務擴張和投入的程度。對于芯片業務來說，科技巨頭都更傾向于把投入放在刀刃上，即和人工智能核心加速相關的IP上，而在其他非核心IP和系統里面的其他芯片來說，科技巨頭會轉而交由合作伙伴去完成，而不是像幾年前一樣傾向于自己擴張團隊來做盡可能多的事情。

從未來來看，科技巨頭造芯的格局將會在某種程度上延續目前的格局，但是我們預計也會看到更多的和傳統芯片大廠的深度合作。如前所述，在下一代人工智能這樣的應用中，我們可望會看到越來越多微軟和AMD這樣的合作來共同挑戰這樣的復雜系統；另一方面，由于經濟形勢的影響，我們預計會看到互聯網科技巨頭造芯的時候越來越多地移向上游，即定義芯片架構，以及交付核心IP，而這些IP在SoC里面的整合可以交由合作伙伴完成，甚至我們可能會看到更多特制版SoC，例如在公版SoC的設計基礎上集成了互聯網科技巨頭提供的核心IP這樣的方式，從而最大程度降低設計成本開銷。從這個角度來看，互聯網科技巨頭需要的不僅僅是一個設計服務伙伴，而更需要該芯片合作公司已經有相關的SoC設計和量產經驗。從這個角度來看，AMD、三星、MTK等都會是這類業務的受益者，因為他們有很強的設計服務/半定制芯片部門，同時也有尖端SoC設計量產的經驗。同時，從技術角度來看，高級封裝和芯片粒技術可望將在這類芯片合作中起到核心賦能作用，因為如果能使用芯片粒，那么就可以把科技巨頭的核心IP做到芯片粒中去和其他SoC集成，而無需在專門設計一個專用的SoC光罩掩膜，這樣就可以大大降低設計成本，另一方面也大大增加設計的靈活性——這可能也是微軟和在芯片粒高級封裝領域有豐富經驗的AMD合作的另一個理由。

編輯：黃飛

閱讀全文