隨著人工智能(AI)技術的迅猛發展,我們正站在第四次工業革命的風暴中, 這場風暴也將席卷我們整個芯片行業,特別是先進封裝領域。Chiplet是實現單個芯片算力提升的重要技術,也是AI網絡片內互聯的基礎。而Chiplet先進封裝技術讓AI訓練/推理芯片的量產成為可能,所以AI網絡的物理層底座即芯片先進封裝技術?!?/p>
AI技術的發展極大地推動了對先進封裝技術的需求,在高密度,高速度,高帶寬這“三高”方面提出了嚴苛的要求。
高密度:?AI芯片通常包含大量的計算核心,這需要封裝技術能夠在有限的空間內提供高密度的互聯方案,以實現核心間的高效通信。同時,又要保證封裝的散熱、結構、可靠性和可制造性等諸多方面的苛刻挑戰。
高速度:AI處理單元(如GPU、TPU等)之間需要高速的數據交換,這要求封裝技術能夠支持高速信號傳輸,并且減少信號通路的衰減和串擾。
高帶寬:AI處理單元之間在高速傳輸的同時,如何保證在有效的面積內有更高的傳輸帶寬,這就需要從封裝層面、從接口層面一同來考慮的問題,在有效的面積內增加互聯數量,提高帶寬。
結合“三高”提出的要求, 封裝行業也八仙過海,各盡所能,紛紛開發出不同的Chiplet結構及工藝路線。總體上, 我們從空間維度上劃分,分為:2.xD,2.5D和3D三個,也有一說法有3.5D,但在空間維度上最高就是3D。大致上,各個維度分別對應的技術如下圖所示,這些技術往往是由某一家FAB或OSAT獨家掌握,對應的技術路線網上也有很多資料,在本文就不詳細敘述。當然,2D封裝可列為是一種傳統的封裝工藝方式,由于沒有用到芯片級別的曝光、顯影、電鍍等工藝,我們仍然將其劃分到傳統封裝領域,未將其列入 Chiplet層面的封裝。
Chiplet的主要優勢
Chiplet作為AI技術發展的一種基礎應用技術,其主要優勢在以下幾個方面。
突破摩爾定律,大幅提升系統集成度和性能
傳統的SoC芯片,把諸多功能模塊都集中在一個芯片體中,所選Fab工藝節點需要向上兼容,比如CPU模塊需要7nm, 而Serdes只需要22nm, 為完成整個SOC,不得不采用7nm工藝進行加工,無形中大幅增加了Fab的工藝難度及成本。而Chiplet將諸多模塊一分為多,各個模塊選用不同的工藝節點分別加工流片,最后通過先進封裝組裝在一起,降低了成本也節約了Fab先進制成的產能。
高端SiP技術,各個芯片可獨立設計/可復用
SiP(系統級封裝)面很廣,嚴格意義上講Chiplet也屬于SiP。由于采用了Chiplet,SoC就可以拆分成多個芯片,可以彼此獨立進行設計流片,分擔了一家公司全包的運營及研發壓力。各個芯片模塊如標準零件一般,可以復用在各個系統中,彼此運營及研發的成本也大大降低。
異構異質集成,突破性能極限
SoC芯片分拆后, 各個芯片模塊彼此流片,就無需采用同一種工藝節點。同時,最關鍵的,針對特別模塊,我們可以發揮更多的想象空間,突破硅基的限制,采用第二、第三代等芯片材料,提高整體系統性能。
減少傳輸路徑,增加系統帶寬,提高整體性能
SoC集成了多個模塊,且芯片面積較大, 模塊與模塊之間的互聯往往要跨越整個芯片,傳輸路徑較大,無形中降低了系統的整體性能。Chiplet,各個模塊彼此獨立,通過前期架構的合理設計,可以有效的減少傳輸路徑,提高系統帶寬和性能。
各個模塊獨立,大幅減小芯片面積并提升良率
Fab廠中, 受限于工藝能力及空氣中的顆粒因素,芯片面積越大,對應的良率越低,SoC芯片拆分為獨立芯片模塊后,單顆芯片的面積變小,可以有效的提高整體良率,降低成本。
突破光照尺寸限制,增加系統集成
光刻機的光照Image尺寸一般在33X26=858mm2, SoC芯片也要受光照尺寸的限制,不可能無限變大,超過光照尺寸后,工藝及設備難度都非常大,成本也會成指數增長。Chiplet芯片分叉后,有效的減小了芯片面積,從而降低了光照限制要求。
Chiplet的封裝挑戰
相較于傳統的封裝,封裝處于整個芯片行業的末流,在進行芯片設計的時候封裝端需要考慮的因素不多,整體重要性不高。Chiplet的誕生與快速發展,將封裝人員推到了“芯片封裝架構師“這一重要的職能。
“封裝架構師”,需要從總體上綜合考量諸多因素,包括:
應用層次:系統應用,帶寬,IP接口等
系統層次:互聯方式,速度,EDA軟件等
封裝層次:封裝結構,散熱,可靠性等
工藝層次:工藝路線,供應鏈,材料,設備等
這些因素彼此之間互為因果,牽一發而動全身給Chiplet帶來了巨大的挑戰。針對以往經驗,我們在這兒歸納幾點挑戰及相應分析:
從系統架構到底層工藝
系統架構和工藝實現,在芯片行業里面,貌似一個是芯片最前端的崗位,而一個是最后端的職位,在傳統封裝領域,兩者之間的交集不多。但是,在Chiplet時代這兩者有著密切的聯系。
我們在定一個系統架構時,需要考慮到系統的帶寬、速度,功耗等因素, 而這些與我們所選的芯片間互聯(D2D) IP強相關。
我們拿UCIe舉例, UCIe作為一種國際D2D互聯協議,它一些主要參數如下表:
UCIe有S(Standard)、A(Advanced)和3D三種標準, 分別用傳統Flipchip封裝、2.5D封裝和3D封裝形式, 三種標準的帶寬密度從UCIe-S的22(GB/s/mm2)到UCIe-3D的4000(GB/s/mm2),差不錯相差了181倍之多。即便我們注意到UCIe-3D的速率只有4(GT/s)而UCIe-S的最高速率是32(GT/s),為什么還是有這么大的差距呢?答案就在先進封裝工藝上。UCIe-S采用的是傳統Filpchip封裝工藝, bump pitch在130um。而UCIE 3D采用先進的Hybrid Bonding(HB)封裝工藝,其bump pitch只有9um, 折算到面積的話相差了208倍,這就解釋了為什么UCIe-3D在速率較低的情況下,整體帶寬密度還是比UCIe-S高了181倍。
基于上面的例子, 先進封裝實現了高密度互聯,而實現高密度的方法就是HB這種先進封裝工藝,系統架構通過先進封裝和工藝緊密的聯系在了一起。而先進封裝,如我們之前所舉例,有很多的封裝形式及實現方式,不同的封裝形式有不同的優點和缺點,我們如何選擇合適的封裝形式,從而選擇具體封裝工藝,需要從一開始的架構層面就考慮清楚。
穩定的供應鏈資源
不管選擇那種封裝形式, 都需要在系統及運營的架構層面去考慮整個供應鏈問題,包括:EDA,IP,FAB,OSAT等,如下圖。
AI網絡構建一套高性能芯片系統的時候,需要考慮很多因素:首先需要考慮的是使用的應用場景,滿足哪些協議標準,采用什么EDA工具進行設計實現,選用的IP種類以及使用哪種D2D PHY來實現;再者,從選擇什么Fab及工藝方式,采用何種封裝形式、工藝再到選擇OSAT公司,考慮選用的材料及設備等。這一系列需要考慮的因素,沒有哪家公司可以完全囊括住。這些因素所牽涉的供應商類型眾多且不同供應商提出的方案也各有千秋,從而形成完整的供應鏈體系。
穩定可靠的供應商資源是整個先進封裝行業最大的挑戰,包括壟斷技術、產能短缺以及價格大幅波動等。比如說COWOS 2.5封裝, TSMC一家獨大,產能吃緊;又比如之前基板ABF廠家味之素的產能短缺,導致基板交期普遍拉到半年及以上的情況;再到最近AI芯片大火,導致HBM的供不應求,一天一價的狀況;以上無不說明供應鏈資源的重要性。AI算力系統商身處芯片及Chiplet這個大行業中, 如何保證穩定且可靠的供應鏈資源也是各家企業遇到的重點挑戰之一。
從全局考慮問題
Chiplet先進封裝使得整個供應鏈變得如此緊密,密不可分。某種意義上來說,各個因素不是單方面影響的,而是互為因果,互相制約的,需要我們從辯證思維的方法來考量整個系統。
還是拿UCIe做對比, 系統商為了滿足系統大帶寬的要求,選擇了UCIe-A作為芯片之間的互聯標準,從而你就選擇了芯片互聯IP的方式,也選擇了D2D PHY的互聯形式,進而選擇了2.5D這種先進封裝形式?;?.5D封裝, 你就基本確定了芯片、Interposer及基板設計的團隊及EDA工具,也確定了FAB及OSAT的供貨范圍, 從而有了設備及材料的范圍。
相反的, 由于材料的限制,比如基板ABF材料,有一系列的物理屬性:熱膨脹性(CTE),會產生翹曲及應力集中,影響到整個封裝結構,影響到FAB及OSAT封裝工藝的實現;導熱性,導熱性能的高低 會影響到整個系統的散熱性能及整體結構設計,影響系統端;電性能(介電常數Dk&損耗角DF), 基板速度上不去或存在嚴重串擾,影響整個D2D PHY的性能,從而影響一開始的系統帶寬的要求。
綜上,從最上面的帶寬要求,到最下面的材料,彼此是互為因果,相輔相成的。這也要求Chiplet在設計的時候需要總體上綜合考慮,也是設計的難點,需要豐富的設計和實踐經驗。
項目經驗的積累與創新
Chiplet先進封裝作為這幾年興起的領域,不管是設計公司還是FAB&OSAT都沒有非常豐富的經驗,在這個過程中,很多問題可能之前是完全沒有預料到的。特別是涉及到材料的問題,材料的選擇方面相對復雜,很難用某種理論或某個實驗來說明。
比如說,最近NVIDA Blackwell良率過低的問題,其很大一個原因在于COWOS-L這種工藝上,而TSMC大家都知道之前走的是COWOS-S的工藝,這是一種量產工藝。那大家就要問了, 為什么不繼續用COWOS-S工藝呢?非得用一種沒有量產經驗的COWOS-L來做?主要是因為,S這種工藝是基于硅基Interposer上實現的, 最后將Interposer及上面的芯片焊接在有機基板上。一個硅基,一個有機,材料不同,彼此的熱膨脹系統(CTE)相差甚多。在Interposer處于小尺寸范圍內的時候,CTE的差距或許不足以在封裝上產生足夠大的應力及形變。但是, 隨著系統帶寬的要求越來越大, Interposer上面需要的HBM及芯片數量越來越多,當HBM到8個及以上的時候,中間的Interposer就需要3.3個Reticle(3.3x33x26=2831.4mm2)尺寸的時候,這個CTE差距就沒法覆蓋了。需要我們創新新的封裝技術及結構, COWOS-L就來了。
COWOS-L,本質上是利用局部Si Bridge的方式替代COWOS-S整體Si Interposer的設計。最后的封裝整體還是有機材料為主,與基板的有機材料在CTE上做匹配, 降低整個封裝的翹曲及應力集中現象。但是畢竟是新技術,需要時間的積累;通過工程師不斷的嘗試,才能保證有穩定可靠的封裝量產能力 。
解決這些工程實際問題,光靠理論及仿真是遠遠不夠的。合格的先進封裝技術需要項目經驗的積累,需要工程實踐的運作,更加需要工程人員的不斷突破創新。
總述
如上面我們所分析的,AI算力芯片必須使用Chiplet先進封裝,而先進封裝又與系統架構,設計經驗及供應鏈息息相關。從片內互聯到片間互聯再到服務器集群互聯,這些互聯層面環環相扣,Chiplet先進封裝技術的迭代與創新將對未來AI芯片的性能產生長遠的影響,也可以說先進封裝技術是實現AI高性能計算/網絡的物理層底座。任何將產業鏈上下游生態剝離的想法都是不切實際的。
奇異摩爾作為AI網絡產業鏈的一環也是國內Chiplet互聯領域的先行者。我們的團隊擁有超過50+高性能網絡及Chiplet量產項目的經驗,將不斷踐行新質生產力,為我國智算中心的建設以及國產大算力芯片的性能突破貢獻技術力量。
評論
查看更多