Chiplet,顧名思義就是小芯片,也稱為芯粒或者晶粒。 簡單來說,Chiplet技術就是像搭積木一樣,把一些預先生產好的實現特定功能的芯片裸片(Chip)通過先進的集成技術封裝在一起形成一個系統級芯片,而這些基本的裸片就是Chiplet。 Chiplet可以使用更可靠和更便宜的技術制造。較小的硅片本身也不太容易產生制造缺陷。此外,Chiplet芯片也不需要采用同樣的工藝,不同工藝制造的Chiplet可以通過先進封裝技術集成在一起。 設計一個SoC系統級芯片,傳統方法是從不同的 IP 供應商購買一些 IP,軟核、固核或硬核,結合自研的模塊,集成為一個 SoC,然后在某個芯片工藝節點上完成芯片設計和生產的完整流程。 有了Chiplet概念以后,對于某些 IP,就不需要自己做設計和生產了,而只需要買別人實現好的硅片,然后在一個封裝里集成起來。所以 Chiplet 可以看成是一種硬核形式的 IP,但它是以芯片的形式提供的,如下圖所示。
我們可以這么理解:Chiplet 就是一個新的 IP 重用模式,是硅片級別的IP重用。 ? ?
2.5D??? ? ?
2.5D本身是一種在客觀世界并不存在的維度,因為其集成密度超越了2D,但又達不到3D的集成密度,取其折中,因此被稱為2.5D。 在先進封裝領域,2.5D是特指采用了中介層(interposer)的集成方式,中介層目前多采用硅材料,利用其成熟的工藝和高密度互連的特性。 雖然理論上講,中介層中可以有TSV也可以沒有TSV,但在進行高密度互聯時,TSV幾乎是不可缺少的,中介層中的TSV通常被稱為2.5D TSV。 2.5D的整體結構如下圖所示。
3D?? 和2.5D是通過中介層進行高密度互連不同,3D是指芯片通過TSV直接進行高密度互連。 大家知道,芯片面積不大,上面又密布著密度極高的電路,在芯片上進行打孔自然不是容易的事情,通常只有Foundry廠可以做得到,這也是為什么到了先進封裝時代,風頭最盛的玩家成了TSMC, Intel, Samsung這些工藝領先的芯片廠商。因為最先進的工藝掌握在他們手里,在這一點上,傳統的OSAT是望塵莫及啊! 在芯片上直接生成的TSV則被稱為3D TSV,3D的整體結構如下圖所示。
先進封裝?
近些年,先進封裝一直被看作拯救摩爾定律的神兵利器,雖然摩爾定律實際上是不可能被拯救的(關于這一點,我在新書的第一章中有詳細的推導)。 但先進封裝確實起了很大的作用,它有效地提升了封裝體內的功能密度,在單位體積內集成了更多的功能單元。并且這些功能單元的互連很短,密度很高,因此性能也得到了很大的提升。 曾經有人用14nm工藝結合先進封裝技術,做出了號稱可以媲美7nm工藝的產品性能,可能嗎? 還是有可能的!因為從產品(封裝)的尺度來衡量,14nm+先進封裝技術,其產品的功能密度有可能大于7nm+傳統封裝產品的功能密度。 既然先進封裝這么神奇,那么什么是先進封裝呢? 現階段先進封裝主要是指上面提到的2.5D封裝,3D封裝以及下圖中的WLP(Wafer Level Package)晶圓級封裝。
異構集成 ?
異構集成,其全稱為異構異質集成,含有異構和異質兩重含義。 異構集成主要指將多個不同工藝單獨制造的芯片集成到一個封裝內部,以增強功能和提高性能,可以對采用不同工藝、不同功能、不同制造商制造的組件進行封裝。例如下圖所示:將7nm、10nm、28nm、45nm的Chiplet通過異構集成技術封裝在一起。
異質集成則是指將不同材料的芯片集成為一體,可產生尺寸小、經濟性好、設計靈活性高、系統性能更佳的產品。 如下圖所示,將Silicon、GaN、SiC、InP生產加工的Chiplet通過異質集成技術封裝到一起,形成不同材料的半導體在同一款封裝內協同工作的場景。
SiP??
SiPSystem-in-Package,是指在封裝內形成一個系統,SiP?關注系統在封裝內的實現,所以系統是其重點關注的對象。
至于是否采用了先進封裝工藝,并不是SiP的關注重點,SiP可能采用傳統的Wire Bonding工藝,也可能采用Flip Chip工藝,當然,SiP同樣可能采用先進封裝工藝。
隨著系統對性能Performance、功耗Power、體積Volume(可簡稱為PPV,和IC設計中的PPA相對應)的要求越來越高,集成密度的需求也越來越高,SiP也會越來越多地采用先進封裝工藝。
下圖中對本文提到的Chiplet、2.5D、3D、SiP幾個關鍵詞進行了標識,供讀者參考。Chiplet/Chip是封裝中的單元,先進封裝是由Chiplet/Chip組成的,2.5D和3D是先進封裝的工藝手段,SiP則指代的是完成的封裝整體。
3D Chiplet??
另外,還有一個概念:3D Chiplet,這個概念應該是AMD在2021年6月份首先提出來的,應用在其3D V-Cache上,將包含有64MB L3 Cache的chiplet以3D堆疊的形式與處理器封裝在了一起。
從結構上來講,3D Chiplet就是將Chiplet通過3D TSV集成在一起。另外,為了提高互連密度,3D Chiplet采用了no Bump的垂直互連結構,因此其互連密度更高。
AMD的3D Chiplet工藝的實現是由TSMC代工的,TSMC稱之為SoIC,屬于其3D Fabric的產品范疇,其鮮明的特點就是采用了no Bump的高密度垂直互連結構,參看下圖。
先進封裝的發展
在過去的幾年里,先進封裝已經成為半導體中越來越普遍的主題。在這個系列中,SemiAnalysis將打破大趨勢。我們將深入研究支持先進封裝的技術,例如高精度倒裝芯片、熱壓鍵合(TCB)和各種類型的混合鍵合(HB)。在本文中,我們將重點關注對技術的需求以及該行業為何向先進封裝邁進。
首先讓我們討論一下先進封裝的必要性。摩爾定律以迅猛的速度發展。自從臺積電跳過 32nm 以來,直到目前的 5nm 工藝節點,臺積電以每年 2 倍的速度增長晶體管密度。盡管如此,實際芯片的密度仍以每 3 年約 2 倍的速度增長。這種放緩的部分原因是由于 SRAM 縮放、功率傳輸和熱密度的消亡,但這些問題大多與數據的輸入和輸出有關。
芯片上數據的輸入和輸出(IO)是計算的命脈。將內存放在芯片上有助于通過減少通信開銷來減少 IO 需求,但歸根結底,這是一個有限的擴展途徑。處理器必須與外部世界進行交易以發送和接收數據。摩爾定律使業界晶體管密度大約每 2 年增加 2 倍,但 IO 數據速率僅為每 4 年 2 倍。幾十年來,晶體管密度與IO 數據速率的差異已經大大不同。共同封裝的光學器件只是解決這個問題的一種方法,它并不孤單。
從根本上說,芯片需要容納更多的通信點或 IO 才能跟上。不幸的是,這方面的最后一個主要步驟功能增加是在 90 年代轉向倒裝芯片封裝。
傳統倒裝芯片封裝的凸點間距為 150 微米至 200 微米。這意味著每個 IO 單元在裸片的底側相距 150 到200 微米。臺積電 N7 將凸塊間距降至 130 微米,而英特爾的 10nm 將凸塊間距降至 100 微米,這方面有了一些增量改進。這些進步被稱為細間距倒裝芯片。不要小看這些進步,因為它們是更好處理器的巨大推動力,但 2000 年的封裝技術與 2021 年的封裝技術基本相同。
2000年的250mm2的芯片與2022年的250mm2芯片在晶體管數量、性能和成本方面有著難以置信的不同。摩爾定律每 2 年翻一番,表示晶體管數量增加了 2000 倍以上。顯然,現實并不那么有利,但晶體管仍然增加了幾個數量級。在硬幣的另一面,封裝沒有享受同樣水平的增長。
在臺積電的 N7 節點上,AMD 的凸塊間距從約200 微米變為 130 微米,IO 僅增加了 2.35 倍。如前所述,英特爾在 10 納米工藝上從200 微米的凸點間距變為 100 微米,從而實現了更大的縮放。這仍然只會使 IO 增加 4 倍。2.35倍或4倍的增加是相對于晶體管數量增加的舍入誤差。
這帶來了焊盤限制設計的概念。將舊設計轉移到新工藝節點時,設計本身可能會大幅縮小,但 IO 需求將阻礙芯片尺寸縮小多少。由于需要 IO,裸片尺寸仍然較大,但有空余空間。這些情況被稱為墊受限,并且它們非常頻繁。
順便說一句,這不僅與將使用先進封裝的前沿有關,而且與圍繞汽車芯片和一般后沿半導體短缺的討論有關。英特爾的 Pat Gelsinger 認為,這些短缺的公司應該過渡到英特爾 16nm 代工服務。
Pat Gelsinger表示,我們宣布在英特爾 16和愛爾蘭工廠的其他節點上提供歐洲代工服務,我們相信這有機會幫助加速結束供應短缺,我們正在與汽車和其他行業合作幫助建立這些能力。但我也想說有些人可能會爭辯說,好吧,讓我們在舊節點上構建大部分汽車芯片。舊節點不需要一些舊晶圓廠嗎?我們是想投資過去還是想投資未來?
一個新的晶圓廠需要 4 到 5 年的時間才能建成并具有生產價值。不是解決今天的危機,投資于未來,不要選擇向后投資。相反,我們應該將所有設計遷移到新的現代節點,為未來增加供應和靈活性做好準備。
Intel的問題在于,當從古老的節點轉移到相對現代的節點時,這些設計將受到pad限制。由于每 mm2的成本較高,單位成本經濟學在這里不起作用,因為由于pad有限,芯片面積不能很好地縮放。除了這些成本之外,由于必須在較新的節點上重新設計舊芯片和整個重新認證過程,因此一次性成本也很高。將舊芯片移到新節點的解決方案是不可行的。
那么如何增加 IO 計數呢?
一種途徑是尋找使芯片更大的方法。更大的區域意味著更多的 IO 空間。不是最好的路線,但設計人員會經常增加芯片上的內存,從而允許在芯片上存儲更多數據。這反過來又在一定程度上減少了 IO 需求。AMD 最近的架構就是一個很好的例子,因為它們在 CPU 和 GPU 上都有巨大的緩存。
AMD 將其命名為 Infinity Cache。該解決方案是通過提供大量片上 SRAM 池來將與計算最相關的數據存儲在處理器中,從而降低內存帶寬需求。在 GPU 領域,AMD 明確表示他們能夠通過添加無限緩存將 GDDR6 總線大小從 384 位減少到 256 位。蘋果在這方面也很積極,在他們內部設計的處理器上塞進了大量的緩存。這些設計選擇的一部分與功率有關,但很大一部分也是由于焊盤限制。
另一種途徑是添加各種專用電路以提高芯片效率。我們在異構計算的寶庫中看到了這一點。回到我們的Apple A15 芯片分析,令人驚訝的是 CPU 或 GPU 專用的區域如此之小。這是討論最多的兩個方面。蘋果沒有專注于這些營銷方面,而是將大量區域用于其他功能。雖然沒有標注,但右下角主要是圖像信號處理器。這塊巨大的骰子正在執行與拍照和視頻相關的計算。還有另一個與媒體編碼和解碼相關的計算相關的未標記塊。在 SOC 周圍,您可以找到這些相當小的統一矩形,它們是 SRAM 緩存,將更多數據保存在芯片上,而不必進入內存。
這些工作負載無法在經典 CPU 上運行。AI 模型的規模越來越大。Facebook 的深度學習推薦系統模型有超過 12 萬億個參數。不斷膨脹的模型尺寸致力于讓您在應用程序上停留更長時間并點擊更多廣告。谷歌開發了自己的芯片,用于在稱為 TPU 的 AI 模型上進行訓練和推理。隨著新型處理器 VCU的出現,他們擴大了他們的芯片工作,如果專用于相同的任務,它能夠替換 1000 萬個 CPU。
亞馬遜有定制的網絡芯片,也運行他們的管理程序和管理堆棧。他們擁有自己的芯片,專門用于 AI 訓練、AI 推理、存儲控制和CPU。當您查看 Marvell 和 BroadcomASIC 服務的重點時,墻上的文字很清楚,硬件設計和架構的分解只會增加。
這些工作負載無法在經典 CPU 上運行。AI 模型的規模越來越大。Facebook 的深度學習推薦系統模型有超過 12 萬億個參數。不斷膨脹的模型尺寸致力于讓您在應用程序上停留更長時間并點擊更多廣告。谷歌開發了自己的芯片,用于在稱為 TPU 的 AI 模型上進行訓練和推理。隨著新型處理器 VCU的出現,他們擴大了他們的芯片工作,如果專用于相同的任務,它能夠替換 1000 萬個 CPU。
亞馬遜有定制的網絡芯片,也運行他們的管理程序和管理堆棧。他們擁有自己的芯片,專門用于 AI 訓練、AI 推理、存儲控制和CPU。當您查看 Marvell 和 BroadcomASIC 服務的重點時,墻上的文字很清楚,硬件設計和架構的分解只會增加。
更多的芯片面積意味著更多的引腳、更多的集成功能,但這也是成本失控的絕妙方法。并且芯片尺寸已經達到極限。例如,看看英偉達或英特爾的數據中心陣容。兩者都接近“標線限制”超過 5 年。即使他們愿意,他們也無法繼續制造更大的芯片。芯片收縮已經大幅放緩,助長了這個問題。
因此,收縮已經放緩,芯片尺寸無法增長得更大,設計也受到pad的限制,這些是唯一的問題嗎?
不幸的是,這不是唯一問題。硅單元經濟學也遇到了障礙。半導體行業及其下游企業單槍匹馬地推動了整個經濟的通縮環境,抵消了其他地方的通脹行動。沒有它,80 年代以來的美國和歐洲將經歷無休止的滯脹。不過,這種變革性的通貨緊縮力量正在遇到障礙。半導體單位經濟沒有改善。事實上,將晶體管縮小到更小,它們甚至變得更糟。制造大芯片不僅昂貴,而且比之前的一代更昂貴。
這張來自 AMD 的圖表描繪了一幅非常病態的畫面。雖然每個節點的轉變并不相同,但很明顯,在7nm 和 5nm 處,該行業已經達到了拐點。每產出平方毫米的成本增加幅度不是很小,而是很大。盡管節點轉換帶來了類似的密度增益,或者可能由于 SRAM 縮放速度放緩而更糟,但成本的增加并沒有跟上。與每晶體管成本相關的趨勢逆轉令業界震驚。這種逆轉具有巨大的影響,甚至導致無知的銀行家以此為理由,下調臺積電的評級,稱其估值過高。
摩根士丹利認為,由于摩爾定律正在放緩,晶體管成本縮放已經停止,臺積電的定價壓力將減弱。摩根士丹利通過一張可笑的圖表來證明這一點,該圖表顯示 5nm 的晶體管成本低于 7nm,這與業內專家形成鮮明對比。隨著 FinFET 節點的引入,每個晶體管的成本停滯不前,7nm 完全趨于穩定,而 5nm 則比以往任何時候都高。我們的讀者可以算一算,N7 晶圓約為 9500 美元,N5 晶圓約為16000美元。蘋果的芯片尺寸幾乎沒有下降,但他們付了錢。
因此,每個晶體管的成本仍在增加,但對計算的需求比以往任何時候都增加。我們轉向異構架構進行反擊,但現在芯片設計過程要困難得多。該行業必須依靠許多擁有不同 IP 的團隊按時交付并將其整合在一起。Synopsys 和 Cadence 等 EDA 供應商在協助方面做得非常出色,但這還不夠。對于沒有超過 1000 萬個單元用例的任何人來說,一個可以購買特定應用 IP 或芯片并將其集成到硬件設計中的開放生態系統是必要的。即使對于這些公司,小芯片風格的系統架構也是答案。
隨著我們繼續收縮,預期收益率會緩慢下降。這是一個合乎邏輯的結論,因為每個連續的節點都會增加約 35% 的流程步驟。當前沿流程在數千個流程步驟中進行衡量時,錯誤開始迅速堆積。工業公司喜歡談論“Six Sigma”,但這對半導體制造來說還不夠。讓我們假設一個有 2000 個工藝步驟的過程,每個步驟的每 cm2缺陷數為Six Sigma。那么D0(每 cm2缺陷率的行業術語)最終將是0.678。芯片越大,出現缺陷的可能性就越大。
如果這個假設的過程是構建英特爾的高端服務器 CPU,Ice Lake。這將導致每個晶片有 4 個良好的裸片和 76 個有缺陷的裸片。現在考慮這個分析是在 cm2水平上完成的,并且在前沿工藝節點上每 cm2有數十億個晶體管。半導體行業比Six Sigma好得多。
除了尺寸的完美之外,還有什么解決方案?
Chiplets——小芯片!將大籌碼分成許多小籌碼。
AMD 是這方面最受歡迎的例子,但這是整個行業的趨勢。AMD 可以設計 3 個芯片,一個CPU 核心小芯片和2 個 IO 芯片。這 3 種設計覆蓋了很大一部分市場。同時,英特爾設計了 2 個 Alder Lake 臺式機芯片和 3 個 Ice Lake 服務器芯片,以服務于相同的潛在市場。因此,AMD 可以節省設計成本,制造比英特爾更多內核的 CPU,并節省收益成本。
要演示 yield 參數,請參見下表。AMD將CPU 內核拆分為 8 個 CPU 內核小芯片。如果良率是 100%,英特爾將能夠以比 AMD 更低的每個 CPU 內核的成本制造內核。但相反,英特爾必須在每個 CPU 內核上花費更多,因為更大的芯片有更多的缺陷。下表有一些明顯的警告,其中最大的假設是缺陷芯片的收獲率為 0,并且英特爾和臺積電具有相同的 D0。這些假設都不是真的,這個練習是為了演示目的。
小芯片(Chiplet)很棒,但它不是孤立的解決方案。我們仍然遇到許多相同的問題。每個晶體管的成本仍在上升,設計成本飆升,由于需要更多 IO 來與其他芯片接口,小芯片被pad限制。由于 IO 限制,部分芯片無法拆分,因此芯片尺寸仍在達到峰值。
解決辦法是什么?
先進封裝!
這就是我們要注意的地方,一些工具供應商將所有倒裝芯片封裝稱為“先進封裝”。SemiAnalysis 和大多數業內下游人士不會這么說。因此,我們將所有凸點尺寸小于100 微米的封裝稱為“先進”。
最常見的先進封裝類別稱為扇出。有些人會爭辯說它甚至不是先進的封裝,但那些人大錯特錯。以Apple 為例,他們將讓臺積電采用應用處理器芯片,并將其與 90 微米到 60 微米數量級的更密集凸塊封裝到重組或載體晶圓/面板上。與傳統倒裝芯片封裝相比,凸點密度大約高出 8 倍。
這種重組或載體晶圓/面板然后進一步展開 IO,因此得名扇出。然后將扇出封裝連接到主板。硅芯片的設計可以減少對pad受限的擔憂,因為扇出處的pad較小。該封裝還可以封裝 DRAM 內存、NAND 存儲和PMIC。集成扇出不僅有利于密度,而且它們還在封裝上保留了大量的芯片間 IO。否則,該 IO 將不得不以更大的IO 間距尺寸通過主板進行接口。
集成扇出對于高性能應用程序變得越來越普遍,不僅僅是移動應用程序。增長最快的用例是在十多年來設計一直受到限制的事物的網絡方面。AMD 將在其服務器 CPU 和 GPU中非常積極地采用扇出。Tesla Dojo 1是集成扇出封裝的另一個引人注目的例子,但在晶圓級。SemiAnalysis透露,特斯拉將在發布公告前使用這種包裝類型。
在先進封裝中,有 2.5D 和 3D 封裝。2.5D 涉及封裝在其他硅片上的硅片,但較低的硅片專用于布線,沒有有源晶體管。這通常以55 微米到 50 微米的間距完成,因此凸點密度高出約 16 倍。最常見和最高容量的用例是具有 TSMC CoWoS(基板上晶圓上芯片)的 Nvidia 數據中心 GPU。臺積電將有源芯片封裝在只有互連和微凸點的晶圓上。然后使用傳統方法將這疊芯片封裝到基板上。
其他示例基本上包括每個帶有 HBM 的處理器。HBM 是作為一種階梯函數增加內存帶寬的方法而建立的,這種方法高于傳統形式的 DRAM。它通過使用更寬的內存總線來實現這一點。這些寬總線會產生與 IO 計數相關的問題,但 HBM 是從頭開始設計的,以便在同一包內共存。這顛覆了 IO 問題,同時也允許更緊密的集成。
2.5D 的更多示例包括基于Intel EMIB 的產品、Xilinx FPGA、AMD 最新的數據中心 GPU 和Amazon Graviton 3。
3D 封裝將一個有源芯片封裝在另一個有源芯片之上。這最初是由英特爾提供的55 微米間距的邏輯硅片,但批量用例將是 36 微米或更小。臺積電和 AMD 將推出 17 微米間距的 3d堆疊 V-cache。該技術從凸塊轉移到硅通孔 (TSV),并且具有更大的擴展空間。
索尼制造的 CMOS 圖像傳感器等其他應用已經采用 6.3 微米間距。為了繼續進行比較,36 微米間距的凸塊密度高 31 倍,以17 微米間距實現的銅 TSV 的 IO 密度高 138 倍,索尼的 6.3 微米間距的CMOS 圖像傳感器的 IO 密度高 567 倍標準倒裝芯片。
這只是對主要封裝類型的基本解釋,但我們將深入研究本系列中的不同類型的封裝。對未來的封裝類型、工具以及工具供應商有很多不同的賭注。設備和 IP 方面比人們乍一看想象的要興奮得多,但在我們深入研究之前,需要先解釋基礎知識。
對于即將到來的創新海洋,有很多可投資的想法和角度。摩爾定律的放緩正在推動根本性的變化。我們正處于先進封裝推動的半導體設計復興之中。
根據咨詢機構Yole Developpement數據,2021年半導體廠商在先進封裝領域的資本支出約為119億美元。
該機構表示,2021年先進封裝市場體量約為27.4億美元,同時預測該市場到2027年將實現19%的復合年化增長率,屆時先進封裝市場體量將達到每年78.7億美元。
根據該機構統計,2021年,英特爾投入35億美元支持其先進封裝技術Foveros和EMIB發展。
其他主要參與者包括在該領域投入30.5億美元的臺積電,以及投入20億美元的日月光。日月光憑借其FoCoS產品,是目前唯一具有超高密度扇出解決方案的OSAT。
(圖自英特爾)
先進封裝存在于成本和吞吐量與性能和密度的連續統一體上。盡管對先進封裝的需求顯而易見,但來自英特爾(EMIB、Foveros、Foveros Omni、Foveros Direct)、臺積電(InFO-OS、InFO-LSI、InFO-SOW、InFO-SoIS, CoWoS-S, CoWoS-R, CoWoS-L, SoIC), 三星 (FOSiP, X-Cube, I-Cube, HBM, DDR/LPDDR DRAM, CIS), 日月光 (FoCoS, FOEB), 索尼 (CIS)、美光 (HBM)、SK海力士 (HBM) 和 長江存儲 (XStacking) 的先進封裝類型和品牌數量驚人。我們經常談論的AMD、Nvidia 等公司也都使用這些封裝類型。
在本文中,我們將解釋所有這些類型的封裝及其用途。
倒裝芯片是引線鍵合后常見的封裝形式之一。它由來自代工廠、集成設計制造商以及外包組裝和測試公司的眾多公司提供。在倒裝芯片中,PCB、基板或其他晶片將具有著陸焊盤。然后將芯片準確地放置在頂部,凸起與著陸焊盤接觸,然后芯片被送到回流爐,回流爐加熱組件并回流到凸塊,將兩者粘合在一起。之后焊劑被清除掉,底部填充物沉積在兩者之間。這只是一個基本的工藝流程,有許多不同類型的倒裝芯片,包括但不限于無助焊劑。
雖然倒裝芯片非常普遍,但間距小于100微米的高級版本則不太常見。關于我們在第1部分中建立的先進封裝的定義,只有臺積電、三星、英特爾、Amkor和ASE涉及使用倒裝芯片技術的大量邏輯先進封裝。其中3家公司也在制造完整的硅晶圓,而另外兩家公司則是外包組裝和測試 (OSAT)。
這就是大量不同類型的倒裝芯片封裝類型開始出現的地方。我們將以臺積電為例,然后擴展并將其他公司的封裝解決方案與臺積電的封裝解決方案進行比較。臺積電所有封裝選項的最大區別在于基板材料、尺寸、RDL和堆疊。
在標準倒裝芯片中,最常見的基板通常是有機層壓板,然后用銅包覆。從這里開始,布線在兩側圍繞核心構建,討論最多的是味之素積層膜(ABF)。該內核在頂部構建了許多層,這些層負責在整個封裝中重新分配信號和功率。這些承載信號的層是使用干膜層壓和使用CO2激光器或紫外線激光器進行圖案化構建的。
這就是臺積電的專業知識開始在集成扇出 (InFO) 上發揮作用的地方。臺積電沒有使用ABF薄膜的標準流程,而是使用與硅制造更相關的工藝。臺積電將使用東京電子鍍膜機/顯影器、ASML光刻工具、應用材料銅沉積工具以光刻定義再分布層。再分配層比大多數OSAT能夠產生的更小、更密集,因此可以容納更復雜的布線。此過程稱為扇出晶圓級封裝 (FOWLP)。ASE是最大的OSAT,提供FoCoS(基板上的扇出芯片),這是一種FOWLP形式,它也利用了硅制造技術。三星也有他們的扇出系統封裝(FOSiP),主要用于智能手機、智能手表、通信和汽車。
借助 InFO-R (RDL),臺積電可以封裝具有高IO密度、復雜布線和多核芯片。使用InFO-R最常見的產品是蘋果iPhone和Mac芯片,但也有各種各樣的移動芯片、通信平臺、加速器,甚至網絡交換機ASIC。三星還憑借Cisco Silicon One在網絡交換機ASIC扇出市場上取得了勝利。InFO-R所取得的進步主要與具有更多功耗和IO的更大封裝尺寸相關。
?
有不少傳言稱AMD將為其即將推出的Zen 4客戶端(如上圖)和服務器CPU 提供扇出封裝。SemiAnalysis可以確認基于Zen 4的桌面和服務器產品將使用扇出。然后,這個扇出將傳統地封裝在標準有機基板的頂部,該基板的底部有LGA 引腳。封裝這些產品的公司以及轉向扇出的技術原因將在后面揭曉。
標準封裝將具有核心基板,然后在每側有2到5級重新分布層 (RDL),包括更高級的集成扇出。臺積電的InFO-SoIS(集成基板系統)將這一概念提升到了一個新的水平。它提供多達14個再分配層 (RDL),可在芯片之間實現非常復雜的布線。在靠近管芯的基板上還有一層更高密度的布線層。
臺積電還提供InFO-SOW(晶圓上系統),它允許扇出一整片晶圓的大小,該晶圓可以封裝幾十塊芯片。特斯拉Dojo1,它就利用了這種特殊的包裝形式。特斯拉還將在HW 4.0上使用三星FOSiP。
最后,在臺積電的集成扇出陣容中,還有InFO-LSI(本地硅互連)。InFO-LSI是 InFO-R,但在多個芯片下方有一塊硅。這種局部硅互連將作為多個芯片之間的無源互連開始,但它可以在未來演變為有源(晶體管和各種IP)。它最終也將縮小到25微米,但我們認為第一代不會出現這種情況。第一個采用這種封裝的產品將在后面展示。
腦海中浮現的最直接的對比很可能是英特爾的EMIB(嵌入式多芯片互連橋),但這并不是最好的選擇。它更像英特爾的Foveros Omni或ASE的FOEB。讓我們解釋一下。
英特爾的嵌入式多芯片互連橋放置在傳統的有機基板腔中,然后繼續構建襯底。雖然這可以由英特爾完成,但EMIB的放置和構建也可以由傳統的有機基板供應商完成。由于EMIB芯片上的大焊盤,以及沉積層壓布線和通孔的方法,不需要在基板上極其精確地放置芯片。
英特爾通過繼續使用現有的有機層壓板和ABF供應鏈,放棄了更昂貴的硅基板材料和硅制造工藝。盡管目前由于短缺而非常緊張,但總的來說,這條供應鏈是商品化的。自2018年以來,英特爾的EMIB一直在出貨,包括Kaby Lake G、各種FPGA、Xe HP GPU和包括Sapphire Rapids在內的某些云服務器CPU。目前所有EMIB產品都使用55微米,但第二代是45微米,第三代是40微米。
英特爾可以通過這個芯片將電源推送到上面的有源芯片。如果需要,英特爾還可以靈活地設計封裝以在沒有EMIB和某些小芯片的情況下運行。在英特爾 FPGA 的拆解后發現,如果英特爾發貨的SKU 有要求,英特爾不會放置EMIB和有源芯片。這允許圍繞某些部分的材料清單進行一些優化。最后,英特爾還可以通過僅在需要的地方使用硅橋來節省制造成本。這與臺積電的CoWoS形成鮮明對比,后者的所有芯片都放置在單個大型無源硅橋的頂部。稍后會詳細介紹,但臺積電的InFO-LSI和英特爾的EMIB之間的最大區別在于基板材料和制造工藝的選擇。
更復雜的是,日月光也有自己的2.5D封裝技術,與英特爾的EMIB和臺積電的InFO-LSI截然不同。它被用于AMD的MI200 GPU,該GPU將用于多臺高性能計算機,包括美國能源部的Frontier exascale系統。ASE的FOEB封裝技術與TSMC的InFO-LSI更相似之處在于它也是扇出。臺積電使用標準硅制造技術來構建RDL,一個主要區別是ASE使用玻璃基板面板而不是硅。這是一種更便宜的材料,但它還有一些其他的好處,我們將在后面討論。
ASE不是將無源互連管芯嵌入基板的空腔內,而是放置管芯,構建銅柱,然后構建整個RDL。在RDL之上,有源硅GPU芯片和HBM芯片使用微凸塊進行連接。然后使用激光釋放工藝將玻璃中介層從封裝中移除,然后在使用標準倒裝芯片工藝將其安裝到有機基板上之前完成封裝的另一面。
ASE 對 FOEB 與 EMIB 提出了許多想法,但有些是完全錯誤的。ASE 需要推銷他們的解決方案是可以理解的,但讓我們過濾掉噪音再來看看。EMIB的收益率不在80%到90%的范圍內,EMIB的收益率接近100%。第一代EMIB在芯片數量方面確實存在縮放限制,但第二代沒有。事實上,英特爾將發布有史以來最大封裝的產品,這是一種采用第二代EMIB的 92毫米 x 92毫米BGA封裝的先進封裝。通過在整個封裝中使用扇出和光刻定義的RDL,FOEB在布線密度和芯片到封裝凸塊尺寸方面確實保留了優勢,但這也更加昂貴。
與臺積電相比,最大的區別似乎是最初的玻璃基板材料與硅。部分原因可能是由于ASE的成本受到更多限制。ASE必須以更低的成本提供出色的技術來贏得客戶的青睞。臺積電是芯片大師,專注于他們熟悉的技術,臺積電有將技術推向極致的文化,在這種推動下,他們最好選擇硅。
現在回到臺積電的其他先進封裝選項。CoWoS平臺還有CoWoS-R和CoWoS-L平臺。它們與InFO-R和InFO-L幾乎一比一對應。這兩者之間的區別更多地與過程有關。InFO是一個芯片優先的工藝,首先放置芯片,然后構建圍繞它構建RDL。使用CoWoS,先構建RDL,然后放置芯片。對于大多數試圖理解先進封裝的人來說,這種區別并不那么重要,所以今天我們將比較輕松地討論這個話題。
最引人注目的是CoWoS-S(硅中介層)。它涉及采用已知良好的芯片,將其倒裝芯片封裝到無源晶圓上,該晶圓上具有圖案化的導線。這就是CoWoS這個名字的由來,Chip on Wafer on Substrate。它是目前容量最大的2.5D封裝平臺。如第1部分所述,這是因為P100、V100和A100等英偉達數據中心GPU使用CoWoS-S。雖然英偉達的銷量最高,但博通 TPU、亞馬遜 Trainium、NEC Aurora、Fujitsu A64FX、AMD Vega、賽靈思 FPGA、Intel Spring Crest和Habana Labs Gaudi只是CoWoS使用的幾個值得注意的例子。大多數采用HBM計算的重型芯片,包括來自各種初創公司的AI訓練芯片都使用CoWoS。
為了進一步強調CoWoS的普及程度,我們要談到AIchip。AIchip是一家中國臺灣設計和IP公司,主要利用臺積電的CoWoS平臺進行與AI芯片相關的EDA、物理設計和產能工作。
臺積電甚至沒有參加CoWoS容量相關的所有會議,因為臺積電已經銷售了他們制造的所有產品,而且支持所有這些設計需要太多的工程時間。另一方面,臺積電的客戶集中度很高,因此臺積電希望與其他公司合作。AIchip有點像中間人,即使一級客戶預訂了所有東西,AIchip仍然獲得了一些庫存量。但他們也只能得到他們想要的50%。
讓我們來看看英偉達在做什么。在第三季度,他們的長期供應付款躍升至 69億美元,更重要的是,英偉達預付了16.4億美元,并將在未來再支付17.9美元。英偉達正在大量的超前預定供應產能,特別是針對CoWoS。
回到技術上,CoWoS-S多年來經歷了演變,主要標志是中介層面積變大。由于 CoWoS平臺使用硅制造技術,因此它遵守“光罩限制”的原則。使用193nm ArF光刻工具可打印的最大芯片尺寸為33mm x 26mm (858平方毫米 )。硅中介層被光刻定義其主要用途,就是連接位于其頂部的芯片的非常密集的電線。英偉達的芯片本身早已接近標線限制,但仍需要連接到封裝的高帶寬內存。
?
上圖包含Nvidia V100,英偉達4年前推出的GPU,面積為 815平方毫米。一旦包含HBM,它就超出了光刻工具可以打印的光罩限制,但臺積電想出了如何連接它們的辦法。臺積電通過光罩拼接的方法來實現這一點。臺積電在這里增強了他們的能力,可以為硅中介層提供3倍大小的掩模版。鑒于標線縫合的局限性,英特爾EMIB、臺積電LSI 和ASE FOEB方法具有優點。他們也不必為一個大型硅中介層支付高昂費用。
除了增加掩模版尺寸外,他們還進行了其他改進,例如將微凸塊從焊料改為銅以提高性能/功率效率、iCap、新的TIM/lid封裝等。
關于TIM/lid封裝有一個有趣的故事。借助Nvidia V100,英偉達擁有了一個無處不在的HGX平臺,該平臺將運送到許多服務器ODM,然后發送到數據中心。可以應用于冷卻器螺釘以實現正確安裝壓力的扭矩是非常具體的。這些服務器ODM在這些價值1萬美元的GPU上過度擰緊了冷卻器和芯片。英偉達將他們的A100換了一種封裝,這種封裝在芯片上有一個lid,而不是直接進行芯片冷卻。當英偉達的A100和未來的Hopper DC GPU 仍然需要散發大量熱量時,這種封裝的問題就會出現。臺積電和英偉達必須在封裝上進行很多優化來解決這個問題。
三星也有類似于CoWoS-S的I-Cube技術。三星使用這種封裝唯一主要客戶是百度的人工智能加速器。
?
Foveros技術
接下來我們介紹Foveros,這是英特爾3D芯片堆疊技術。Foveros不是一個芯片在另一個芯片上處于活動狀態,而是說另一個芯片本質上只是密集的電線,Foveros涉及兩個包含有源元件的芯片。有了這個,英特爾的第一代Foveros于 2020年6月在Lakefield混合CPU SOC中推出。這款芯片并不是特別大的容量或令人嘆為觀止,但它是英特爾許多首創的芯片,包括3D封裝和他們的第一個混合CPU內核具有大性能核心和小效率核心的架構。它使用了55微米的凸點間距。
?
下一個Foveros產品是Ponte Vecchio GPU,經過多次延遲,應該會在今年推出。它將包括與EMIB 和Foveros 一起封裝的47個不同的有源小芯片。Foveros 芯片到芯片的連接采用36微米的凸點間距。
未來,英特爾的大部分客戶端陣容將使用3D堆棧技術,包括代號Meteor Lake、Arrow Lake、Lunar Lake的客戶端產品。Meteor Lake將是第一款具有 Foveros Omni和36微米凸點間距的產品。第一個包含3D堆棧技術的數據中心CPU代號為Diamond Rapids,緊隨Granite Rapids而來。我們將在本文中討論其中一些產品使用哪些節點以及英特爾與臺積電的關系。
?
Foveros Omni的全稱是Foveros Omni-Directional Interconnect (ODI)。它彌合了EMIB和Foveros之間的差距,同時還提供了一些新功能。Foveros Omni可以用作兩個其他芯片之間的有源橋接芯片,作為完全位于另一個芯片下方的有源芯片,或在另一個芯片頂部但懸垂的有源芯片。
Foveros Omni 從未像EMIB那樣嵌入到基板內部,它在任何情況下都完全位于基板之上。堆的類型會導致一個問題,即封裝基板與位于其上的芯片連接高度不同。英特爾開發了一種銅柱技術,可讓他們將信號和功率傳輸到不同的z軸高度并通過芯片,因此芯片設計人員在設計3D異構芯片時可以有更多的自由度。Foveros Omni 將以36微米的凸點間距開始,但在下一代將下降到 25 微米。
我們要注意的是,DRAM還使用了先進的3D封裝。HBM多年來一直在三星、SK海力士和美光使用先進封裝。這些存儲單元被制造并連接到TSV上,這些 TSV被暴露出來并形成了微凸點。最近,三星甚至開始引入DDR5和LPDDR5X堆棧,它們利用類似的堆棧技術來提高容量。SK海力士HBM 3將把垂直堆疊的12個芯片混合鍵合,每個芯片的厚度為30微米,并帶有混合鍵合TSV。
混合鍵合是一種不使用凸點的技術,芯片通過硅通孔直接連接。如果我們回到倒裝芯片工藝,就不會有凸起形成、助焊劑、回流或模子下填充芯片之間的區域。銅直接與銅相遇。實際過程非常困難,上面部分詳細介紹了這一過程。在本系列的下一部分中,我們將深入探討工具生態系統和混合鍵合的類型。混合鍵合比之前描述的任何其他封裝方法都能實現更密集的集成。
最著名的混合鍵合芯片當然是最近宣布的AMD 3D堆棧緩存,該芯片將于今年晚些時候發布。它利用了臺積電的SoIC技術。英特爾的混合鍵合品牌名為Foveros Direct,三星的版本名為X-Cube。Global Foundries公布了使用混合鍵合的Arm測試芯片。銷量最高的混合鍵合半導體公司不是臺積電,今年甚至明年也不會是臺積電。生產混合鍵合芯片最多的公司實際上是擁有CMOS圖像傳感器的索尼(Sony)。事實上,假設你有一部高端手機,你的口袋里可能就有一個包含混合鍵合CMOS圖像傳感器的設備。如第1部分所述,索尼已將間距縮小至6.3微米,而AMD的V-cache的間距為17微米。
目前,索尼推出了2堆棧和3堆棧版本。在2堆棧中,像素位于電路的頂部。在3堆棧版本中,像素堆疊在電路頂部的DRAM緩沖緩存的頂部。隨著索尼希望將像素晶體管從電路中分離出來,并用多達4層的硅制造出更先進的相機,進步仍在繼續。上面的圖片展示了索尼的順序堆疊,其間距為0.7微米。
另一個即將到來的混合鍵合的大批量應用來自長江存儲技術公司的Xtacking。長江存儲使用晶圓對晶圓鍵合技術將CMOS外圍堆疊在NAND門下方。我們在這里詳細介紹了這項技術的好處,但簡而言之,與包括三星、SK海力士、美光、Kioxia和西部數據在內的任何其他NAND制造商相比,它允許長江存儲在給定NAND層數的情況下安裝更多NAND單元。
先進封裝的互聯技術:UCIe——通用芯粒高速互連
什么是UCIe?? ??
UCIe——通用芯粒高速互連(Universal Chiplet Interconnect Express,以開放的高級接口總線為基礎,旨在推行開放的芯粒(Chiplet)間互連標準,稱之為UCIe標準,由Intel首先提出,并將其作為一個開放規范,共享給聯盟的創始成員。
UCIe標準定義了封裝內芯粒之間的互連,以實現封裝層級的開放芯粒生態系統和普遍的互連。
?
UCIe有哪些初始成員?? ??
英特爾、日月光(ASE)、AMD、Arm、谷歌云、Meta、微軟、高通、三星、臺積電,共10個初始成員。 分別代表了Fabless、Foundry,OSAT和IP提供商四大領域。
UCIe帶來封裝級別的極致集成? ??
我們知道,電子封裝的歷史(1947)比集成電路(1958)早了11年,但封裝內集成的歷史卻遠遠短于集成電路,大約比集成電路晚了三十多年,但隨著SiP、先進封裝、Chiplet等技術的出現,封裝內集成技術的發展速度非常迅猛。 UCIe標準的設立會帶來封裝級別極致的集成,例如英特爾Ponte Vecchio高性能GPU,就結合了5種工藝、47個不同功能的子芯片/芯粒,整體包含了超過1000億個晶體管。
UCIe帶來芯片設計思路的重大改變? ??
在傳統大規模集成電路設計時,設計者把整個電子系統集成在一個芯片中,微處理器、模擬IP核、數字IP核,存儲器或片外存儲控制接口,都被集成在單一芯片上,形成一顆SoC上,并使用同一種工藝制造。
UCIe標準形成后,同樣以設計一顆SoC為例,不用再把處理器、IP核、存儲器或外存接口設計在同一個晶圓平面,而是可以把他們分別設計成不同的Chiplet,然后再通過先進封裝技術封裝在一起,形成一個完整的芯片系統。
請參考前期文章:集成電路設計的“新思路”
UCIe帶來集成電路產業的重大變革????
集成電路產業包括芯片設計、芯片制造、封裝測試三大領域,其代表廠商分別屬于Fabless、Foundry、OSAT,目前,在UCIe的首發團隊中都已經聚齊了。 另外,作為IP提供商的龍頭企業arm也是UCIe初始成員,可以預測不遠的將來,arm除了提供IP授權之外,也會提供Chiplet給芯片設計企業。 我們曾經給出過Chiplet的極簡定義:當IP以硅片的形式提供時,就是Chiplet。
隨著更多廠商的加入以及UCIe標準的成熟和推進,UCIe必將帶來集成電路產業的重大變革!
先進封裝與異構集成
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
? ? ? ?
編輯:黃飛
?
評論
查看更多