前言:這次是酷睿Ultra 不是14代酷睿
8月底去了趟馬來西亞,一方面參觀了Intel位于馬來西亞檳城、居林的封測工廠、實驗室,另一方面參加了Meteor Lake技術(shù)分享,全面了解了第一代酷睿Ultra處理器的架構(gòu)設計、技術(shù)特性。
現(xiàn)在,終于可以和大家分享了!
首先再“科普”一下1代酷睿Ultra、14代酷睿的關(guān)系,因為Intel這次的產(chǎn)品和命名體系確實有點混亂,別說普通玩家,很多業(yè)內(nèi)人士也一直分不清……
今年6月15日,Intel正式公布了全新的酷睿Ultra品牌,第一代產(chǎn)品代號Meteor Lake,采用全新的Intel 4制造工藝和封裝技術(shù)、全新的分離式模塊化架構(gòu)、全新的CPU架構(gòu)與3D高性能混合架構(gòu)、全新的銳炫GPU核顯、全新的NPU AI引擎,可以說是Intel第一顆微處理器4004 1971年誕生以來,變革最大的一代。
不過比較可惜,Intel 4工藝第一次登場和之前的14nm、10nm有些類似,性能上還未達到足夠高的水準,所以只能用于筆記本移動平臺的主流H系列、低功耗P系列,分為酷睿Ultra 9/7/5三個子系列。
對于桌面S系列、頂級游戲本HX系列,將在原有Raptor Lake 13代酷睿的基礎上進行升級,包括增加E核并擴大緩存、提升頻率、加速內(nèi)存等,也就是Raptor Lake Refresh 14代酷睿,繼續(xù)使用LGA1700接口,繼續(xù)兼容600/700系列主板,分為酷睿i9/i7/i5/i3四個子系列。
此外,超低功耗的U系列也會是13代酷睿升級版,但命名為一代酷睿(注意沒有任何后綴),分為酷睿7/5/3三個子系列。
今天的主角,就是Meteor Lake酷睿Ultra,但這一次,我們只講它的架構(gòu)設計、制造和封裝工藝、技術(shù)特性。
具體的型號命名、規(guī)格參數(shù)、性能跑分,將在12月14日正式發(fā)布的時候公開。
14代酷睿預計還是分為兩步走,其中高端的K/KF系列下個月首先登場,主流和低功耗系列大概率也要到CES 2024。
總體架構(gòu)設計:極具創(chuàng)意、極高效率的分離式模塊
酷睿Ultra處理器是Intel在消費級市場上第一次采用分離式模塊化架構(gòu),將傳統(tǒng)的單芯片一分為四,分別叫做計算模塊(Compute Tile)、SoC模塊(SoC Tile)、圖形模塊(GPU Tile)、IO模塊(IO Tile),如同搭積木一般。
這其實就是我們已經(jīng)見過很多次的Chiplet(小芯片/芯粒),Intel Sapphire Rapids第四代可擴展至強處理器、Ponte Vecchio GPU加速器就都是這種設計,AMD更是銳龍、霄龍、Radeon、Instinct全線都在用。
酷睿Ultra當然不是簡單粗暴地將整個芯片分開,而是精心地進行了各種優(yōu)化設計,比如重組計算密集型IP、增加低功耗AI核心、重建電源管理模塊、提升IO帶寬與擴展性等等,再結(jié)合不同的先進制造工藝、封裝技術(shù),實現(xiàn)了性能、能效的飛躍。
計算模塊,就是CPU核心與緩存,包括最多6個全新Redwood Cove架構(gòu)的P核(性能核)、最多8個全新Crestmont架構(gòu)的E核(能效核)。
它首次采用了Intel最先進的Intel 4制造工藝,也是酷睿Ultra四大模塊中唯一使用該工藝的。
其他三個模塊的具體情況暫未公開,目測大概率是臺積電的5-7nm,甚至不排除IO模塊使用更成熟的12nm。
圖形模塊就是核顯,升級到了全新的Xe LPG架構(gòu),和桌面上的銳炫Arc A系列的Xe HPG架構(gòu)同宗同源,并針對低功耗做了優(yōu)化,性能和能效都有了飛躍。
但是,這里只有GPU圖形渲染相關(guān)單元,以前在一起的媒體引擎、顯示引擎都搬到了SoC模塊,顯示物理層則搬到了IO模塊。
SoC模塊不是傳統(tǒng)意義上的System on Chip,但同樣集成了眾多功能模塊,包括低功耗E核(LPE)、NPU AI獨立引擎、內(nèi)存控制器、無線控制器、媒體引擎、顯示引擎、安全引擎、圖像信號處理器、電源管理單元、系統(tǒng)代理、IO緩存(IOC)等等。
尤其是其中的兩個低功耗E核,也就是LPE核,和計算模塊的P核、E核聯(lián)合構(gòu)成了全新的3D高性能混合架構(gòu)。
這也是Intel 12代酷睿首次引入混合架構(gòu)之后,最為重大的一次變革。
IO模塊當然就是負責輸入輸出連接了,包括雷電4控制器、PCIe 5.0控制器,但不僅于此。
如前所述,Chiplet設計不是簡單地把一顆大芯片拆成多顆小芯片那么簡單,需要在多個層面進行新的思考與優(yōu)化。
首先就是不同芯片、不同功能單元之間的通信如何才能達到最高效率,不能出現(xiàn)“交通擁堵”反而造成通信效率的下降,直接拖累性能。
比如在以往的設計中,媒體引擎、顯示引擎一直都和圖形引擎同時集成于圖形模塊之中,以至于我們一直默認它們就是一個整體,而且通過同一條環(huán)形交叉總線和CPU核心、緩存、內(nèi)存相連,仿佛“華山一條道”。
但其實,它們都是在不同場景下執(zhí)行不同的工作,并不需要同時開啟,比如看視頻和玩游戲就是完全不一樣的。
同時,無論圖形引擎還是媒體引擎,但它們需要訪問內(nèi)存的時候,CPU核心就不得不都陪著保持開啟狀態(tài)。
酷睿Ultra將媒體引擎、顯示引擎都轉(zhuǎn)移到了SoC模塊中,而且彼此是獨立的,也不再依賴于CPU核心即計算模塊。
如此一來,所有的IP都可以通過單獨的路徑分別訪問內(nèi)存,也都可以獨立開啟或者關(guān)閉。
比如看視頻的時候,只需要開啟顯示引擎、媒體解碼,其他部分就都可以關(guān)掉。
隨著芯片規(guī)模的增大、功能的豐富,無論是單芯片設計還是多芯片設計,都面臨同樣的IO通信帶寬與效率問題,稍有不慎就容易成為瓶頸。
酷睿Ultra這樣的分離式模塊架構(gòu)上,隨著媒體與顯示引擎分離、低功耗E核加入、NPU AI單元加入,依次連接不同單元的的傳統(tǒng)單一直連總線顯然已經(jīng)無法滿足如此眾多、多樣的通信需求。
一種解決方法是為每個IP單元加入相應的通信通道,但這一方面會大大增加設計的復雜度,另一方面也不夠靈活,未來如果要調(diào)整或加入更多單元又得重新設計。
Intel的解決方案分為兩部分,一是帶寬高達128GB/s的全新可擴展交叉總線,以其為中心直連各個單元模塊,二是單獨設計的IO緩存(IOC),統(tǒng)一管理所有的IO排序與尋址轉(zhuǎn)換。
這種設計不僅可以解決傳輸帶寬與延遲問題,而且是非常彈性的,未來有更高的需求,可以輕松提升帶寬、增加緩存。
12代酷睿引入的混合架構(gòu),提高了不用負載計算的靈活性,但也存在一個問題,那就是哪怕輕量級負載,也得讓整個CPU計算部分保持開啟狀態(tài),造成極大的浪費,這也是12/13代酷睿筆記本續(xù)航普遍不佳的一個關(guān)鍵原因。
酷睿Ultra的解決方法是在SoC模塊中,引入了一個低功耗計算島,包括2個低功耗E核,它的架構(gòu)和常規(guī)E核相同,只是頻率和功耗更低,專門負責單獨處理一些連常規(guī)E核都用不到的特別輕的負載任務。
比如看視頻的時候,有了低功耗E核的掌控,不但SoC模塊里的其他單元可以休息,媒體模塊、計算模塊、IO模塊更是可以全部關(guān)掉,從而節(jié)省非??捎^的功耗,極大地延長續(xù)航。
然后是電源管理部分,進行了徹底的重組,隨著不同芯片的分離而分離,在四大模塊中都有單獨的電源管理單元。
其中,SoC模塊上的處于核心地位,不但管理所在的SoC模塊,還通過新的高帶寬、低延遲、可擴展交叉總線,與其他模塊上的電源管理單元聯(lián)系在一起,起到協(xié)調(diào)溝通的作用,保證集體行動的一致性。
另外,SoC上的電源管理單元還負責與系統(tǒng)、軟件層面的聯(lián)絡,實現(xiàn)軟硬件的協(xié)調(diào)一致和高效率。
總的來說,酷睿Ultra在非核心部分做了大量的改進工作,成就了有史以來最高效的設計,尤其是在架構(gòu)、電源管理方面做了多方面的大膽嘗試,也為未來發(fā)展奠定了基礎。
接下來,我們再深入各個不同的模塊,看看它們都是怎么設計和工作的。
三種CPU核心:3D混合架構(gòu) 關(guān)鍵在于調(diào)度
其實,單純的計算模塊沒什么好講的(緩存容量都暫未公開),最大的變化來自于SoC模塊中新增的兩個低功耗E核(LPE),專門用于處理器輕負載任務,能夠讓整個計算模塊可以按需關(guān)閉,節(jié)省功耗。
這兩個LPE核心,加上內(nèi)存子系統(tǒng)、媒體引擎、顯示引擎、IPU單元、NPU單元、可擴展交叉總線等,共同構(gòu)成了所謂的低功耗島(Low Power Island)。
Intel稱之為3D性能混合架構(gòu)。
兩個LPE核與E核、P核雖然位置不同,但地位是相等的,對于系統(tǒng)也都是透明的,所以會在Windows任務管理器中會看到三種核心及其各自的使用率。
目前已知酷睿Ultra的最高規(guī)格是6+8+2核心,也就是6個P核、8個E核、2個LPE核,組成16核心22線程。
當然,這種更復雜的混合架構(gòu),非常依賴軟硬件兩個層面的調(diào)度優(yōu)化,比如操作系統(tǒng)當時最好使用最新版的Windows 11。
與此同時,Intel對線程調(diào)度器做了大幅的革新,比如增強的系統(tǒng)反饋機制、增強的模塊間能效分配、動態(tài)的IP間功耗分配、基于SoC運行時能力的更新、基于系統(tǒng)運行模式與硬件特性的指導,等等。
需要強調(diào)的是,線程調(diào)度器并不是直接調(diào)度線程的,不會直接把某個線程分配到某個核心上,嚴格來說是介于處理器硬件、Windows系統(tǒng)軟件中間的一層機制,基于P核、E核、LPE核的實時狀態(tài)與能力,向操作系統(tǒng)進行反饋、推薦,由操作系統(tǒng)最終決定線程的分配。
如上圖,Intel和微軟聯(lián)合對不同的線程負載進行了分類,其中Class 0代表在P核、E核上執(zhí)行時的每時鐘周期指令數(shù)基本一致,也就是讓誰跑都無所謂,就看誰閑著。
Class 1代表P核執(zhí)行效率高于E核,比如大部分浮點運算,會優(yōu)先分配給P核,如果P核不夠用了也可以分一些給E核。
Class 2則代表P核執(zhí)行效率遠大于E核,比如AI運算,就必須讓P核來做。
Class 3是新增的,代表那些在LPE核上的執(zhí)行效率與能效反而更高。
線程調(diào)度器會隨時將這樣的指令/線程分類反饋給系統(tǒng)調(diào)度器,然后共同形成一份“表格”,對線程負載進行打分,在多大程度上追求高性能(Perf)還是追求高能效(EE),再結(jié)合每個核心當前的實時能力,決定讓哪個核心執(zhí)行哪個指令。
這樣的反饋和推薦機制是實時的,還會根據(jù)當下的功耗情況,甚至某個核心是不是剛剛執(zhí)行完一條指令,動態(tài)報告給操作系統(tǒng)。
就是這樣一套機制,可以盡可能保證在正確的時間,讓正確的核心運行正確的線程,保證硬件效率的最大化。
舉個例子:一個前端應用需要高性能,它有四個線程分配給P核,然后有兩個輕負載的線程分配給E核。
之后經(jīng)過一段時間,P核上的四個線程執(zhí)行完畢,E核上的兩個線程還在執(zhí)行。
此時,線程調(diào)度器很可能就會建議系統(tǒng)將這兩個線程轉(zhuǎn)移到LPE核上,然后關(guān)掉整個計算模塊。
再比如,有兩個線程正運行在LPE核上,此時SoC模塊開啟、計算模塊關(guān)閉,然后來了四個要求高性能的線程,于是計算模塊打開,它們被分配到P核上。
這個時候,線程調(diào)度器就會提出建議,將LPE核上的兩個核心轉(zhuǎn)移到E核上繼續(xù)執(zhí)行,同時就可以關(guān)閉SoC模塊上的LPE核以及相應的內(nèi)部總線。
酷睿Ultra的這種設計無疑是為了進一步提高能效,使用最合適的核心運行最合適的負載。
同時它還加入了專門的NPU AI引擎,可以非常高效地持續(xù)執(zhí)行一些AI推理任務負載,無需動用CPU核心,可以讓后者隨時關(guān)閉。
正是這些設計,使得Intel喊出了酷睿Ultra是其史上能效最高的消費級處理器,讓我們對酷睿Ultra筆記本的續(xù)航充滿了期待。
圖形與媒體:全新架構(gòu)2倍性能 第二家支持光追
酷睿Ultra整體上采用了分離式模塊架構(gòu),CPU、GPU也各自都進行了分離,前者就是剛才說的SoC模塊上的LPE核。
GPU部分的分離更加徹底,甚至可以說GPU這個概念都模糊了:
獨立的圖形模塊部分,現(xiàn)在是純粹的圖形渲染單元,而媒體引擎、顯示引擎轉(zhuǎn)移到了SoC模塊,顯示物理層則轉(zhuǎn)移到了IO模塊,彼此再進行高效互連。
這樣一來,不同的功能模塊在不同的地方各司其職,方便按需開關(guān)。
酷睿Ultra GPU架構(gòu)來自于獨立顯卡Arc A系列使用的Xe HPG,同樣支持最新的DX12 Ultimate,同時針對低功耗整合做了調(diào)整和優(yōu)化,命名為Xe LPG,可以做稱之為兼具低功耗和高性能的Xe架構(gòu)。
Intel聲稱,它的能效相比12/13代酷睿上使用的Xe LP低功耗架構(gòu)的銳炬Xe核心,提升了足足兩倍。
事實上,近些年每次核顯架構(gòu)換代,都能帶來能效的翻倍——不是性能翻倍。
酷睿Ultra的核顯最多有8個Xe核心,也就是128個適量引擎,可以粗略地理解為128個執(zhí)行單元,比現(xiàn)在的96個增加了1/3。
這已經(jīng)超越了入門級獨立顯卡Arc A310 6個Xe核心的規(guī)模,達到了Arc A380相同的水平,當然受制于頻率、功耗,性能會低于Arc A380。
同時,它還有2條幾何流水線、8個采樣器、4個像素后端、8個光追加速器——是的,它有光追!
這也是AMD銳龍6000系列上的Radeon 680M之后,第二家支持硬件光追的核顯。
當然,這種級別的核顯不能指望流暢運行光追游戲,哪怕有XeSS的加持也不行,但做一些光追加速渲染創(chuàng)作還是很有效率的。
按照Intel的說法,酷睿Ultra核顯利用硬件光追運行Blender,性能相比純CPU要快上2倍多。
此外,Xe LPG架構(gòu)的頻率/電壓曲線相比上代Xe LP更加高效,比如同樣達成1GHz頻率,所需最低電壓僅為0.55V左右,降低了接近四分之一。
比如同樣的0.8V左右電壓下,Xe LPG的運行頻率可以大大超過2GHz。
媒體引擎部分和Xe HPG架構(gòu)同樣強大,最高支持8K60 10-bit HDR解碼、8K 10-bit HDR編碼,視頻格式支持VP9、AVC、HEVC(H.265)、AV1等等。
針對基本視頻播放與流媒體、基本視頻編輯與云游戲、生產(chǎn)力創(chuàng)作與桌面捕捉共享、高級視頻編輯、AI推理等不同場景,也支持不同級別的編解碼格式。
顯示輸出部分也不遑多讓,支持最新的HDMI 2.1、DP 2.1 20Gbps、eDP 1.4等輸出格式,最高分辨率可達單屏8K60 HDR、四屏4K60 HDR、慢動作1080p360/2K360。
可以說,無論圖形渲染,還是視頻編解碼、輸出顯示,酷睿Ultra的核顯都達到了一個新的高端,真正可以全面媲美入門級獨立顯卡。
NPU AI引擎:專業(yè)的人高效做專業(yè)的事
這是一個AI無處不在的時代,Intel一貫以來的XPU戰(zhàn)略,更是水到渠成地在從軟到硬全線推進AI。
與此同時,AI的使用場景也在迅速從云側(cè)向邊緣和端側(cè)延伸,AI PC的應用場景和需求突飛猛進,包括智能語音降噪、視頻背景模糊、超分辨率、游戲精彩時刻智能截取、大語言模型對話,以及文生圖、圖生圖、文生視頻等等AIGC場景。
酷睿Ulra首次引入了神經(jīng)網(wǎng)絡單元NPU,所有型號都有,可以從CPU、GPU接手持續(xù)的、低負載的AI工作,通過專門功能硬件高效運行,而且功耗極低。
酷睿Ultra NPU單元既可以執(zhí)行固定功能任務,也可以做可編程計算,就看實際需求了,同時也支持混合精度數(shù)據(jù),并提供標準化的編程接口。
同時,快速響應、低延遲的CPU,高性能、高吞吐量的GPU,也都會閑著,同樣擔負部分AI算力需求,比如CPU適合輕量級的單次推理,GPU適合多媒體、3D渲染,三者合作共同推進AI PC。
尤其是Xe LPG架構(gòu)的新一代核顯,與銳炫顯卡一樣支持DP4a指令,同樣可用于AI加速。
它面向整數(shù)類型處理,可以與浮點流水線并行,在每個時鐘周期內(nèi)可以執(zhí)行多達64次INT8整數(shù)運算,并支持32位累加,也就是融合成INT32整數(shù)類型,再加上更高的頻率,執(zhí)行效率得以大大提升。
比如輕量級的神經(jīng)網(wǎng)絡模型MobileNet v2,在非常低的復雜度下,CPU的效率是極高的。
但是,隨著復雜度的增加,CPU很快就跟不上了,這個時候就要看NPU的發(fā)揮,在高復雜度下的效率遠超CPU,而且非常穩(wěn)定。
Stable Diffusion這樣的典型文生圖AI應用,NPU執(zhí)行起來更是得心應手,效率可以全面遠遠超越CPU、GPU。
Intel官方實測,完全使用NPU進行推理,所需時間不到CPU的一半,會略長于GPU,但所需功耗比它倆都低得多,相對效率可以達到CPU的幾乎8倍、GPU的2倍多。
NPU還可以和CPU、GPU配合,各自承擔不同的任務,綜合起來大大節(jié)省所需時間和功耗,效率可以做到CPU的多達5倍、GPU的接近2倍。
在硬件架構(gòu)上,NPU最關(guān)鍵的就是兩路神經(jīng)計算引擎和推理流水線,包括MAC陣列、可編程DSP、激活函數(shù)、數(shù)據(jù)轉(zhuǎn)換、存儲與載入等單元,同時搭配DMA引擎、暫用內(nèi)存單元,構(gòu)成一個完整的神經(jīng)神經(jīng)網(wǎng)絡引擎,可以支持多種神經(jīng)網(wǎng)絡模型。
其中,MAC陣列可以高效靈活地執(zhí)行矩陣乘法和卷積運算,每周期多達2048,支持INT8、FP16數(shù)據(jù)類型。
通俗地講,NPU就是通過專用硬件單元,讓專業(yè)的“人”做專業(yè)的“事”,效率自然高得多,當然專用性也意味著一方面缺乏通用性,另一方面需要專門適配。
換言之,AI硬件是容易做的,真正難的是軟件和場景適配、優(yōu)化,如何充分釋放硬件潛力。
在這方面,Intel的影響力和號召力就體現(xiàn)得淋漓盡致了,一方面與微軟深度合作,全面導入Office、Windows Studio Effects、Teams、DirectML,另一方面整個行業(yè)都在積極跟進。
不但有Adobe、Zoom、Webex、Blender、CyberLink、杜比、虛幻引擎這樣的國際大牌,也有字節(jié)跳動、騰訊、虎牙直播、愛奇藝這樣的國內(nèi)巨頭。
這也得益于Intel全面、成熟、易用的配套軟件開發(fā)平臺,從驅(qū)動程序到庫、編譯器再到OpenVINO這樣的頂層API,都全面針對CPU、GPU、NPU AI應用提供支持,大大簡化和加速開發(fā),開發(fā)者也可以根據(jù)自己的應用和場景需求,靈活選擇最合適、最高效的執(zhí)行途徑。
比如Microsoft Teams/Studio Effects就借助從NPU硬件到OpenVINO引擎的體系來優(yōu)化音頻、視頻的AI加速,Adobe CC通過DirectML API發(fā)揮GPU的能力,視頻分析工作則可以同時借助NPU、GPU的力量。
Intel 4制造工藝:感受下EUV的力量
再好的硬件設計,沒有及時、成熟的制造工藝,只能停留在紙面上。
早些年,Intel走的是Tick-Tock策略,逐年交替升級工藝和架構(gòu),后來大家都知道,逐漸慢了下來。
而今在基辛格的領導下,Intel正在近乎瘋狂地提速,要在四年內(nèi)實現(xiàn)五個制程節(jié)點,而且靈活地開放外包與代工,除了用自己工藝造自家產(chǎn)品,還會引入合適的外部工藝制造部分產(chǎn)品或模塊,并為其他客戶制造產(chǎn)品。
Intel 4已經(jīng)在酷睿Ultra上投入量產(chǎn)并在提升產(chǎn)能。
Intel 3將在Intel 4的基礎上,進一步提升設計庫密度,更多地應用EUV極紫外光刻技術(shù),增加驅(qū)動電流的晶體管并降低通孔電阻。
現(xiàn)已做好生產(chǎn)準備,將用于明年的Sierra Forest、Granite Rapids兩大至強產(chǎn)品線,前者最多288個E核。
Intel 20A將進入埃米時代,首發(fā)PowerVia背部供電技術(shù)、RibbonFET全環(huán)繞柵極晶體管技術(shù),用于未來兩代酷睿Arrow Lake、Lunar Lake,將按計劃在2024年做好投產(chǎn)準備。
Intel 18A就是20A的升級版,能效繼續(xù)提升10%,奪回Intel在制程工藝方面的領導地位。
它既會用于自家的消費級Panther Lake、服務器級Clearwater Forest,外部代工也已拿下Arm、愛立信等客,預計2025年投產(chǎn)。
再往后,Intel將會用上ASML的下一代高NA EUV***。
一臺典型的EUV***價格超過16億元,重達180噸,需要4架波音747飛機和35輛卡車才能運輸,還需要加固的地板和更高的天花板才能安裝固定,目前只有荷蘭ASML才能制造。
Intel 4工藝的技術(shù)細節(jié)非常豐富,但因為專業(yè)性太強,我們不會過于深入,只講一些比較直觀的變化。
Intel 4工藝的高性能邏輯庫高度僅為240nm,接觸柵極間距收窄到50nm,M0底層金屬層間距、鰭片間距都做到了30nm,相比于Intel 7分別縮小了41%、17%、12%、25%,整個庫的面積只有原來的大約一半。
金屬層堆疊到了多達18層,密度相當高,并針對高性能計算進行了優(yōu)化,包括5個增強型銅層、13個銅互連層,其中多個層都使用了EUV極紫外光刻,搭配四重曝光技術(shù)。
此外,縮小到30nm的金屬層間距,為布線提供了良好的技術(shù)支持。
開發(fā)新的制程工藝時,既要在縮小間距的同時提升導電性、降低電阻,還要保證電子遷移的長壽命。
Intel 7工藝上使用了不同材料的特殊金屬層,包括帶鈷的鉭隔離層、帶銅合金的氧化碳,但效果不能百分百令人滿意,前者可延長電子遷移壽命,但電阻變大了,后者可降低電阻,但電子遷移壽命變短了。
Intel 4工藝使用了新的增強銅技術(shù)工藝,結(jié)合了鉭、鈷與純銅材料,結(jié)果非常好地平衡了電子遷移壽命和電阻。
EUV極紫外光刻的引入,不僅可以提升晶體管密度、縮小了整體面積,還大大簡化了整個工藝流程。
比如在Intel 7工藝下,沒有EUV,就需要更多的光刻和掩膜環(huán)節(jié),以及更多的分層,而在Intel 4工藝搭配EUV之后,只需單個層就夠了,在這里的生產(chǎn)步驟減少了多達3-5倍。
根據(jù)估算,Intel 4工藝如果沒有EUV,無論掩膜總數(shù)還是工藝步驟總數(shù),其實都是要比Intel 7明顯增加的,從而導致更高的復雜度和成本,也很容易影響良品率。
EUV的加入,使得掩膜總數(shù)比Intel 7工藝減少了20%,生產(chǎn)步驟總數(shù)也減少了5%。
此外,EUV可以讓連接結(jié)構(gòu)變得非常標準化,Intel 7工藝上的一些非標準連接已經(jīng)不見了,這樣在布局走線方面就可以實現(xiàn)更加高效的自動化。
打個比方就像是堆積木,Intel 4 EUV的標準連接結(jié)構(gòu)就顯示所有積木都是標準接口,拿過來就能對接,非常整齊。
這一套組合拳下來,Intel 4的良品率就做得非常好,第一代就超越了14nm、10nm經(jīng)過多代優(yōu)化的水平。
這對于后續(xù)的Intel 3/20A/18A也奠定了很好的基礎,是實現(xiàn)四年五代制程節(jié)點的一個關(guān)鍵點。
此外,Intel 4工藝下的MIM(金屬-絕緣體-金屬)電容的密度也得到了加大,對比Intel 7工藝下提高了約2倍,能讓處理器實現(xiàn)更高效的供電。
Intel 4工藝搭配6VT或者8VT,可以大大改善能效,可以在0.65V以下低電壓、1.1V以上高電壓運行,綜合能效比Intel 7工藝提升了超過20%,再結(jié)合全新的架構(gòu)設計,這才使得酷睿Ultra成為史上能效最高的一代。
總的來說,Intel 4工藝搭配EUV實現(xiàn)了一次技術(shù)和效率層面的飛躍,良品率也非常理想。雖然現(xiàn)在做不到足夠高的頻率,以至于無法應用于頂級游戲本和桌面市場,而且只會用這一代,不像14nm、10nm那樣會多次迭代挖掘潛力,但也為后續(xù)的Intel 3/20A/18A開了一個好頭。
相信隨著工藝技術(shù)的不斷推進與成熟,尤其是隨著EUV的不斷深入與完善,后邊幾代制程工藝會有更好的表現(xiàn)。
封裝技術(shù)與組裝流程:一分為四、合四為一的魔術(shù)
所謂封裝(package),就是把做好的芯片包裝起來,安裝在主板上,用于主板和芯片之間的供電、信號傳輸,也可以保護芯片。
早期的封裝都比較簡單,作用也很單一,而隨著制造技術(shù)的復雜度、成本急劇增加,加之應用需求的多樣化,各種先進封裝技術(shù)應運而生。
其實早在1965年,Intel創(chuàng)始人之一、半導體行業(yè)傳奇戈登·摩就預言過,在構(gòu)建大型芯片系統(tǒng)時,將其分解為單獨封裝并互相連接的較小的功能模塊,可能更具經(jīng)濟性?!@就是眼光!
目前,Intel已經(jīng)在多個產(chǎn)品上使用了不同的先進封裝技術(shù),比如2017年的Straix 10首次時候用EMIB(嵌入式多芯片互連橋接),2023年的Sapphire Rapids第四代至強也用了它。
2020年的Lakefiel處理器嘗試主動式3堆疊技術(shù)Foveros,2022年的Ponte Vecchio GPU加速器則綜合了Foveros、EMIB封裝,也叫作Co-EMIB。
同時,Intel還準備了Foveros Omni、Foveros Direct等新的封裝技術(shù)。
酷睿Ultra則是首個應用Foveros封裝技術(shù)的消費級處理器,四個不同Tile模塊利用它組裝在一起,可以實現(xiàn)極低功耗、極高密度的芯片間互聯(lián),可以為每個模塊選擇不同的最合適的制造工藝,可以靈活定制不同模塊組合實現(xiàn)不同SKU型號,可以提高晶圓使用率和良品率。
因為采用了全新的分離式模塊化架構(gòu)和先進的Foveros封裝工藝,酷睿Ultra的制造、組裝、測試流程也與以往的處理器截然不同。
它需要使用不用工藝、在不同工廠制造各個模塊,預計作為基底的基礎中介層,各自進行切割、測試,合格的才能組合在一起,統(tǒng)一封裝為復合體,再進行整體性測試驗證,才能得到最終的成品,成為我們看到的一顆顆酷睿Ultra。
對于處理器封測具體流程感興趣的,可以參考我們之前的Intel馬來西亞工廠游記,酷睿Ultra就正在那里量產(chǎn)。
到這里,我們的酷睿Ultra Meteor Lake架構(gòu)設計、技術(shù)特性、工藝封裝之旅就結(jié)束了,等到12月14日就可以看到具體的型號、規(guī)格、性能表面,明年初就可以買到全新的AI筆記本。
酷睿Ultra Meteor Lake并不完美,尤其是性能未能達到預期,無法應用在所有市場領域,但作為Intel 40年來最具革命性的處理器,它在你能想到的幾乎每個地方都有了飛躍式的變化,是一次極為大膽、激進的嘗試,也是對這個AI時代的強力回音,更為后續(xù)發(fā)展奠定了堅實的基礎。
Intel也多次坦然承認,自己在很多方面都處于追趕的地位,為此正在以前所未有的廣度、深度、速度跑步前進,而這種變化對于一家雄踞半導體行業(yè)半個多世紀的巨頭來說是相當不易的,也是最讓我們欣喜的地方。
期待Intel重返巔峰的那一天!期待你追我趕的激烈競爭給我們帶來越來越精彩的技術(shù)和產(chǎn)品!
編輯:黃飛
?
評論
查看更多