以全新 M3 系列處理器為基礎,Apple 選擇一次性推出大部分堆棧,同時發布了基于普通 M3 的產品,以及更強大的 M3 Pro 和 M3 Max SoC。基于臺積電的 N3B 工藝,蘋果希望再次提高 CPU 和 GPU 性能的標準,并創下單個筆記本電腦 SoC 中使用的晶體管數量的新記錄。
新款 M3 芯片的推出與新款?MacBook Pro?筆記本電腦以及更新的 24 英寸 iMac 齊頭并進。但由于蘋果沒有對任何這些設備進行任何外部設計或功能更改——它們的尺寸、端口和部件與以前相同——它們是對這些設備內部結構的直接更新。因此,這些最新產品發布中的明星是新的 M3 系列 SoC 及其帶來的功能和性能。
憑借適用于 Mac(毫無疑問,還有高端 iPad)的最新一代高性能芯片,蘋果似乎充分利用了臺積電 N3B 工藝提供的密度和功耗改進。但與此同時,他們也在改變 SoC 的配置方式;尤其是 M3 Pro 與其前身有很大不同。因此,盡管 M3 芯片本身并未達到“突破性”的水平,但我們將關注一些重要的變化。
首先,我們來看看三款新 M3 芯片的規格。所有三款芯片均在一個月內發布(從技術上講,M3 Max 設備要到 11 月中旬才會上市),這是新一代 M 系列芯片迄今為止最雄心勃勃的發布。通常情況下,Apple 都是從小規模開始,然后逐步提升,例如M2,然后是 Pro 和 Max 變體,但這次我們得到的可能是所有單片(且適用于筆記本電腦)硅部件。
但蘋果也開始縮小體積。該公司正在使用這些新芯片來更新 MacBook Pro 系列和 iMac,這是該公司一些更昂貴(并且普遍認為產量較低)的產品。這與從 MacBook Air 和其他更便宜的設備開始形成鮮明對比,后者消耗了大量的入門級芯片。這很可能是由于蘋果決定使用像 N3B 這樣的前沿節點(他們是唯一的客戶之一),這將帶來新的芯片產量和數量瓶頸。但是,當然,蘋果永遠不會證實這一點。不管怎樣,他們已經徹底改變了這一代的芯片發布策略,首先從更昂貴的設備開始。
所有這三款芯片都共享一個通用架構,并且從廣義上講,都是該架構的擴展版本,具有更多內核、更多 I/O 和更多內存通道。最小的芯片 M3 一開始有 250 億個晶體管(比 M2 多 50億個),而最高峰是 M3 Max 及其 920 億個晶體管。雖然蘋果提供了芯片die shot(當今業界很少見),但他們不提供芯片尺寸,因此我們必須在設備發貨后看看這些芯片尺寸如何測量。
雖然蘋果尚未正式披露除 3 納米設計之外所使用的工藝,但考慮到唯一可用于這種大批量生產的臺積電 3 納米生產線是他們的 N3B 生產線,因此可以非常安全地打賭,我們這里我們看一下 N3B,它也被用在?A17?上。根據臺積電官方數據,N3B 提供了極高的晶體管密度,特征尺寸減少了 42%,iso-power 減少了約 25%。但即便如此,M3 Max 仍然是一款堅固的芯片。
在其他方面,蘋果支持的內存類型似乎沒有任何變化。在某些情況下,該公司的帶寬數據與 M2 系列的數據相同,表明該公司仍在使用 LPDDR5-6400 內存。這有點令人驚訝,因為更快的 LPDDR5X 內存很容易獲得,而且 Apple 的 GPU 密集型設計往往會從額外的內存帶寬中受益匪淺。目前最大的問題是,這是否是由于技術限制(例如蘋果的內存控制器不支持 LPDDR5X),或者蘋果是否有意決定堅持使用常規 LPDDR5。
M3 CPU 架構:速度明顯更快
在架構方面,不幸的是,Apple 對于 M3 系列 SoC 中使用的 CPU 和 GPU 架構相當模糊。事實上,該公司全年都在嚴格控制泄密情況——即使現在我們也不知道 A17 SoC 中使用的 CPU 內核的代號。
無論如何,鑒于蘋果在 A 和 M 系列芯片之間共享 CPU 架構,我們無疑以前見過這些 CPU 內核。問題是我們是在關注最近推出的 A17 SoC 的 CPU 內核,還是 A16(Everest 和 Sawtooth)的 CPU 內核。A17 是更有可能的候選者,特別是因為蘋果已經擁有 N3B 的工作 IP。但嚴格來說,我們目前沒有足夠的信息來排除A16 CPU核心;特別是蘋果沒有就 M3 系列 CPU 內核相對于 M2 提供的架構改進提供任何指導。
目前我們所知道的是,與 M2 系列相比,Apple 宣稱其高性能 CPU 內核的性能提高了約 15%。或者,如果您更喜歡 M1 比較,則可提高 30%。蘋果沒有透露用于做出這一決定的基準或設置,因此我們無法透露該估計的真實性。或者,就此而言,其中有多少來自 IPC 提升與時鐘速度提升。
與此同時,效率核心也得到了改進,根據蘋果公司的說法,其增益比高性能核心更大。M3 系列效率核心比 M2 快 30%,比 M1 快 50%。
蘋果在其網站上發布了特定于應用程序的基準測試,盡管這些是系統級基準測試。其中許多是 CPU 和 GPU 共同獲得的收益。這肯定與這些應用程序的用戶相關,但它們并沒有告訴我們太多有關 CPU 內核本身的信息。
蘋果同樣模糊的性能/功率曲線圖也在很大程度上重申了這些說法,同時證實了性能/功率曲線變得平坦的長期趨勢正在持續。舉例來說:Apple 聲稱 M3 可以以一半的功耗提供與 M1 相同的 CPU 性能;但在等功率下,峰峰值性能僅高出 40% 左右。
從等性能的角度來看,連續幾代的工藝技術不斷降低功耗,但在解鎖更高的時鐘速度方面卻做得相對較少。這使得更高時鐘速度帶來的持續性能提升在功耗方面相對昂貴,這反過來又促使芯片供應商增加整體功耗。根據蘋果的圖表,即使是 M3 也未能幸免,因為它的峰值功耗高于 M1。
M3 GPU 架構:具有網格著色和光線追蹤的新架構
與此同時,在 GPU 方面,M3 系列芯片包含了更實質性的 GPU 架構更新。雖然蘋果公司對 GPU 架構的底層組織一如既往地守口如瓶,但從功能角度來看,新架構為蘋果平臺帶來了一些主要的新功能:網格著色和光線追蹤。
Apple 的 iPhone 15 Pro 系列 A17 SoC 也引入了這些相同的功能,幾乎可以肯定,這是該架構的更大規模實現,就像前幾代的情況一樣。當我們在這里討論筆記本電腦和臺式機時,這些功能將使 M3 GPU 與 NVIDIA/AMD/Intel 的最新獨立 GPU 設計大致相當,所有這些設計公司幾年來都提供了類似的功能。用 Windows 的話說,M3 GPU 架構將是DirectX 12 Ultimate 級(功能級別 12_2)設計,使 Apple 成為第二家在筆記本電腦 SoC 中提供如此高功能集成 GPU 的供應商。
在這一點上,光線追蹤幾乎不需要介紹,因為整個 GPU/圖形行業在過去五年里一直在大力推廣物理上更加精確的渲染形式。另一方面,網格著色不太為人所知,因為它提高了渲染管道的效率,而不是解鎖新的圖形效果。然而,其重要性不容低估。網格著色顛覆了整個幾何渲染管道,以允許在可用幀速率下呈現更多幾何細節。它在很大程度上是一個“基線”功能——開發人員需要圍繞它設計引擎的核心——所以它在最初的采用中不會有太大影響,但它最終將成為一個決定成敗的功能,與 M3 之前的 GPU 兼容的分界點。我們今天已經在 PC 游戲(例如最近發布的《心靈殺手 II》)中看到了這一點。
這一代 GPU 還配備了新的內存管理功能/策略,蘋果將其稱為“動態緩存”。根據蘋果產品展示中的有限描述,該公司似乎采取了新的努力來更好地控制和分配其 iGPU 使用的內存,防止其分配比實際需要更多的內存。GPU 過度分配內存是很常見的(擁有它而不需要它比相反更好),但這是浪費的,尤其是在統一內存平臺上。因此,正如蘋果所說,“每項任務只使用所需的確切內存量”。
值得注意的是,此功能對開發人員來說是透明的,并且完全在硬件級別上運行。因此,無論蘋果在幕后做什么,它都被從開發者和用戶手中抽象出來。盡管用戶最終將受益于更多的可用 RAM,但當 Apple M3 Mac 的最低配置仍然是 8GB RAM 時,這無疑是一件好事。
然而,更令人好奇的是,蘋果聲稱這也將提高 GPU 性能。具體來說,動態緩存將“顯著”提高 GPU 的平均利用率。目前尚不清楚內存分配和 GPU 利用率之間的關系,除非蘋果針對的是一種極端情況,即由于缺乏 RAM,工作負載必須不斷交換到存儲。不管怎樣,蘋果認為這一功能是新 GPU 架構的基石,并且值得在未來進行更仔細的研究。
然而,在性能方面,蘋果提供的指導非常少。在過去的幾代中,該公司至少提供了其 GPU 的一般計算吞吐量數據,例如普通 M2 GPU 的 5.6 TFLOPS。但對于 M3 GPU,我們沒有獲得任何此類吞吐量數據。因此,目前還不清楚這些 GPU 在現有應用程序/游戲中的速度有多快,或者它們可以有多快。Apple 在其產品頁面上引用了 2.5 倍的數字,但查看注釋,這是具有硬件 RT (M3) 的 Redshift 與軟件 RT(其他所有內容)的對比。
蘋果充其量只是在演示中展示了 GPU 性能/功率曲線圖,將 M3 與 M1 進行了比較。蘋果再次聲稱 M3 在 iso 性能下消耗一半的電量。同時,等功率(峰值 M1,約 12.5W)下的性能大約提高了 50%。但M3的GPU功率限制也明顯更高,達到約17瓦。這釋放了更多的性能,但同樣消耗了更多的電量,并且沒有告訴我們 M3 GPU 與 M2 的比較如何。
M3 NPU:更快一點,但架構沒有更新?
最后但并非最不重要的一點是,讓我們快速瀏覽一下 M3 的 NPU(神經引擎)。從高層次來看,這又是 16 核設計。蘋果聲稱它提供了 18 TOPS 的性能,比 M2 的 NPU 高出約 14%(蘋果官方數據為 15%,很可能是由于舍棄了小數)。所有三款 M3 芯片似乎都具有相同的 16 核 NPU 設計,因此應該具有相似的性能。
然而,18 TOPS 的數字卻令人大吃一驚。正如Ian Cutress 博士向我指出的那樣,18 TOPS 實際上比 A17 SoC 中的 NPU 慢。
發生什么了?
隨著 A17 SoC 的推出,蘋果開始引用 INT8 性能數據,而我們認為之前版本的 NPU(A 系列和 M 系列)的 INT16/FP16 數據。該格式的精度較低,可以以較高的速率進行處理(以精度換取吞吐量),因此引用的數字較高。
這里的 18 TOPS 數字顯然是 INT16/FP16 性能,因為這與過去的 M 系列聲明和 Apple 自己的圖表一致。那么,懸而未決的問題是,M3 中的 NPU 是否支持 INT8,因為 A17 最近才添加了 INT8。要么它確實支持 INT8,在這種情況下,Apple 正在努力實現一致的消息傳遞,要么它是缺乏 INT8 支持的老一代 NPU 架構。
總體而言,這種差異更多的是出于好奇,而不是擔憂。但看看蘋果是否保持 A 和 M 系列的 NPU 架構相同,或者我們是否看到這一代的差異,將會很有趣。
僅規格:M3、M2、M1
回到速度和饋送,我還整理了每一層 M 系列處理器的規格表,將它們與它們的前輩進行比較。這有助于更好地說明這些部件在核心數量、性能、內存支持和 I/O 方面如何隨著時間的推移而演變。
M 系列的vanilla系列是該系列中最簡單的。作為 M 系列芯片中的第一款產品,Apple 不斷增強該芯片的功能和性能。但他們并沒有在功能塊/核心方面添加太多。現在已經三代了,CPU還是4P+4E的設計,GPU也從第一代的8核發展到了M2和M3的10核。
一致的 128 位內存總線為這頭小野獸提供了食物。由于蘋果沒有在這一代 M 系列中采用 LPDDR5X,因此內存帶寬與 M2 保持不變,LPDDR5-6400 高達 24GB,可實現 100GB/秒的總內存帶寬。
芯片的有限 I/O 也一直存在于各代產品中。M3 可以驅動兩個 40Gbps USB4/Thunderbolt 端口,與 M2 和 M1 相同。此外,仍然僅支持兩個顯示器——內部顯示器和單個外部顯示器。
盡管核心數量沒有增加,但隨著新功能和更復雜的核心設計占用更大的晶體管預算,晶體管數量在幾代人中持續增長。M3 擁有 250 億個晶體管,比 M2 多出 25%,比 M1 多出 56%。
然而,M3 Pro 的情況卻變得更加有趣。與以相對簡單的方式建立在前輩基礎上的兄弟姐妹不同,蘋果在第三代 M 系列芯片中重新平衡了 M3 Pro。因此,它在配置方面與 M2 Pro 存在一些顯著差異,并且在晶體管數量方面它并沒有像其他芯片那樣增長。
從CPU核心開始,雖然M3 Pro和M2 Pro一樣總共有12個CPU核心,但性能和效率核心之間的平衡已經發生了變化。具體來說,它從8P+4E設計變成了6P+6E設計。雖然所有 CPU 核心的性能總體上都比 M2 同類產品更高,但這就是為什么 Apple 的配備 M2 Pro 的 MacBook Pro 的官方性能數據顯示它們在 CPU 性能方面僅提供了微弱的提升。對于多線程繁重的工作負載,計算硬件實際上并沒有增加。
GPU 核心數量也有所減少。M3 架構 GPU 提供 18 個核心,而 M2 Pro 則有 19 個核心。這與普通的 M3 或 M3 Max 不同,后者的 GPU 核心數量要么持平,要么略有增加。
最后,提供所有這些的是明顯更小的內存總線。M1 Pro 和 M2 Pro 都配備了 256 位 LPDDR5 內存總線,當填充 LPDDR5-6400 時,可為 SoC 提供 200GB 的聚合內存帶寬。然而,在 M3 Pro 上,Apple 已將內存總線明確削減至 192 位寬,即刪除了四分之一的內存總線,這反過來又將內存帶寬降低了 25%,至 150GB/秒。
這些變化的結合意味著M3 Pro在高水平上看起來更像是更強大的普通M3,而不是精簡版的M3 Max。從某些方面來說,這只是一種半滿/半空的心態。但總體而言,CPU 核心的性能和效率的平衡比更接近 M3 的設計,總內存帶寬也是如此。M3 Pro 應該仍然明顯快于 M3,但在某些方面,它最終會在性能方面落后于 M2 Pro。
蘋果對 M3 Pro 更為保守的立場也體現在其晶體管數量上。M3 Pro 上的晶體管數量實際上比 M2 一代有所減少——從 400 億個減少到 370 億個。因此,無論使用何種工藝節點,這總體上都是一個稍微簡單的芯片。與 M1 Pro 相比,前兩代晶體管數量僅略有增長 (~10%)。
至于為什么蘋果不像其他 M3 SoC 那樣加大 M3 Pro 的體積,目前還只能猜測。但從根本上講,由于晶體管數量較少和芯片尺寸較小,M3 Pro 的生產成本應該比 M2 Pro 低得多。N3B 良率可能在這里發揮了作用(較低的良率等于較高的芯片有效成本),但只有臺積電和蘋果知道情況是否屬實。
功耗也可能是一個因素,尤其是在 CPU 核心重新平衡時。8 個性能核心可提供出色的性能,但它們肯定會消耗大量電量。Max SoC 在某種程度上可以擺脫這個問題,因為它們是頂級芯片,也適用于高端臺式機,并且面向臺式機替代級筆記本電腦用戶。但對于更多的移動 Mac 用戶來說,蘋果可能會通過抑制性能增長來降低功耗。
出于這些原因,看看審查基準的結果將會很有趣。雖然這不太可能是蘋果公司會講述的故事,但他們筆記本電腦的性能和功耗應該能夠為他們講述很多故事。
最后,我們擁有最大、最差的單片 M 系列芯片系列 Maxes。Max 芯片始終在核心數量和晶體管數量方面突破極限,與 M3 Pro 不同,M3 Max 延續了這一傳統。
與前代 M2 相比,蘋果在這里又增加了 4 個性能 CPU 核心,使其總數達到 12 個性能核心和 4 個效率核心。并使其成為唯一一款獲得 CPU 核心性能提升的 M3 芯片。因此,這將是唯一一款 M3 芯片,至少在有利的散熱條件下,多線程 CPU 性能應該會顯著提高。盡管“有利的熱條件”確實是那里的關鍵詞,因為這是一個非常強大的冷卻芯片。
在 GPU 方面,GPU 核心數量略有增加,從 M2 Max 上的 38 個核心增加到 M3 Max 上的 40 個核心。由于沒有來自蘋果公司的任何良好的性能數據,很難估計這在實踐中會快多少。
為 M3 Max 提供與前兩個版本芯片相同的 512 位 LPDDR5 內存總線。值得注意的是,這意味著蘋果的可用內存帶寬在過去兩代中并未增加,無法跟上數量更多的 CPU 和 GPU 核心的需求,因此該公司需要從其芯片架構中獲取更高的效率(和緩存命中率)以保持 SoC 的充足運行。
從蘋果官方的芯片照片中,我們可以看到蘋果再次使用他們定制的 x128 LPDDR5 內存芯片,從而使他們能夠僅在 4 個芯片上連接 512 位內存總線。這一代的最大內存容量已達到 128GB,這對這些內存芯片中使用的芯片具有有趣的影響。除非蘋果正在做一些真正瘋狂的事情,否則獲得 128GB LPDDR5 的唯一方法就是使用 32Gbit LPDDR5 芯片(總共 32 個)。我不知道目前有誰提供這種容量的芯片,所以蘋果似乎已經從提供它的任何人那里獲得了對該內存的優先使用權。對于其他所有人來說,我們應該會在明年晚些時候在 Windows 筆記本電腦上看到 128GB LPDDR5(X) 配置。
隨著CPU核心、GPU核心的增加,以及芯片各個構建模塊復雜性的普遍增加,M3 Max的晶體管總數已激增至920億個晶體管。這比 M2 Max 多了 37% 的晶體管,甚至比基于臺積電 N4 工藝構建的 NVIDIA 大型 GH100 服務器 GPU 多了 15%(120 億)。N3B 構建的 M3 Max 應該要小得多(小于 400mm2?),但按照筆記本電腦標準,這仍然是一個巨大的芯片,更不用說如果蘋果將其中兩個放在一起進行 Ultra 配置時會發生什么。無論蘋果為這些芯片向臺積電支付多少錢,它都不會便宜——但是有多少其他供應商正在設計比大多數服務器芯片晶體管數量更多的筆記本電腦 SoC?
編輯:黃飛
?
評論
查看更多