Ampere Computing以自有IP打造的192核云原生CPU——AmpereOne系列處理器的技術細節陸續曝光。其中一個大亮點,是與上一代128核Ampere Altra對比,AmpereOne系列處理器中首度采用Chiplet設計。
半導體制程不斷演進下,要實現復雜的芯片設計流程的門檻其實越來越高,芯片全流程設計的成本也大幅增加,這是摩爾定律放緩后出現的問題。因應方式是Chiplet小芯片設計的興起,已經開始被AMD、英特爾等處理器大芯片公司大舉采用。
Chiplet是一種模塊化芯片的技術,將傳統片上系統(SoC)所需的微處理器、模擬IP核、數字IP核和存儲器等模塊分開制造,并在后道工藝中集成為一個芯片模組,可實現不同模塊的混用、復用,且各模塊不需要在同一制程節點制造,因此另一個優勢是能確保芯片的良率。
在AMD、英特爾陸續導入Chiplet設計后,Ampere Computing也在最新的AmpereOne系列處理器中實現Chiplet。
Ampere Computing首席產品官Jeff Wittich指出,Ampere開始大量采用小芯片的設計帶來了許多的優勢,像是提升靈活度,以及加快了整個芯片設計周期。再者,采用Chiplet的設計也實現了特定的拓撲結構,以及單一的計算裸片(里邊分布著全部的內核),同時還有單一大網格結構,助力為客戶提供平衡的高性能。反之,其他設計則要求數據從一個計算的小芯片傳輸到另一個小芯片,這種設計會帶來延遲問題。
Jeff Wittich強調,在實現了最佳的Chiplet架構之后,產品上市的速度就會更快,且可以提供芯片的可擴展性。
過去幾年間,Ampere Computing已經陸續實現的128核的Ampere Altra系列處理器,在云環境的關鍵指標——每機架性能方面超越其他競品像是英特爾和AMD等。這次全新的AmpereOne系列處理器是采用臺積電的5nm制程技術,現在已投產并交付給客戶。
Jeff Wittich指出,AmpereOne能夠為云工作負載提供更高的性能、更高的可擴展性以及更高的密度,也是第一款基于Ampere新自研核的產品,由Ampere自有IP全新打造,擁有多達192個單線程Ampere核。
192 核是一個非常大的數字,比英特爾和 AMD 的核心數還要多。 Ampere用一個具體的場景來說明,比如在云環境中運行虛擬機(VM),用192核的AmpereOne對比96核的AMD Genoa,或者60核的英特爾Sapphire Rapids,AmpereOne每機架運行的虛擬機數量是AMD Genoa的2.9倍,是英特爾Sapphire Rapids的4.3倍。
AmpereOne推出后,與之前推出的Ampere Altra、Ampere Altra Max未來發展的差異性如何?
Jeff Wittich指出,這兩個系列服務于不同的客戶需求。目前已經在市場上持續交付的Ampere Altra系列,里面包含了幾款不同的產品,核數從32核到128核不等。而全新推出的AmpereOne系列并不是要取代Ampere Altra系列,而是在它的原本的基礎之上,進行持續的擴張。
在未來很長一段時間里,Ampere Altra 系列處理器還會繼續銷售,而最新的AmpereOne是在Ampere Altra Max 128核的基礎上,將核數進一步提升到了最高可達192核。
客戶如何決定要采用AmpereOne?還是Ampere Altra?
他分析,完全是看場景應用。在邊緣計算的場景下,可能只需要部署32核、功耗40瓦的Ampere Altra處理器就夠用了,但對于一些有更大算力需求的客戶,譬如大規模的數據中心,這時候更高的核數可以提供更好的性能,所以可能需要192核的AmpereOne系列處理器。
在AI方面,Ampere也提供了幾個參考的基準,一是在生成式AI方面,相比AMD Genoa,AmpereOne可每秒多提供2.3倍的幀數(圖像),在運行穩定的擴散模型中勝出。此外,在運行DLRM模型的推薦系統中,通過AmpereOne響應的查詢數量是AMD Genoa的每秒查詢數量的兩倍多。
此外,通過DDR5內存技術,以及128通道的PCIe 5.0的設計,AmpereOne系列處理器不僅實現了性能的擴展,也為云服務提供商和云工作負載提供價值。
由于新款的AmpereOne系列處理器是自研IP,是否會與上一代Ampere Altra系列有不相容的問題? Jeff Wittich表示,不會存在兼容性的問題,因為兩款處理器都是基于ARM ISA的。所有能夠在Ampere Altra系列處理器上運行的代碼,在AmpereOne上運行也沒有問題,不需要任何改動。
針對進行火爆的生成式AI對數據中心CPU市場的影響? Jeff Wittich表示,生成式AI進一步加速了市場對算力的需求。
他分析,針對AI工作負載最常見的有兩大場景,第一是AI訓練工作負載,即處理器在大量數據的基礎上建立模型,對于某些大模型來說,過程有時候不只需要幾個小時、幾天,甚至可能要花上數周甚至數月的時間。第二個場景就是AI推理,即在完成AI訓練的基礎上,在應用上去運行模型。
雖然可能訓練AI模型只需要一次,但是運行模型還需要進行上百萬次甚至數十億次,這些工作負載需要進行非常快速的運行,以盡可能快的速度向用戶交付數據和資源。
AI訓練和AI推理的工作負載是非常不一樣的。 AI訓練發生在服務器上的CPU、GPU,但是AI推理不一樣,它擴展在整個云的部署中。這就意味著它對云的基礎建設提出了更高的要求。
所以AI訓練和AI推理有三個主要不同,一個是就規模而言,AI推理需要更大的規模;第二,AI推理很有可能在通用服務器上和其他工作負載同時運行;第三,AI推理對速度的要求更高,而且還需要不斷地進行大量重復,以向用戶快速交付結果。
Jeff Wittich表示,無論是Ampere Altra還是AmpereOne系列處理器都非常適用于AI推理,特別是大規模的云場景。目前,已經有許多客戶都在使用Ampere Altra系列處理器進行AI推理,并且得到我們Library中很多軟件工具的支持,包括TensorFlow、PyTorch、ONNX常用的主流框架。
審核編輯:劉清
-
處理器
+關注
關注
68文章
19160瀏覽量
229115 -
片上系統
+關注
關注
0文章
185瀏覽量
26779 -
虛擬機
+關注
關注
1文章
908瀏覽量
28087 -
chiplet
+關注
關注
6文章
417瀏覽量
12558
原文標題:媒體視角|Ampere的192核云原生CPU首度導入Chiplet設計
文章出處:【微信號:AmpereComputing,微信公眾號:安晟培半導體】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論