在Arm虎視眈眈,RISC-V新秀崛起的處境下,x86處理器內部的競爭也進入了白熱化階段。AMD繼推出Zen CPU架構以來,總市場份額上正在一步步迎頭趕上,雖說桌面和移動CPU上英特爾與AMD打得有來有回,但服務器處理器市場份額上,AMD保持著穩步增長的態勢,越來越多的云服務商和數據中心轉投了“AMD Yes”的陣營,更是在今年第三季度打破了市占率記錄,達到了16%。盡管英特爾依然占據著70%以上的市場,面臨多方壓力下,這種優勢似乎難以繼續維持了。
在今年上半年推出了第三代至強可擴展處理器之后,英特爾于近期透露了下一代服務器處理器“Sapphire Rapids”的更多情報。鑒于我們已經在消費級桌面處理器12代酷睿上看到了Intel 7制程帶來的驚艷改進,那么同用這一制程的下一代Xeon處理器,是否也能在明年發布之際一鳴驚人呢?
新的I/O與內存
考慮到Sapphire Rapids定于明年發售,AMD的新一代EPYC處理器又發售在即,英特爾并沒有公布太多通用計算性能上的情報。但從英特爾在Innovation 2021和Linley Fall Processor兩場大會上公布的模組化芯片設計,也能看出Sapphire Rapids并非什么泛泛之輩。
與剛發布的12代酷睿一樣,Sapphire Rapids 同樣引入了對PCIe 5.0的支持,也在此之上進一步提升了處理器的DDIO和QoS能力。除此之外,CXL 1.1和全新的UPI 2.0也在支持之列。在UPI 2.0的互聯技術支持下,
Sapphire Rapids IP布局 / Intel
在服務器和數據中心應用上,內存也是最容易出現瓶頸的一大組成要素。我們可以從芯片原理圖中可以看出Sapphire Rapids集成了4個內存控制器,以此最高支持8通道DDR5內存。針對計算或額外開銷特別大的場景,英特爾也提供了旗下傲騰持久內存Optane 300系列的支持,作為內存支持的同時也可以作為存儲使用。英特爾還將推出支持HBM的版本,提供遠高于8通道DDR5的內存帶寬。該版本將提供兩種HBM模式,一種是HBM Flat模式,支持HBM+DDR5混用或是僅用HBM的模式。另一種是HBM緩存模式,將HBM作為DRAM的備用緩存,類似于一個L4緩存。
通用計算中的AI加速
隨著AI逐漸在服務器工作流中提高占比,AI計算能力成了每個服務器處理器都躲不開的參數,這也成了英特爾在宣傳Sapphire Rapids時不離口的話題。第三代至強可擴展處理器中,英特爾在其中內置了深度學習加速器和AVX-512向量擴展,為int8和bfloat16數據的推理和訓練提供了支持。而在Sapphire Rapids中,英特爾又加入了兩大全新加速引擎AMX(先進矩陣擴展)和DSA(數據流加速器)。
AMX架構 / Intel
AMX乃是一種全新的切片式指令集擴展,支持以切片運作的加速器,也是英特爾專為張量運算準備的指令集擴展。該擴展由兩部分組成,切片和加速器。切片由8個2D寄存器堆組成,支持加載、清除和設為常量等基礎數據運算符。每個寄存器堆大小可達1KB,但設計者也可以根據自己的算法來減小其規模。除此之外,英特爾也已經確認Linux 5.16版本將正式加入對于AMX的支持。
英特爾目前僅發布了TMUL加速器(切片矩陣乘法單元),但AMX是一個可以繼續擴展下去的架構,未來還可以加入新的加速器,也可以改進現有的TMUL加速器實現更高的性能,從而在單個指令和單個微操作下表達更多的工作,節省fetch、decode以及OOO的功耗。在測試中,同一個Sapphire Rapids處理器分別使用AMX指令和AVX-512 VNNI,AMX的運算速度是后者的7.8倍。
過去AVX-512的使用中,經常會出現功率上去后頻率也隨之降低的情況,不少人也擔心全新的AMX是否會有類似的情況。英特爾確認在快速自動的得當電源控制下,AMX不會出現AVX的頻率抖動現象。
有無DSA的CPU占用對比 / Intel
在高性能存儲、連接和密集處理的應用中,人們總是想找到解放處理器核心來提升整體性能的方式。英特爾在這個需求上推出了DSA數據流加速器,DSA可以轉移CPU緩存、DDR內存以及其他I/O附加設備的數據,它的目標是為數據轉移和轉換運算提供更高的總體系統性能,讓CPU周期解放出來完成其他更高級的功能。根據英特爾給出的數據,在OpenvSwitch的虛擬交換機應用中,加入DSA分擔工作流后,CPU占用率降低了39%,數據轉移性能提高了2.5倍。
至強可以替代GPU嗎?
我們都知道如今的服務器市場已經不是CPU一家獨大的天下了,無論是語音識別還是圖像處理,GPU帶來的AI計算能力滲透進了每一個場景,任意深度學習“煉丹師”最先考慮的硬件設備也是GPU。在英特爾對Sapphire Rapids的描述中,稱其AI性能相較于上一代Ice Lake芯片有了30倍的提升,如此大幅度的提升能夠替代GPU嗎?
英特爾為Sapphire Rapids給出的對比對象為英偉達的A30 GPU,在ResNet-50 v1.5的圖像分類推理中,單個A30的輸出速度為15411張每秒,而兩個Sapphire Rapids的成績達到了24000張每秒以上。這一數字對比看起來似乎優勢巨大,甚至接近于29855張每秒的A100 GPU,但測試中用到的乃是高端Sapphire Rapids型號(40核以上),無論是功耗和價格都要遠超A30。
因而現階段下,仍在使用大量AI負載的服務器并不會從現有的GPU或ASIC架構遷移。不過Sapphire Rapids本身也并非僅針對AI的特化產品,之所以x86 CPU要費心費力地去提高AI性能,也是面向通用計算與AI結合這樣越來越普遍的輕度AI場景。
小結
要想把AMD奪去的市場份額奪回來并不容易,英特爾面臨的已經不是本世紀初的雙雄爭霸局面了。Sapphire Rapids可以說是換帥、換制程和換架構后的首個服務器產品,如果不能一鳴驚人的話,不少客戶可能都會被AMD未來更注重成本效能的Zen 4D與Zen 5奪走。而面對Arm、RISC-V、GPU、ASIC等多方入局AI的挑戰,如果英特爾仍想保持x86的霸主地位,也必須加速開發自身的Xe服務器GPU,同時繼續擴展x86下的AI加速器生態。
在今年上半年推出了第三代至強可擴展處理器之后,英特爾于近期透露了下一代服務器處理器“Sapphire Rapids”的更多情報。鑒于我們已經在消費級桌面處理器12代酷睿上看到了Intel 7制程帶來的驚艷改進,那么同用這一制程的下一代Xeon處理器,是否也能在明年發布之際一鳴驚人呢?
新的I/O與內存
考慮到Sapphire Rapids定于明年發售,AMD的新一代EPYC處理器又發售在即,英特爾并沒有公布太多通用計算性能上的情報。但從英特爾在Innovation 2021和Linley Fall Processor兩場大會上公布的模組化芯片設計,也能看出Sapphire Rapids并非什么泛泛之輩。
與剛發布的12代酷睿一樣,Sapphire Rapids 同樣引入了對PCIe 5.0的支持,也在此之上進一步提升了處理器的DDIO和QoS能力。除此之外,CXL 1.1和全新的UPI 2.0也在支持之列。在UPI 2.0的互聯技術支持下,
Sapphire Rapids IP布局 / Intel
在服務器和數據中心應用上,內存也是最容易出現瓶頸的一大組成要素。我們可以從芯片原理圖中可以看出Sapphire Rapids集成了4個內存控制器,以此最高支持8通道DDR5內存。針對計算或額外開銷特別大的場景,英特爾也提供了旗下傲騰持久內存Optane 300系列的支持,作為內存支持的同時也可以作為存儲使用。英特爾還將推出支持HBM的版本,提供遠高于8通道DDR5的內存帶寬。該版本將提供兩種HBM模式,一種是HBM Flat模式,支持HBM+DDR5混用或是僅用HBM的模式。另一種是HBM緩存模式,將HBM作為DRAM的備用緩存,類似于一個L4緩存。
通用計算中的AI加速
隨著AI逐漸在服務器工作流中提高占比,AI計算能力成了每個服務器處理器都躲不開的參數,這也成了英特爾在宣傳Sapphire Rapids時不離口的話題。第三代至強可擴展處理器中,英特爾在其中內置了深度學習加速器和AVX-512向量擴展,為int8和bfloat16數據的推理和訓練提供了支持。而在Sapphire Rapids中,英特爾又加入了兩大全新加速引擎AMX(先進矩陣擴展)和DSA(數據流加速器)。
AMX架構 / Intel
AMX乃是一種全新的切片式指令集擴展,支持以切片運作的加速器,也是英特爾專為張量運算準備的指令集擴展。該擴展由兩部分組成,切片和加速器。切片由8個2D寄存器堆組成,支持加載、清除和設為常量等基礎數據運算符。每個寄存器堆大小可達1KB,但設計者也可以根據自己的算法來減小其規模。除此之外,英特爾也已經確認Linux 5.16版本將正式加入對于AMX的支持。
英特爾目前僅發布了TMUL加速器(切片矩陣乘法單元),但AMX是一個可以繼續擴展下去的架構,未來還可以加入新的加速器,也可以改進現有的TMUL加速器實現更高的性能,從而在單個指令和單個微操作下表達更多的工作,節省fetch、decode以及OOO的功耗。在測試中,同一個Sapphire Rapids處理器分別使用AMX指令和AVX-512 VNNI,AMX的運算速度是后者的7.8倍。
過去AVX-512的使用中,經常會出現功率上去后頻率也隨之降低的情況,不少人也擔心全新的AMX是否會有類似的情況。英特爾確認在快速自動的得當電源控制下,AMX不會出現AVX的頻率抖動現象。
有無DSA的CPU占用對比 / Intel
在高性能存儲、連接和密集處理的應用中,人們總是想找到解放處理器核心來提升整體性能的方式。英特爾在這個需求上推出了DSA數據流加速器,DSA可以轉移CPU緩存、DDR內存以及其他I/O附加設備的數據,它的目標是為數據轉移和轉換運算提供更高的總體系統性能,讓CPU周期解放出來完成其他更高級的功能。根據英特爾給出的數據,在OpenvSwitch的虛擬交換機應用中,加入DSA分擔工作流后,CPU占用率降低了39%,數據轉移性能提高了2.5倍。
至強可以替代GPU嗎?
我們都知道如今的服務器市場已經不是CPU一家獨大的天下了,無論是語音識別還是圖像處理,GPU帶來的AI計算能力滲透進了每一個場景,任意深度學習“煉丹師”最先考慮的硬件設備也是GPU。在英特爾對Sapphire Rapids的描述中,稱其AI性能相較于上一代Ice Lake芯片有了30倍的提升,如此大幅度的提升能夠替代GPU嗎?
英特爾為Sapphire Rapids給出的對比對象為英偉達的A30 GPU,在ResNet-50 v1.5的圖像分類推理中,單個A30的輸出速度為15411張每秒,而兩個Sapphire Rapids的成績達到了24000張每秒以上。這一數字對比看起來似乎優勢巨大,甚至接近于29855張每秒的A100 GPU,但測試中用到的乃是高端Sapphire Rapids型號(40核以上),無論是功耗和價格都要遠超A30。
因而現階段下,仍在使用大量AI負載的服務器并不會從現有的GPU或ASIC架構遷移。不過Sapphire Rapids本身也并非僅針對AI的特化產品,之所以x86 CPU要費心費力地去提高AI性能,也是面向通用計算與AI結合這樣越來越普遍的輕度AI場景。
小結
要想把AMD奪去的市場份額奪回來并不容易,英特爾面臨的已經不是本世紀初的雙雄爭霸局面了。Sapphire Rapids可以說是換帥、換制程和換架構后的首個服務器產品,如果不能一鳴驚人的話,不少客戶可能都會被AMD未來更注重成本效能的Zen 4D與Zen 5奪走。而面對Arm、RISC-V、GPU、ASIC等多方入局AI的挑戰,如果英特爾仍想保持x86的霸主地位,也必須加速開發自身的Xe服務器GPU,同時繼續擴展x86下的AI加速器生態。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
處理器
+關注
關注
68文章
19167瀏覽量
229153 -
amd
+關注
關注
25文章
5444瀏覽量
133948 -
英特爾
+關注
關注
60文章
9888瀏覽量
171533 -
cpu
+關注
關注
68文章
10826瀏覽量
211160 -
服務器
+關注
關注
12文章
9022瀏覽量
85186
發布評論請先 登錄
相關推薦
Intel預告下一代至強處理器:Diamond Rapids攜LGA9324接口震撼登場
據8月23日最新消息,Intel 已在緊鑼密鼓地準備其下一代至強處理器的安裝測試工具,這款代號“Diamond Rapids”的處理器預示著又一
IaaS+on+DPU(IoD)+下一代高性能算力底座技術白皮書
大規模生產環境落地應用的條件。某種程度上,IoD 技術已成為下一代高性能算力底座的核心技術與最佳實踐。
白皮書下載:*附件:IaaS+on+DPU(IoD)+下一代高性能算力底座+技術白皮書(1).pdf
發表于 07-24 15:32
金山云發布第九代高效型云服務器SE9
近日,金山云正式發布了基于英特爾?至強?6能效核處理器的第九代云服務器高效型SE9。這款新型云服務器在計算性能和性價比上均實現了顯著提升,為
AMD計劃采用三星3nm GAA制程量產下一代芯片
在近日于比利時微電子研究中心(imec)舉辦的2024年全球技術論壇(ITF World 2024)上,AMD首席執行官蘇姿豐透露了公司的最新技術動向。她表示,AMD將采用先進的3nm GAA(Gate-All-Around)制程技術來量產其
超微發布新款AMD H13代CPU服務器產品
超微(Supermicro)近日宣布推出全新AMD H13代CPU服務器產品系列,再度鞏固其在人工智能、云技術、存儲和5G/邊緣計算領域的領先地位。此次新品在性能和效率上均實現了卓越平衡,搭載
華碩微星發布AGESA固件更新,確認兼容AMD新一代Ryzen處理器
近日,華碩與微星先后對 AMD 600 系列主板推出AGESA固件更新,確認了其兼容“下一代AMD Ryzen CPU”的能力;技嘉亦證實,下一代Ryzen桌面處理
使用NVIDIA Holoscan for Media構建下一代直播媒體應用
NVIDIA Holoscan for Media 現已向所有希望在完全可重復使用的集群上構建下一代直播媒體應用的開發者開放。
臺達推出提高人工智能服務器和數據中心能效的下一代電源解決方案
臺達電子(Delta)是電源與散熱管理解決方案的領導廠商,在IEEE應用電力電子會議暨博覽會(APEC)2024上,推出了提高人工智能(AI)服務器和數據中心能效的下一代電源解決方案。
BlackBerry宣布與AMD合作革新下一代機器人系統
德國,紐倫堡 – 2024年4月9日 – 在今日舉行的國際嵌入式展會(Embedded World)上,BlackBerry(紐約證券交易所代碼:BB;多倫多證券交易所代碼:BB)宣布與AMD合作,旨在通過實現新水平的低延遲、低抖動和可重復確定性,革新下一代機器人系統。
第五代英特爾至強處理器,AI特化的通用服務器CPU
? 電子發燒友網報道(文/周凱揚)隨著AI已經成了數據中心與服務器市場的主流應用,就連通用服務器CPU,也開始著重加強AI計算能力。為此,英特爾于去年年底發布了第五代
英特爾展示下一代至強處理器,助力vRAN性能顯著提升
里程碑事件不僅凸顯了移動行業推動vRAN和Open RAN發展的長期投入,也表明了英特爾正在持續踐行其以領先的產品路線圖助力行業發展的堅定承諾。代號為Granite Rapids–D的下一代至強處理器將于2025年發布,這款處理
評論