電子發(fā)燒友網(wǎng)報道(文/周凱揚)隨著AI已經(jīng)成了數(shù)據(jù)中心與服務器市場的主流應用,就連通用服務器CPU,也開始著重加強AI計算能力。為此,英特爾于去年年底發(fā)布了第五代至強處理器,進一步提升通用計算性能的同時,也新增了AI相關的新指令集,諸如AXM、AVX等。
第五代至強可擴展處理器架構(gòu)剖析
2023年年底發(fā)布的第五代至強,雖然和第四代至強一樣都是基于Intel 7制程打造的,并采用了Dual-poly-pitch SuperFin晶體管技術,但英特爾依然在關鍵的技術指標上做了改進,比如系統(tǒng)的漏電流控制和動態(tài)電容等。在這些改進下,整體上第五代至強在同等功耗下的頻率可以提升3%,其中有2.5%是由漏電流控制貢獻的,動態(tài)電容下降貢獻了0.5%。
除此之外,第五代至強的多芯片封裝方式有所改變,第四代至強就是把芯片分為四個部分,這四個部分是相對對稱的。而第五代至強的切分方式則做了調(diào)整,把切四份的做法變成了切兩份。過去每兩片之間相互進行通信時,需要有一些芯片互連之間的接口,不僅占用了額外的芯片面積,也額外增加了功耗。如今隨著芯片質(zhì)量控制得到進一步改進,英特爾可以在相對較大的面積下依舊獲得很好的良率,所以通過將四芯片改為兩芯片的方式,芯片的面積得到了更好的控制。
此外第五代至強的處理核心升級到了Raptor Cove核心,核心數(shù)從最多的60核升級到64核。在I/O速度上,DDR速度從4800MT/s提升到了5600MT/s,UPI速度從16GT/s提升到20GT/s。而最大的升級之一當屬LLC大小,單個模塊的LLC容量從1.875MB增加到了5MB。這樣如果處理規(guī)模較小的數(shù)據(jù)集時,甚至可以將主要數(shù)據(jù)放在LLC緩存中,從而大量減少內(nèi)存訪問,進而大幅提高性能。這些架構(gòu)上的改進,也使其在生成式AI和LLM等AI應用上的性能得到了提升。
通用服務器上跑AI
除了傳統(tǒng)的CPU計算核心外,英特爾也增加了AMX加速器,專門針對矩陣運算。根據(jù)測試,AI推理的性能與上一代相比提升了至多42%。針對非大模型類的AI應用,英特爾始終致力于在CPU上部署AI,并結(jié)合其OpenVINO生態(tài)進行優(yōu)化,比如推薦、語音識別、圖像識別等。
而面對推薦系統(tǒng),尤其是面對GPU也無法單獨處理的大模型時,CPU反而更快。因為GPU不夠用的時候,玩玩需要跨GPU計算,或者需要和CPU頻繁交互,如此一來CPU效率更高。
對于通用的AI工作負載,英特爾采用AMX和AVX-512兩個指令集,基于OpenVINO進行優(yōu)化。在推理的過程中,指令集上可以進行切分,通過加速器定向加速某一部分,甚至可以替代傳統(tǒng)的基于GPU的AI模型。
除此之外,還有成本上的考量,在模型調(diào)優(yōu)、推理、應用上,使用通用服務器有非常大的性價比提升。尤其是當企業(yè)并不需要24小時都要跑大模型,大模型只是對業(yè)務的輔助時,比如聊天機器人、或是內(nèi)容生成、提綱分析等,這些只是幫助企業(yè)業(yè)務的生產(chǎn)力提高,尤其是在私有云上,就沒有必要再重新部署一個新的GPU的平臺。因為一個新的平臺意味著需要考慮開發(fā)、運維等因素,成本有可能增加,而這對于企業(yè)來說也可能會成為負擔。
以合作伙伴舉例,比如百度云也有基于第五代至強的服務器,提供了可以在CPU上運行的大型計算模型的服務;在京東基于第五代至強的應用中可以看到,和前一代的處理器相比,在Llama2 13B的模型上,看到有50%的性能提升。所以第五代至強在AI上應用的性能提升是比較明顯的。
再者就是編解碼上的應用,目前主流客戶為了達到更好的圖像質(zhì)量,反而會采用CPU做編解碼。GPU在擁有硬件加速的情況下,其特點是快,但視頻編解碼質(zhì)量往往略差于CPU。通過第五代至強處理器AMX-INT8的加持,已經(jīng)把吞吐從原來的1.5FPS增強到了33FPS,基本可以滿足實時編碼的需求。
下一代至強路線圖
從路線圖上來看,2024年英特爾還會發(fā)布新一代英特爾至強可擴展處理器,而且有一個非常豐富的產(chǎn)品組合,同時滿足對性能和能耗的要求。基于現(xiàn)在的第五代至強,英特爾也會發(fā)布下一代的性能核,就是高主頻、高性能的CPU核架構(gòu),為主流和復雜的數(shù)據(jù)中心的應用進行性能優(yōu)化,尤其是目前有很多程序是跑在虛擬機上,之前寫的非常大的程序要跑在性能核上的,才能看到一個非常好的性能提升。
同時對新興的,尤其是基于云原生的設計,英特爾還提供基于能效核打造的至強處理器,每瓦性能可以做到相對極致,而且因為它的核心設計比較精簡,可以放更多高密度的核數(shù)到每一款的CPU和服務器,從而支持面向云的高密度超高能效的運算進行能效的優(yōu)化。在近期對于產(chǎn)品淘汰換新的要求中,有一個重要考量因素就是能效比,這同樣也是符合國家對設備淘汰換新的要求。
-
處理器
+關注
關注
68文章
18928瀏覽量
227266 -
英特爾
+關注
關注
60文章
9750瀏覽量
170667 -
cpu
+關注
關注
68文章
10702瀏覽量
209426 -
AI
+關注
關注
87文章
28883瀏覽量
266258
發(fā)布評論請先 登錄
相關推薦
評論