AI 與科學計算工作負載的不斷融合從新的維度帶來性能挑戰。除了要滿足生命科學、材料科學、制造、仿真/建模以及金融等領域對科學計算工作負載的既有和不斷增長的需求外,企業的基礎設施還需滿足企業級推理和訓練對系統資源的需求,從而提供良好的最終用戶體驗。據此估計,全球科學計算市場將以 7.7% 的復合年增長率 (CAGR) 增長1,到 2026 年將達到 592 億美元1。
第四代英特爾 至強 可擴展處理器單核性能更高、核數更多、I/O 和內存子系統更ssss強,并且配備了一系列內置硬件加速器,從而能為科學計算工作負載帶來諸多助益。
實現科學計算系統的平衡
第四代英特爾 至強 可擴展處理器為科學計算工作負載帶來性能突破,助力縮短實現價值的時間。該平臺采用全新架構,單核性能更高,每路配備多達 60 個內核,系統支持 2 路、4 路和 8 路配置。這相當于單核密度最高可達 120 個線程,比上一代產品增加了 50%。
為了與內核數增加這種情況相匹配,該平臺在內存和 I/O 子系統方面也做了相應改進。DDR5 內存提供的帶寬和速度最高可達 DDR4 的 1.5 倍,傳輸速率達到 4800 MT/s。此外,該平臺每路有 80 條 PCIe Gen 5 通道,與之前的平臺相比,I/O 得到顯著提升。該平臺還提供 CXL (Compute Express Link 1.1) 連接,支持高網絡帶寬并使附加加速器能夠高效運行。
第四代英特爾 至強 可擴展處理器可為各類快速增長的工作負載提供性能加速。它內置多種針對特定應用的加速器,使 AI、數據分析、網絡、存儲和科學計算等領域工作負載的性能得到提升,其中包括:
期權定價
解決決策時間短、應用非常復雜且要求各不相同,以及隨著 AI 應用愈發普及,市場需求不斷變化等問題。
生命科學應用
通過完善模型和執行大規模計算來提高仿真精確度,使科研和發現更快速高效。
計算機輔助工程
推進計算機輔助工程應用快速獲得結果,助力降低成本、改善產品的安全和設計,并加速上市。
第四代英特爾 至強 可擴展處理器基于內置硬件加速器 (包括面向科學計算的加速器,即英特爾 科學計算引擎) 引入一種實現高性能的新范式。
性能證明:高達 1.56 倍 (幾何平均數),為 28 個常見科學計算工作負載帶來的性能提升 (與上一代產品相比)2,3
英特爾 科學計算引擎
?
性能證明:高達 1.68 倍 (幾何平均數),LAMMPS 工作負載性能提升 (與上一代產品相比)2,3
基于內置加速器的先進功能
隨著工作負載復雜性及其對計算資源的需求的提高,可以從 CPU 內核卸載某些功能,將那些執行資源留給業務關鍵型任務。這些功能包括 AI、安全以及常見的存儲和網絡功能。
直接內置于第四代英特爾 至強 可擴展處理器芯片的硬件加速器能夠加速平臺內的數據傳輸和處理。由于它們內置于處理器中,與獨立解決方案或內核上運行的基于軟件的解決方案相比,不會產生訪問 PCIe 總線的時延,相應地,就節省了能耗。利用這些內置加速器的用例可以實現更好的性能并節省資本支出 (CapEx) 和運營支出 (OpEx)。
性能
專用的加速器大幅提升目標工作負載的吞吐量。
設備成本
由于加速器內置于第四代英特爾 至強 可擴展處理器中,因此無需另外的設備投資。
運營成本
由于內置加速器減少了在機架中增加內核的需求,因此可以節省大量能源。
英特爾 高級矩陣擴展 (英特爾 AMX):
加速深度學習
事實證明,機器學習可以卓有成效地進行科學計算工作負載調優,實現效率與效能的提升。英特爾 高級矩陣擴展 (Intel Advanced Matrix Extensions,英特爾 AMX) 是一種內置的硬件加速器,可以通過加速深度學習算法的核心 —— 張量處理,顯著提高推理和訓練性能。該技術包括 TILE 和 TMUL (平鋪矩陣乘法) 兩部分,前者由一組可擴展的 2D 寄存器組成,每核最多 8 個 TILE,可存儲比上一代產品更大的數據塊;后者是一組矩陣乘法指令,是 TILE 上的首批算子。英特爾 AMX 使深度學習軟件能夠在給定時間段內完成更多推理,或者更快地部署解決方案,從而加速實現價值。
英特爾 高級矢量擴展 512 (英特爾 AVX-512)
最新 x86 矢量指令集
經過多代技術發展,精度逐漸提升的矢量化技術有助于在更大的數據集上更快完成計算。英特爾 高級矢量擴展 512 (Intel Advanced Vector Extensions 512,英特爾 AVX-512) 作為最新 x86 矢量指令集,構建于前幾代技術的矢量處理能力基礎上,可加速完成數據密集型工作負載。借助兩個 512 位融合乘加 (FMA) 單元,科學計算應用在 512 位矢量內的每個時鐘周期可打包 32 次雙精度和 64 次單精度浮點運算,以及八個 64 位和十六個 32 位整數,以滿足苛刻的計算工作負載需求,推動商業智能。與英特爾 高級矢量擴展 2 (Intel Advanced Vector Extensions 2,英特爾 AVX2) 相比,英特爾 AVX-512 使數據寄存器的寬度和數量以及融合乘加單元的寬度都增加了一倍。
英特爾 數據流加速器 (英特爾 DSA):
優化流數據傳輸
數據傳輸和轉換操作對存儲、網絡和數據密集型工作負載 (例如科學計算中的數據分析) 的性能來說至關重要。英特爾 數據流加速器 (Intel Data Streaming Accelerator,英特爾 DSA) 能夠卸載大規模部署中會產生開銷的常見數據傳輸任務,藉此提升這些功能的性能。通過承擔包括校驗、內存比較和檢查點在內幾乎所有的數據傳輸操作,英特爾 DSA 可以使 CPU 內核資源避免在數據移入移出內存、存儲和網絡子系統方面產生開銷。英特爾 DSA 優化了跨 CPU、內存和緩存以及各種附加內存、存儲和網絡設備的流數據傳輸。
英特爾 數據保護與壓縮加速技術 (英特爾 QAT):
提升加密和壓縮速度
減少加密和數據壓縮相關開銷對于提升集群整體性能發揮著重要作用。英特爾 數據保護與壓縮加速技術 (Intel QuickAssist Technology,英特爾 QAT) 作為硬件加速器內置于第四代英特爾 至強 可擴展處理器中,可實現更快的動態數據加解密、更高效的數據壓縮。與前幾代技術相比,這一技術的最新版本在加解密算法、安全哈希、公鑰加密和壓縮/解壓縮方面的表現更出色。它通過從處理器內核卸載這些任務,釋放出內核資源用于處理其他工作,因此提升了總吞吐量。英特爾 QAT 有助于實現零信任安全策略,在各種基礎設施中對各個階段 (靜態下、傳輸中、使用中) 的數據實施保護,而無損關鍵工作負載的性能。
開發人員賦能和支持
英特爾 oneAPI 工具套件是英特爾長期堅守對科學計算軟件生態系統的承諾并不斷演進的產物,它提供編譯器、庫和性能工具,能夠簡化面向英特爾 架構優化的高質量軟件的開發路徑。這些工具套件為那些想要利用第四代英特爾 至強 可擴展處理器內置加速器的開發人員提供了捷徑,以及基于標準的開源軟件開發堆棧。開發人員可以利用英特爾 oneAPI 工具套件生成代碼,全面提高各英特爾 架構 (包括內置加速器的 CPU、GPU 和 FPGA) 的性能。
由開源工具、API 和驅動程序等組成的大型開放式生態系統為基于 oneAPI 的開放標準代碼開發提供了便利。這種靈活性有助于企業和機構降低將新服務和解決方案推向市場的復雜性、成本和時間要求,簡化了新架構的落地,并使工程師和程序員能夠將精力放在創新而不是維護代碼上。
利用既有實現方案輕松集成
與英特爾合作,企業可以利用他們已經熟悉和正在使用的大規模合作伙伴生態系統縮短部署時間。全球各地的硬件和軟件供應商以及解決方案集成商都在使用英特爾 至強 可擴展處理器構建其產品,并通過數以千計來自真實場景的實現案例提供更多選擇和更好的互操作性。
高達 1.61 倍 (幾何平均數):第四代英特爾 至強 可擴展處理器與上一代產品相比
高達 2.01 倍 (幾何平均數):英特爾 至強 CPU MAX 系列與雙路第三代英特爾 至強 可擴展處理器相比
為滿足各種科學計算用例而設計
憑借高性能、DDR5 帶來的更高內存帶寬,以及 PCIe Gen 5 和 CXL 1.1 實現的先進 I/O,第四代英特爾 至強 可擴展處理器可為一系列實際用例加速。借助英特爾先進的軟件庫和編譯器,開發人員能夠更快速地構建代碼,開發性能更佳且開箱即用的科學計算應用。借助強大的英特爾 AVX-512 技術和每內核 2 個 FMA 單元,代碼和模型可滿足嚴苛的計算工作負載要求。利用英特爾 MPI 庫,工作負載能夠在多個科學計算集群中進行擴展。此外,您還可配置英特爾 傲騰 持久內存,在更大的內存中支持大型計算任務。
利用支持科學計算工作負載的英特爾 技術實現更多可能
提升帶寬
與僅采用 DDR5 的平臺相比,全新英特爾 至強 CPU Max 系列通過消除建模、AI、科學計算和數據分析等內存敏感型工作負載的瓶頸,將性能提升高達 4 倍。這是英特爾首款將高帶寬內存和加速器整合到處理器封裝中的 x86 CPU,其中 HBM2e 內存容量最高可達 64 GB。它減少了對 DDR 的依賴,可支持最新軟件工具并且具有出色的代碼復用性,因此降低了 TCO。
擴大影響
旗艦產品英特爾 數據中心 GPU Max 系列采用英特爾先進的 IP 和封裝技術,旨在加速 AI、科學計算和高級分析工作負載,滿足 E 級時代的要求。該系列基于英特爾 Xe HPC 架構,GPU 中配備有高帶寬緩存。在 oneAPI 開放生態系統的支持下,GPU 展現了出色的靈活,既可處理 SIMT (Single Instruction Multiple Threads,單指令多線程),也可處理 SIMD (Single Instruction Multiple Data,單指令多數據),它的封裝內集成了多項 IP 創新技術,包括高帶寬內存。
微秒級數據訪問
DAOS (分布式異步對象存儲) 是一種開源的軟件定義橫向擴展對象存儲系統,可以在單一存儲層中經濟高效地為科學計算和 AI 應用提供高帶寬、低時延和高 IOPS 的存儲容器。DAOS 原生支持結構化、半結構化和非結構化數據集,同時還擺脫了傳統分布式存儲的局限性。
評論
查看更多