4 月 9 日,英特爾在 Vision 2024 大會上公布最新一代 Gaudi 3 AI 芯片并宣布將于同年第三季度批量上市。相較于英偉達 H100,Gaudi 3 訓練性能提升 170%,推理能力增幅 50%,效率提升 40%,而成本顯著降低。
此外,英特爾在發布會上還宣布更改旗下數據中心CPU產品名稱:原“Granite Rapids”和“Sierra Forest”將更名為“Xeon 6”系列。新品預計今年發售,并支持性能提升后的標準化 MXFP4 數據格式。
除此之外,英特爾正研發適用于以太網的 AI NIC ASIC 及 AI NIC 小芯片。這兩款產品尤其適合于其未來的 XPU 和 Gaudi 3 處理器,有望通過英特爾代工廠對外銷售。有關網絡產品的詳細信息尚未公開。
據悉,Gaudi 3 采用 5nm 制程,FP8性能較前代翻番,BF16性能增大至四倍,網絡帶寬增加一倍,內存帶寬擴大約 1.5 倍,能夠提供Mezz卡、板載以及PCIe三種形式。
Gaudi 3擁有64個第五代張量處理核心和8個矩陣計算引擎,并配備128GBHBM內存和96MBSRAM。設計有24條200GBERoCE標準以太網總線和最多16條PCIe5.0總線。
在板載版,聚類產品型號為HLB-325。由八塊Gaudi 3 Mezz卡組成的模塊提供約14.6PFLOPS的FP8性能,極大的帶寬速率達29.6TB/s的HBM2e內存,64個線性計算引擎,192條200GBE網絡總線和上述所有。
在PCIe版本,型號為HL-338的卡具有單卡達1835TFLOPS的FP8峰值性能,128GBHBM2e內存,8個線性計算引擎,24條200GBE網絡總線,功率消耗600W,占兩卡槽的整體空間高度。
一個由8個Gaudi 3 AI加速器構成的節點可提供14.7PF FP8計算性能,128GB的內存,8.4TB/s的網絡讀寫速度,而64個節點的集群(512個AI加速器)能提供的最大計算性能為7.52EF FP8,525.3TB的內存和614TB/s的網絡讀寫速度。更高的,1024個節點的集群可以達到15EF FP8的計算性能,1PB的內存和1,229PB每秒的網絡讀寫速度。
在實際測試中,與英偉達的主流產品H100比較,Gaudi 3在相同節點數時的平均訓練時間要高出約1.7倍,LLAMA2 70億的模型參數的情況下超過了H100的1.5倍,對于LLAMA2 130億參數的模型,Gaudi 3在最高時也超過了H100的1.7倍,同樣,GPT 3已達到1750億參數,且Gaudi 3在推理速度和能效表現上均優
英特爾近日發布了其下一代 GPU 路線規劃——Gaudi 3,包括風冷和液冷版本,計劃于明年三至四季度相繼批量交付。Gaudi 3 由戴爾、惠普、聯想及超微等眾多合作伙伴負責生產和銷售,據稱下半年有望登陸英特爾自家的云服務——Developer Cloud。除了 Gaudi 3,英特爾還向我們展示了公司在各層面的 AI 產品線的最新進展。
為了更好地優化 AI 的表現,英特爾發布了全新的 Xeon 6 處理器,主要用于大模型的訓練。Xeon 6 采用了高效能的 E-core 核心和高性能的 P-core 核心,其中 E-core 核心代號為 Sierra Forest,能效較前一代提升了整整兩倍半,而 P-core 則代號為 Granite Rapids,支持 MXFP4。值得一提的是,比起前一代 Xeon 處理器,Xeon 6 的機身架構擴展了整整 2.7 倍,已經開始被許多用戶用來升級老舊設備,以此達到節能減排的目的。
值得一提的還有物聯網的應用。今年,英特爾預計將共售出超過 4000 萬臺基于酷睿 Ultra 處理器的 AI PC,除了消費級市場,AI 也正逐漸走進人們生活的方方面面,如工業制造、醫療健康等領域。據悉,該公司將于年內發布一系列新的邊緣芯片,這些產品將涵蓋酷睿 Ultra、酷睿、凌動處理器和 Arc GPU,旨在覆蓋多個不同行業的應用需求。
另外,英特爾還透露計劃此次與Ultra Ethernet Consortium合作,推出一種名為 AI Ethernet 的網絡解決方案,專門解決海量數據遷移中的網絡擁堵問題。
-
英特爾
+關注
關注
60文章
9880瀏覽量
171501 -
cpu
+關注
關注
68文章
10825瀏覽量
211146 -
數據中心
+關注
關注
16文章
4683瀏覽量
71954
發布評論請先 登錄
相關推薦
評論