電子發燒友網報道(文/黃晶晶)日前,AMD推出Alveo V80加速卡,Versal FPGA自適應SoC搭配HBM,可處理計算以及內存密集型的工作負載,用于高性能計算、數據分析、金融科技、存儲壓縮等等。
突破網絡訪問和內存的瓶頸
此次Alveo V80為何采用HBM高速內存,AMD 自適應和嵌入式計算事業部( AECG )高級產品線經理Shyam Chander分析,在傳統的處理器架構中,無論是存儲器還是網絡訪問都容易形成瓶頸。網絡接口只支持25G、100G,內存采用DDR而FPGA的帶寬遠高于內存提供的帶寬。
那么Alveo V80針對于這兩個問題進行了優化,帶來顯著的性能提升。內存采用高帶寬存儲器HBM2e,提供820 GB/s 的存儲器帶寬,容量達32GB。網絡訪問上采用QSFP56光纖模塊可以支持從10G到800G的帶寬,支持4X200G,以及4X10G/25G/40G/50G等不同工作模式。
這款加速卡采用全高、3/4 長( FH?L )尺寸規格,由 AMD Versal HBM 自適應 SoC 提供支持,具備 2,600,000 個 LUT 邏輯單元的 FPGA 架構、10,848 個 DSP 計算邏輯片以及 820 GB/s 的存儲器帶寬。
與前代產品 AMD Alveo U55C 計算加速卡相比,Alveo V80 的邏輯密度至高翻倍、存儲器帶寬至高翻倍且網絡帶寬可高至 4 倍,可以實現強大的計算集群,同時還能優化卡、服務器數量以及機架空間。
Alveo V80還配有32GB DDR DIMM擴展插槽,MCIO擴展端口可直連NVMe驅動器,實現存儲卡的連接。系統連接總線支持PCIe 5.0接口,可達64GB/秒傳輸速率。整卡功率300W,采用被動散熱,總熱設計功耗TDP則取決于器件和服務器。
V80集成高帶寬網絡核心600G以太網和400G加密引擎,硬化基礎設施連接包括DDR控制器、支持DMA的PCIe 5.0、可編程片上網絡。Shyam Chander表示,基于這些硬化的功能,用戶沒有必要使用軟性的IP進行部署。
通常來說,傳統的加速卡(如GPU)要與CPU進行連接,這會限制能夠使用的加速卡的數量。但是V80能夠避開CPU到加速卡的PCle瓶頸、低時延處理傳入的網絡數據,消除分立式網絡接口卡、實現每服務器的卡數和計算密度最大化。同時,按照需求以網絡限速的方式管理傳入的數據,包括在線加密、數據包監控、傳感器處理等等。
傳統架構是固定的緩存層次用于數據的讀取和寫入,不規則的訪問模式會降低效率。而V80的自適應計算,擁有靈活的架構,在計算附近分配內存,從而降低延遲和低功耗,并可以靈活適應自定義的數據類型和數據遷移。
AMD同時提供設計示例AVED,可在GitHub上獲取,以及用戶可繼續使用 Vivado設計套件,從而硬件開發者能夠更快地上手,助其縮短開發上市時間。
大規模加速內存密集型工作負載
Alveo V80加速卡可以應對很多大數據工作負載,包括高性能計算,包括基因組學和傳感器處理、數據分析(像欺詐檢測);金融科技,包括風險分析和算法交易;還有網絡安全,像數據包監控;存儲壓縮,這是一個非常關鍵的工作負載。另外在AI計算領域,包括推薦引擎和大語言模型等等。因此可以幫助客戶大規模加速以上工作負載,可以加快數據處理的速度,同時還能夠進行實時的洞見和分析。
以傳感器處理為例,聯邦科學與工業研究組織( CSIRO )是澳大利亞的國立研究組織,其參與建造了世界上最大的射電天文學天線陣列,該天線陣列目前包含 420 張 Alveo U55C 加速器卡用于處理無線電波,以研究早期宇宙并探索星系演化。
CSIRO計劃借助 Alveo V80 加速卡縮減占板面積與成本,并將所需加速卡的數量精簡多達 66%,同時應對來自望遠鏡 131,000 個天線的新信號處理任務。考慮到卡、服務器、機架空間和功耗的潛在減少,每卡算力的躍升預計可帶來至高 20% 總擁有成本( TCO )下降。
還有具備壓縮與數據分析功能的服務器存儲節點的例子,通過Alveo V80進行壓縮,利用FPGA架構和AMD壓縮IP可擴展存儲節點,并可解壓縮,查詢加速等。
從總擁有成本的角度來分析,比如10Pb數據存儲,沒有壓縮時需要55臺服務器,1303個SSD驅動器,每年約427千瓦時的功耗。如果進行壓縮,同樣10Pb數據,只需要21臺服務器,504個SSD驅動器,每年約233千瓦時,使用42張AMD Alveo V80卡進行壓縮,總擁有成本三年以上至高可以達到56%的降低,而且服務器的數量、服務器成本以及功耗也都有非常顯著的降低。
小結:
市面上加速卡也有GPU、ASIC等,但這些加速卡各有所長。Shyam Chander表示,相較而言GPU擅長浮點、并聯、定點,FPGA擅長線上訪問的實時處理,而且低時延、靈活應變,有非常豐富的存儲器架構資源。AMD Alveo系列產品主要針對內聯網絡、實時處理比如傳感器的實時處理、金融科技的需求,他們的訴求點在于低時延和靈活應變,FPGA的自適應SoC就是極好的解決方案。
另外,HBM的價格雖然高于DDR,但是如果能夠正確地配置FPGA資源,最終就能實現高性價比的競爭優勢。在產品路線上,全面看待工作負載方面的要求,也在考慮引入HBM3等存儲。
-
FPGA
+關注
關注
1626文章
21678瀏覽量
602037 -
amd
+關注
關注
25文章
5449瀏覽量
133960 -
AI
+關注
關注
87文章
30239瀏覽量
268479 -
HBM
+關注
關注
0文章
374瀏覽量
14708
發布評論請先 登錄
相關推薦
評論