(文/程文智)近年來,在數字化浪潮的推動下,傳感器及其產生的數據量呈現出了爆炸式的增長,對數據處理基礎架構的需求也隨之增長。根據國際超級計算大會(ISC)的統計,在HPC領域,超算系統架構正變得越來越多元化,在近幾年的TOP500超算榜單中,使用GPU、FPGA等加速卡的異構計算系統占比呈上升趨勢。
圖:Alveo U55C數據中心加速器卡
近日,賽靈思(Xilinx)在SC21全球超級計算大會上推出了新的Alveo U55C數據中心加速器卡,以及一款基于標準、API-driven 的集群解決方案,用于大規模部署 FPGA。據賽靈思數據中心事業部高性能計算( HPC )產品經理Nathan Chang介紹,Alveo U55C加速器卡結合了非常多當今HPC和大數據工作負載需要的關鍵功能。該加速器卡能夠提供Alveo 加速器產品系列中的最高計算密度和 HBM2容量。結合賽靈思基于 RoCE v2 的全新集群解決方案,可令運行大規模計算工作負載的各類客戶大獲裨益,支持其利用現有數據中心基礎架構和網絡,實現強大的基于 FPGA 的 HPC 集群。
圖:賽靈思數據中心事業部高性能計算( HPC )產品經理Nathan Chang
Alveo U55C最重要的特性
Alveo U55C卡融合了當前 HPC工作負載所需的眾多關鍵特性。它能提供更高的數據流水線并行度、卓越的存儲器管理、優化的整個流水線的數據遷移,以及Alveo產品系列中最高的單位功耗性能。
Alveo U55C與其前一代產品Alveo U280相比,有了很多升級。從外觀上來看,Alveo U55C采用了單插槽、全高半長( FHHL )外形尺寸;從算力上來看,雖然Alveo U55C提供的算力沒變,但體積更小了,計算密度得到了很大的提升;從功耗上來看,Alveo U55C的最大功耗為150W,而Alveo U280的功耗為225W。而且,Alveo U55C還將HBM2的容量翻倍至16GB。
Nathan Chang解釋說,功耗降低的原因是Alveo U55C去掉了DDR,在存儲器卡方面讓HBM2增加了一倍,這就相當于讓高帶寬的數量增加了4倍,由于去掉了DDR,所以Alveo U55C整個TDP功耗也下降了。
圖:Alveo U55C與其前一代產品Alveo U280的參數對比
在Nathan Chang看來,Alveo U55C有三個非常重要的特性:一是采用了RoCE v2、DCBx,還有MPI,在現有網絡和基礎架構上,為現在的數據中心提供了最尖端的計算集群。第二,現有的應用開發人員可以利用Vitis平臺上的一些已有的API、庫以及MPI,來擴展他們的工作負載。第三就是高性能。
據他介紹,通過RoCE v2和 DCBx技術,再結合200 Gbps帶寬,Alveo U55C構建的集群解決方案使Alveo網絡可在性能和時延方面媲美 InfiniBand 網絡,且無需對廠商加鎖。MPI (信息傳遞接口)集成功能使 HPC 開發人員能以賽靈思 Vitis統一軟件平臺擴展Alveo數據流水線。利用現有開放標準和框架,現在能跨數百張 Alveo 卡上進行性能擴展,無需考慮服務器平臺和網絡基礎架構,同時還能共享工作負載和存儲器。
借助面向應用和集群的高層次編程,軟件開發者和數據科學家能夠運用 Vitis 平臺,解鎖 Alveo 和自適應計算的優勢。賽靈思大力投入于 Vitis 開發平臺和工具流程,旨在令不具備硬件專業知識的軟件開發者和數據科學家,也能更容易地使用自適應計算。Vitis 平臺支持 Pytorch 和 Tensorflow 等主流 AI 框架,還支持 C、C++ 和 Python 等高層次編程語言,使開發者能利用特定 API 和庫來構建領域解決方案,或者使用賽靈思軟件開發套件,從而在現有數據中心內輕松加速關鍵 HPC 工作負載。
應用案例
談到Alveo U55C的應用,Nathan Chang列舉了幾個常用的應用場景,比如幾乎每一家汽車廠商都會用到的碰撞仿真軟件LS-DYNA。汽車廠商主要是用它賴進行汽車的撞擊測試,以便查看仿真效果,確保汽車在設計方面的安全性和結構方面的完整性。而安全性和結構系統的設計往往取決于模型性能,因其能以計算機輔助設計有限元方法( FEM )仿真來降低物理碰撞測試的成本。FEM求解器是驅動具備數億個自由度仿真的主要算法,而這些龐大的算法可以細分為更基本的求解器,如 PCG、稀疏矩陣、ICCG。與 x86 CPU 相比,利用超并行數據流水線在大量 Alveo 卡上進行性能擴展,LS-DYNA 能夠實現超過 5 倍的性能加速。這能在一個 Alveo 流水線中提高單位時鐘周期的工作效率,令 LS-DYNA 客戶受益于突破性的仿真時間。
另外,他還介紹了一個圖分析的案例,“在加入賽靈思之前,我是一個創業者,當時我處于油氣行業,主要做的工作是做地殼震動圖解決的AI和機器學習。我們知道,數據工程師、科學家、分析師在處理此類課題的時候,都會尋找數據的一些相關性。在尋找的過程中,我們發現了一個巨大的痛點,那就是數據的孤島越來越多,如果想要把這些不同孤島上的數據聯系起來,真的非常困難。”他感嘆。
不過,Nathan Chang表示,圖庫數據是科學家認為非常具有顛覆性的一個平臺,它能夠將數據從孤島中提取出來,讓偶讓數據科學家可以專注于數據之間的關系,而不是看單張圖。賽靈思的合作伙伴,TigerGraph 是一家圖分析平臺提供商,他們正使用多張 Alveo U55C 卡為兩種最高效算法進行集群與加速,以驅動基于圖的推薦和集群引擎。圖從信息孤島中采集數據并重點關注數據間的關系。圖領域的下一個前沿是實時查找答案。Alveo U55C 將推薦引擎的查詢和預測時間從數分鐘縮短至數毫秒。與基于 CPU 的集群相比,使用多張 U55C 卡擴展分析所提供的出色計算能力和存儲器帶寬,可將圖查詢速度提升高達 45 倍。質量評分也提升高達 35%,從而顯著提升置信度,將誤報幾率降至低個位數
另外,他還列舉了Alveo U55C在信號處理、醫療和金融方面的應用。
總結
隨著高性能計算邁向百億億級大關,功耗將成為下一個難關。而典型的高性能計算架構,即CPU和GPU的架構,難以提供可接收的單位功耗性能,因此,現在越來越多的高性能計算集群開始采用一機構計算架構,預計未來將會有更多的算力會部署在專門的加速器上,而不是通用CPU上。對于整個HPC服務器集群的降功耗目標來說,使用加速器卡的效果更好,功耗更低。未來加速器卡的市場前景將會更加廣闊。
-
FPGA
+關注
關注
1626文章
21678瀏覽量
602037 -
圖像處理
+關注
關注
27文章
1282瀏覽量
56657 -
異構計算
+關注
關注
2文章
99瀏覽量
16272
發布評論請先 登錄
相關推薦
評論