超級計算機遍布世界各地,以解決人類面臨的一些最大挑戰。這些機房大小的大型機比任何筆記本電腦都強大幾百萬倍,具有令人眼花繚亂的快速計算能力。這些大型機曾經專門供大型政府實驗室、美國國家航空航天局(NASA)和制造、金融、石油和天然氣,以及航空航天等垂直行業的頂級參與者使用。但是現在,超級計算機的設計和構建方式正在發生變化,將它們應用于新的用例范圍。得益于新一代的處理能力和超高速網絡,我們正進入一個新的、或許更民主化的高性能計算(HPC)時代。
圖形處理單元(GPU)取代了中央處理單元(CPU)進行處理,從而顯著提高了計算吞吐量。與傳統的高性能計算(HPC)系統相比,基于GPU的系統占用的空間較小,并且它們的運行效率更高且運營成本更低。
但是隨著計算能力的提高,對最大數據吞吐量的需求也在增加。InfiniBand(HPC世界中常用的一種網絡標準)可以滿足對高吞吐量和極低延遲的需求。
強有力的支持生態系統是必須被視為民主化的明確標志的另一個因素。現在有600多個HPC應用程序利用GPU和InfiniBand網絡來提高性能,因此在商業和研究領域的采用率一直很強。
引領下一代人工智能
這種日益可訪問的處理能力的另一個新興用途是實現人工智能。使用大規模人工智能模型的趨勢正在改變,這正在改變人工智能的構建方式。
例如,微軟公司是人工智能的行業先驅,并同時使用GPU和InfiniBand。通過在其Azure平臺中利用最新的超級計算技術來支持一類新型的大規模模型,Microsoft正在實現新一代的人工智能。通過使用大量數據,這些大規模模型僅需訓練一次。然后,可以使用更小的數據集和資源針對不同的任務和領域對模型進行微調。
衡量績效的重要性
隨著高性能計算(HPC)用例的擴展,越來越多的超級計算機被構建為更快,更強大的規格。了解不同的高性能計算(HPC)機器之間如何進行比較仍然與以往一樣重要。因此,TOP500項目的意義在于對世界上500個最強大的非分布式計算機系統進行排名和詳細說明。該項目始于1993年,至今仍每年兩次發布更新的超級計算機列表,現在所包含的機器范圍比早期的要多得多。
TOP500項目的價值在于為跟蹤和檢測高性能計算的趨勢提供可靠的基礎。但是考慮一下用于量化HPC的基準。
從歷史上看,最重要的是長期的HPL基準。HPL是高性能Linpack Benchmark的便攜式實現。它用作提供TOP500數據的參考,并且是全球超級計算機排名中的關鍵工具。但是,它僅以觸發器的形式測量計算能力。
HPCG基準(高性能共軛梯度)是作為替代方案而創建的,它提供了另一個對HPC系統進行排名的指標,并旨在作為HPL的補充。盡管它尚未納入TOP500排名。
正如人們已經看到的那樣,人工智能現在已經成為高性能計算領域的關鍵部分,因此有人認為新的,更合適的基準是對這一趨勢的必要認識。
現代HPC系統的新指標
MLPerf是一種新型的基準測試組織。與人工智能超級計算的時代相吻合,其使命是建立公平,有用的基準,以衡量機器學習(ML)硬件,軟件和服務的訓練和推理性能。它日益受到人們的認可,正使其成為研究人員、開發人員、硬件制造商、機器學習框架的構建者、云服務提供商、應用程序提供商以及最終用戶的有用工具。
它的目標圍繞通過公平和有用的衡量來加速機器學習的進步,從而為商業和研究社區提供服務。它還旨在為競爭系統的比較提供更公平的基礎,同時鼓勵創新。它的精神風貌可能使它在其他HPC基準測試中脫穎而出,這是它致力于保持基準測試負擔得起,以便所有人都能參與的承諾。MLPerf得到了包括亞馬遜、百度、Facebook、谷歌、哈佛、英特爾、微軟和斯坦福等組織的支持,并且隨著人工智能自身的發展而不斷發展,以保持相關性。
當今最大的HPC和人工智能系統不僅通過具有InfiniBand網絡的GPU來解決傳統HPC工作負載的新方法,而且還推動了新一輪的推薦系統和對話式人工智能應用程序的發展,而其他系統則推動了對個性化和精準醫學的追求。
責任編輯:tzh
-
cpu
+關注
關注
68文章
10827瀏覽量
211171 -
計算
+關注
關注
2文章
445瀏覽量
38737 -
人工智能
+關注
關注
1791文章
46881瀏覽量
237618 -
機器學習
+關注
關注
66文章
8381瀏覽量
132428
發布評論請先 登錄
相關推薦
評論