超級計算機是一項重要的投資,但對于研究人員和科學家來說,它們是極其寶貴的工具。為了有效和安全地共享這些數(shù)據(jù)中心的計算能力, NVIDIA 引入了云本地超級計算架構(gòu)。它結(jié)合了裸機性能、多租戶和超級計算的性能隔離。
Magnum IO是數(shù)據(jù)中心的 I / O 子系統(tǒng),它引入了新的增強功能,以加速支持多租戶數(shù)據(jù)中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云本機超級計算架構(gòu)。
它們由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網(wǎng)絡(luò)適配器。
這種進化環(huán)境的挑戰(zhàn)是什么?
基于 GPU 的高性能計算已經(jīng)通過機器學習和模擬改變了科學并增強了實驗。運行這些深度學習框架和模擬工具的 GPU 會消耗數(shù) PB 的數(shù)據(jù),并在整個數(shù)據(jù)中心造成擁塞和瓶頸。使事情進一步復雜化的是,這些應(yīng)用程序的多個實例在共享超級計算基礎(chǔ)設(shè)施中同時運行會對每個應(yīng)用程序的性能產(chǎn)生不利影響,從而導致無法預測的運行時間。
Magnum IO for Cloud 本機超級計算體系結(jié)構(gòu)具有新的和改進的功能,以減輕在多租戶環(huán)境中運行對最終用戶性能的負面影響。它提供確定性的性能級別,就好像它們的應(yīng)用程序是網(wǎng)絡(luò)上唯一運行的應(yīng)用程序一樣。
第三代 NVIDIA SHARP (可擴展分層聚合和縮減協(xié)議)
夏普技術(shù)通過消除端點之間多次發(fā)送數(shù)據(jù)的需要,將集合操作從主機 CPU 卸載到交換機網(wǎng)絡(luò),從而提高了 MPI 操作的性能。這種方法減少了到達聚合節(jié)點時通過網(wǎng)絡(luò)的數(shù)據(jù)量,并顯著減少了 MPI 操作時間。
在網(wǎng)絡(luò)中實現(xiàn)集體通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計算,而不是使用它們來處理通信。
圖 1 NVIDIA SHARP 聚合架構(gòu)框圖。
最近發(fā)布的 NVIDIA Quantum-2 InfiniBand 交換機為通過網(wǎng)絡(luò)的大型數(shù)據(jù)聚合提供了幾乎無限的可擴展性。由于支持無限的小消息縮減和每個交換機的多個大消息縮減流,跨共享系統(tǒng)運行應(yīng)用程序的多個租戶現(xiàn)在可以充分利用 SHARP 的優(yōu)勢。
Watch the In-Network Computing with NVIDIA SHARP Video.
性能隔離
多租戶超級計算涉及許多在共享基礎(chǔ)設(shè)施上運行的用戶應(yīng)用程序,可能會重復使用物理服務(wù)器、存儲、網(wǎng)絡(luò)以及這些應(yīng)用程序生成的 I / O 流量模式。
NVIDIA Quantum InfiniBand 在檢測到網(wǎng)絡(luò)擁塞時管理網(wǎng)絡(luò)擁塞,并在源位置實施控制以減少網(wǎng)絡(luò)擁塞。但使用多租戶,用戶應(yīng)用程序可能不知道對相鄰應(yīng)用程序流量的任意干擾,因此需要隔離以提供預期的性能級別。
借助最新的 NVIDIA Quantum-2 InfiniBand 平臺和 Magnum IO ,創(chuàng)新的主動監(jiān)控和擁塞管理提供了所需的流量隔離。這幾乎消除了性能抖動,并確保了預期的預測性能,就像應(yīng)用程序在專用系統(tǒng)上運行一樣。
圖 2 性能隔離的好處。
專為安全、多租戶、裸機性能而打造
NVIDIA Cloud-Native Supercomputing體系結(jié)構(gòu)使用 Magnum IO 在多租戶環(huán)境中實現(xiàn)最高性能、安全性和編排。
圖 3 使用 DPU 遷移到云本機超級計算體系結(jié)構(gòu)。
此外,實現(xiàn)這種架構(gòu)轉(zhuǎn)換的另一個核心元素是數(shù)據(jù)處理單元( DPU ),也稱為 BlueField 。作為一個完全集成的片上數(shù)據(jù)中心平臺, BlueField 卸載和管理數(shù)據(jù)中心基礎(chǔ)設(shè)施,而不是主機處理器,實現(xiàn)超級計算機的安全和協(xié)調(diào)。它還能夠提供額外的通信框架卸載,產(chǎn)生 100% 的通信計算重疊,同時實現(xiàn) MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當結(jié)合 NVIDIA Quantum-2 的最新進展時,該體系結(jié)構(gòu)在安全的多節(jié)點體系結(jié)構(gòu)中展示了裸機性能的性能隔離。
Magnum IO 消除了 I / O 瓶頸,并公開了硬件級加速引擎、網(wǎng)絡(luò)計算和擁塞控制方面的最新技術(shù),這些技術(shù)是支持當今具有裸機性能的多租戶數(shù)據(jù)中心所必需的。
關(guān)于作者
Scot Schultz 是 HPC 技術(shù)專家,專注于人工智能和機器學習系統(tǒng)。 Scot 在分布式計算、操作系統(tǒng)、人工智能框架、高速互連和處理器技術(shù)方面擁有廣泛的知識。在他的整個職業(yè)生涯中,擁有超過 25 年的高性能計算系統(tǒng)經(jīng)驗,他的職責包括各種工程和領(lǐng)導角色,包括戰(zhàn)略 HPC 技術(shù)生態(tài)系統(tǒng)支持。 Scot 在眾多行業(yè)標準組織的成長和發(fā)展中發(fā)揮了重要作用。
Harry Petty 是一位經(jīng)驗豐富的數(shù)據(jù)中心營銷人員和技術(shù)專家,曾在大型科技公司擔任領(lǐng)導職務(wù),為混合云、存儲解決方案、網(wǎng)絡(luò)處理器和服務(wù)器產(chǎn)品線推廣 SDN 產(chǎn)品。他曾與許多客戶合作,在多個數(shù)據(jù)中心部署應(yīng)用程序。當 Harry 不討論 HPC 數(shù)據(jù)中心的 IO 子系統(tǒng)時,他喜歡在北加利福尼亞州附近的 Sierra 山麓和湖泊中進行戶外活動。
審核編輯:郭婷
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4692瀏覽量
71956 -
人工智能
+關(guān)注
關(guān)注
1791文章
46868瀏覽量
237592 -
機器學習
+關(guān)注
關(guān)注
66文章
8378瀏覽量
132415
發(fā)布評論請先 登錄
相關(guān)推薦
評論