精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Magnum IO用于云本機超級計算架構(gòu)

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-15 14:54 ? 次閱讀

超級計算機是一項重要的投資,但對于研究人員和科學家來說,它們是極其寶貴的工具。為了有效和安全地共享這些數(shù)據(jù)中心的計算能力, NVIDIA 引入了云本地超級計算架構(gòu)。它結(jié)合了裸機性能、多租戶和超級計算的性能隔離。

Magnum IO是數(shù)據(jù)中心的 I / O 子系統(tǒng),它引入了新的增強功能,以加速支持多租戶數(shù)據(jù)中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云本機超級計算架構(gòu)。

它們由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網(wǎng)絡(luò)適配器。

這種進化環(huán)境的挑戰(zhàn)是什么?

基于 GPU 的高性能計算已經(jīng)通過機器學習模擬改變了科學并增強了實驗。運行這些深度學習框架和模擬工具的 GPU 會消耗數(shù) PB 的數(shù)據(jù),并在整個數(shù)據(jù)中心造成擁塞和瓶頸。使事情進一步復雜化的是,這些應(yīng)用程序的多個實例在共享超級計算基礎(chǔ)設(shè)施中同時運行會對每個應(yīng)用程序的性能產(chǎn)生不利影響,從而導致無法預測的運行時間。

Magnum IO for Cloud 本機超級計算體系結(jié)構(gòu)具有新的和改進的功能,以減輕在多租戶環(huán)境中運行對最終用戶性能的負面影響。它提供確定性的性能級別,就好像它們的應(yīng)用程序是網(wǎng)絡(luò)上唯一運行的應(yīng)用程序一樣。

第三代 NVIDIA SHARP (可擴展分層聚合和縮減協(xié)議)

夏普技術(shù)通過消除端點之間多次發(fā)送數(shù)據(jù)的需要,將集合操作從主機 CPU 卸載到交換機網(wǎng)絡(luò),從而提高了 MPI 操作的性能。這種方法減少了到達聚合節(jié)點時通過網(wǎng)絡(luò)的數(shù)據(jù)量,并顯著減少了 MPI 操作時間。

在網(wǎng)絡(luò)中實現(xiàn)集體通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計算,而不是使用它們來處理通信。

圖 1 NVIDIA SHARP 聚合架構(gòu)框圖。

最近發(fā)布的 NVIDIA Quantum-2 InfiniBand 交換機為通過網(wǎng)絡(luò)的大型數(shù)據(jù)聚合提供了幾乎無限的可擴展性。由于支持無限的小消息縮減和每個交換機的多個大消息縮減流,跨共享系統(tǒng)運行應(yīng)用程序的多個租戶現(xiàn)在可以充分利用 SHARP 的優(yōu)勢。

Watch the In-Network Computing with NVIDIA SHARP Video.

性能隔離

多租戶超級計算涉及許多在共享基礎(chǔ)設(shè)施上運行的用戶應(yīng)用程序,可能會重復使用物理服務(wù)器、存儲、網(wǎng)絡(luò)以及這些應(yīng)用程序生成的 I / O 流量模式。

NVIDIA Quantum InfiniBand 在檢測到網(wǎng)絡(luò)擁塞時管理網(wǎng)絡(luò)擁塞,并在源位置實施控制以減少網(wǎng)絡(luò)擁塞。但使用多租戶,用戶應(yīng)用程序可能不知道對相鄰應(yīng)用程序流量的任意干擾,因此需要隔離以提供預期的性能級別。

借助最新的 NVIDIA Quantum-2 InfiniBand 平臺和 Magnum IO ,創(chuàng)新的主動監(jiān)控和擁塞管理提供了所需的流量隔離。這幾乎消除了性能抖動,并確保了預期的預測性能,就像應(yīng)用程序在專用系統(tǒng)上運行一樣。

pYYBAGJZFsmAYudXAABgOQ0GTXg079.png

圖 2 性能隔離的好處。

專為安全、多租戶、裸機性能而打造

NVIDIA Cloud-Native Supercomputing體系結(jié)構(gòu)使用 Magnum IO 在多租戶環(huán)境中實現(xiàn)最高性能、安全性和編排。

poYBAGJZFtCAc_hCAAECd4tBFts823.png

圖 3 使用 DPU 遷移到云本機超級計算體系結(jié)構(gòu)。

此外,實現(xiàn)這種架構(gòu)轉(zhuǎn)換的另一個核心元素是數(shù)據(jù)處理單元( DPU ),也稱為 BlueField 。作為一個完全集成的片上數(shù)據(jù)中心平臺, BlueField 卸載和管理數(shù)據(jù)中心基礎(chǔ)設(shè)施,而不是主機處理器,實現(xiàn)超級計算機的安全和協(xié)調(diào)。它還能夠提供額外的通信框架卸載,產(chǎn)生 100% 的通信計算重疊,同時實現(xiàn) MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當結(jié)合 NVIDIA Quantum-2 的最新進展時,該體系結(jié)構(gòu)在安全的多節(jié)點體系結(jié)構(gòu)中展示了裸機性能的性能隔離。

Magnum IO 消除了 I / O 瓶頸,并公開了硬件級加速引擎、網(wǎng)絡(luò)計算和擁塞控制方面的最新技術(shù),這些技術(shù)是支持當今具有裸機性能的多租戶數(shù)據(jù)中心所必需的。

關(guān)于作者

Scot Schultz 是 HPC 技術(shù)專家,專注于人工智能和機器學習系統(tǒng)。 Scot 在分布式計算、操作系統(tǒng)、人工智能框架、高速互連和處理器技術(shù)方面擁有廣泛的知識。在他的整個職業(yè)生涯中,擁有超過 25 年的高性能計算系統(tǒng)經(jīng)驗,他的職責包括各種工程和領(lǐng)導角色,包括戰(zhàn)略 HPC 技術(shù)生態(tài)系統(tǒng)支持。 Scot 在眾多行業(yè)標準組織的成長和發(fā)展中發(fā)揮了重要作用。

Harry Petty 是一位經(jīng)驗豐富的數(shù)據(jù)中心營銷人員和技術(shù)專家,曾在大型科技公司擔任領(lǐng)導職務(wù),為混合云、存儲解決方案、網(wǎng)絡(luò)處理器和服務(wù)器產(chǎn)品線推廣 SDN 產(chǎn)品。他曾與許多客戶合作,在多個數(shù)據(jù)中心部署應(yīng)用程序。當 Harry 不討論 HPC 數(shù)據(jù)中心的 IO 子系統(tǒng)時,他喜歡在北加利福尼亞州附近的 Sierra 山麓和湖泊中進行戶外活動。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4692

    瀏覽量

    71956
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46868

    瀏覽量

    237592
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8378

    瀏覽量

    132415
收藏 人收藏

    評論

    相關(guān)推薦

    云端超級計算機怎么用

    云端超級計算機是一種基于計算的高性能計算服務(wù),它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡(luò)向
    的頭像 發(fā)表于 10-18 10:14 ?112次閱讀

    AI平臺與傳統(tǒng)計算的區(qū)別

    AI平臺與傳統(tǒng)計算在定義、技術(shù)架構(gòu)、應(yīng)用場景和服務(wù)模式等方面存在顯著差異。
    的頭像 發(fā)表于 10-14 10:08 ?268次閱讀

    解析一體式IO與分布式IO:從架構(gòu)到應(yīng)用

    在工業(yè)自動化領(lǐng)域,IO(輸入/輸出)系統(tǒng)扮演著舉足輕重的角色。它們不僅負責數(shù)據(jù)的采集和控制指令的發(fā)送,還直接影響到系統(tǒng)的靈活性、可靠性和成本效益。明達技術(shù)將為您介紹一體式IO和分布式IO架構(gòu)
    的頭像 發(fā)表于 10-08 10:02 ?183次閱讀
    解析一體式<b class='flag-5'>IO</b>與分布式<b class='flag-5'>IO</b>:從<b class='flag-5'>架構(gòu)</b>到應(yīng)用

    如何理解計算

    據(jù)的安全性。 **高性能計算:**計算平臺提供高性能的計算資源,用于處理復雜的科學和工程計算
    發(fā)表于 08-16 17:02

    一體式IO與分布式IO:工業(yè)控制系統(tǒng)的兩種架構(gòu)

    一體式IO與分布式IO架構(gòu)各有優(yōu)勢和局限性。選擇合適的IO架構(gòu)需要根據(jù)實際的生產(chǎn)需求、系統(tǒng)規(guī)模、成本預算和維護能力綜合考慮。隨著工業(yè)自動化技
    的頭像 發(fā)表于 07-17 16:12 ?876次閱讀
    一體式<b class='flag-5'>IO</b>與分布式<b class='flag-5'>IO</b>:工業(yè)控制系統(tǒng)的兩種<b class='flag-5'>架構(gòu)</b>

    計算與企業(yè)IT成本治理

    時至今日,計算已逐步替代傳統(tǒng)IT中服務(wù)器、存儲、虛擬化等單體軟硬件的IT架構(gòu),成為企業(yè)IT能力中最重要的組成部分。企業(yè)在利用計算帶來的便
    的頭像 發(fā)表于 06-19 09:40 ?498次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>計算</b>與企業(yè)IT成本治理

    【RISC-V人才行】走進國家超級計算深圳中心(深圳計算中心)

    2024年4月25日,RISC-V國際人才培養(yǎng)認證中心蔣學剛主任訪問了國家超級計算深圳中心(深圳計算中心)(以下簡稱:深圳超算中心),受到了超算中心應(yīng)用推廣部牛冰潔女士的熱情接待。深
    的頭像 發(fā)表于 05-13 17:44 ?475次閱讀
    【RISC-V人才行】走進國家<b class='flag-5'>超級</b><b class='flag-5'>計算</b>深圳中心(深圳<b class='flag-5'>云</b><b class='flag-5'>計算</b>中心)

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    2024年3月19日,[英偉達]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構(gòu)BLACKWELL,并推出基于該架構(gòu)超級芯片GB200,將助推數(shù)據(jù)處理、工程模擬、電子設(shè)計自動化、計算
    發(fā)表于 05-13 17:16

    富士通使用富岳超級計算機訓練LLM

    盡管富士通的富岳超級計算機不再是超級計算機500強名單中最快的機器,但它仍然是一個非常強大的系統(tǒng),A64FX處理器的多功能性允許將其用于各種
    的頭像 發(fā)表于 05-13 14:18 ?517次閱讀

    NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬億參數(shù)級的生成式 AI 超級計算

    ——? NVIDIA 于今日發(fā)布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX SuperPOD?。這臺 AI
    發(fā)表于 03-19 10:56 ?388次閱讀
    NVIDIA 推出 Blackwell <b class='flag-5'>架構(gòu)</b> DGX SuperPOD,適<b class='flag-5'>用于</b>萬億參數(shù)級的生成式 AI <b class='flag-5'>超級</b><b class='flag-5'>計算</b>

    特斯拉在布法羅超級工廠投資5億美元建造Dojo超級計算

    霍楚爾表示,此次項目投資為5億美元,并將同時在紐約州立大學建設(shè)另一臺獨立的AI超級計算機。“我很榮幸地告訴大家,特斯拉將在布法羅投資5億美元,用于其新一代超級
    的頭像 發(fā)表于 01-29 10:58 ?389次閱讀

    邊緣計算計算的區(qū)別

    邊緣計算計算是兩種不同的計算模式,在數(shù)字化時代的發(fā)展中,它們都起到了重要的作用。本文將介紹邊緣計算
    的頭像 發(fā)表于 12-27 15:46 ?2599次閱讀

    mec邊緣計算與私有的區(qū)別

    基于私有數(shù)據(jù)中心的計算架構(gòu),被單個組織或企業(yè)使用。在私有云中,所有的計算、存儲和網(wǎng)絡(luò)資源都由該組織自己管理和控制。它提供了與公共相似的功
    的頭像 發(fā)表于 12-27 15:31 ?944次閱讀

    邊緣計算計算的區(qū)別和聯(lián)系

    邊緣計算計算是兩種不同的計算模型,它們在應(yīng)用場景、架構(gòu)、數(shù)據(jù)處理等方面有著顯著的差異。本文將詳盡、詳實、細致地闡述邊緣
    的頭像 發(fā)表于 12-27 15:14 ?2723次閱讀

    亞馬遜科技與 NVIDIA 宣布開展戰(zhàn)略合作,為生成式 AI 提供全新超級計算基礎(chǔ)架構(gòu)、軟件和服務(wù)

    亞馬遜科技將提供首款搭載 NVIDIA Grace Hopper 超級芯片 和亞馬遜科技可擴展性 UltraCluster 的? AI 超級
    的頭像 發(fā)表于 11-29 21:00 ?614次閱讀
    亞馬遜<b class='flag-5'>云</b>科技與 NVIDIA 宣布開展戰(zhàn)略合作,為生成式 AI 提供全新<b class='flag-5'>超級</b><b class='flag-5'>計算</b>基礎(chǔ)<b class='flag-5'>架構(gòu)</b>、軟件和服務(wù)