精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

智能計算芯世界 ? 來源:智能計算芯世界 ? 2024-10-23 11:26 ? 次閱讀

ChatGPT對技術(shù)的影響引發(fā)了對人工智能未來的預(yù)測,尤其是多模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4,使各個領(lǐng)域取得了顯著的發(fā)展。 這些AI進(jìn)步是通過大規(guī)模模型訓(xùn)練實現(xiàn)的,這需要大量的計算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。端到端InfiniBand(IB)網(wǎng)絡(luò)作為高性能計算和AI模型訓(xùn)練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)訓(xùn)練的概念,并探索端到端InfiniBand網(wǎng)絡(luò)在解決LLM訓(xùn)練瓶頸方面的必要性。

大型語言模型(LLM)和ChatGPT之間是否存在聯(lián)系

訓(xùn)練大型語言模型(LLM)面臨的瓶頸主要與GPU計算集群內(nèi)的數(shù)據(jù)傳輸和通信有關(guān)。隨著大型語言模型的增長,對高速可靠網(wǎng)絡(luò)的需求變得至關(guān)重要。例如,具有1.75萬億參數(shù)的GPT-3的模型無法在單機上訓(xùn)練,而是嚴(yán)重依賴于GPU集群。主要瓶頸在于在訓(xùn)練集群中高效地在節(jié)點之間傳輸數(shù)據(jù)。

f7a9ca9c-90c5-11ef-a511-92fbcf53809c.png

階段1:環(huán)形全約減

一種常用的GPU通信算法是環(huán)形全約減,其中GPU形成一個環(huán),使數(shù)據(jù)在環(huán)內(nèi)流動。每個GPU都有一個左鄰和一個右鄰,數(shù)據(jù)只向右鄰發(fā)送,從左鄰接收。該算法包括兩個步驟:散射-約減和全收集。在散射-約減步驟中,GPU交換數(shù)據(jù)以獲得最終結(jié)果的一個塊。在全收集步驟中,GPU交換這些塊,以確保所有GPU都具有完整的最終結(jié)果。

f7c8591c-90c5-11ef-a511-92fbcf53809c.png

階段2:雙階段環(huán)形

過去由于帶寬有限且沒有NVLink或RDMA技術(shù),一個大型環(huán)對于單機和多機分布已經(jīng)足夠。然而,隨著NVLink在單機內(nèi)的引入,相同的方法不再適用。網(wǎng)絡(luò)帶寬遠(yuǎn)低于NVLink的帶寬,因此采用一個大環(huán)將大幅降低NVLink的效率到網(wǎng)絡(luò)的水平。此外,在當(dāng)前的多網(wǎng)卡環(huán)境中,僅利用一個環(huán)無法充分利用多個網(wǎng)卡。因此,建議采用雙階段環(huán)方法來解決這些問題。 在雙階段環(huán)形場景中,數(shù)據(jù)同步發(fā)生在單臺機器內(nèi)的GPU之間,利用了NVLink的高帶寬優(yōu)勢。隨后,跨多臺機器的GPU使用多個網(wǎng)卡建立多個環(huán)形,以同步來自不同段的數(shù)據(jù)。最后,單臺機器內(nèi)的GPU再次進(jìn)行同步,完成所有GPU之間的數(shù)據(jù)同步。值得注意的是,NVIDIA集體通信庫(NCCL)在這個過程中發(fā)揮了關(guān)鍵作用。

f7ec3634-90c5-11ef-a511-92fbcf53809c.png

NVIDIA集體通信庫(NCCL)包括針對NVIDIA GPU和網(wǎng)絡(luò)進(jìn)行優(yōu)化的多GPU和多節(jié)點通信例程。NCCL為全收集、全約減、廣播、約減、約減散開和點對點發(fā)送和接收操作提供高效的基本操作。這些例程經(jīng)過優(yōu)化,以實現(xiàn)高帶寬和低延遲,利用節(jié)點內(nèi)和NVIDIA Mellanox網(wǎng)絡(luò)通過PCIe和NVLink高速互連。

f810e7fe-90c5-11ef-a511-92fbcf53809c.png

通過解決數(shù)據(jù)傳輸和通信中的瓶頸問題,GPU計算集群的進(jìn)步以及利用NCCL等工具的使用有助于克服大型語言模型訓(xùn)練中的挑戰(zhàn),為AI研究和開發(fā)進(jìn)一步的突破鋪平了道路。

端到端InfiniBand網(wǎng)絡(luò)解決方案如何提供幫助

在大型模型訓(xùn)練中,以太網(wǎng)在傳輸速率和延遲方面存在不足。相比之下,端到端InfiniBand網(wǎng)絡(luò)提供了高性能計算解決方案,能夠提供高達(dá)400 Gbps的傳輸速率和微秒級的延遲。因此,InfiniBand已成為大規(guī)模模型訓(xùn)練的理想選擇。

數(shù)據(jù)冗余和錯誤糾正機制

端到端InfiniBand網(wǎng)絡(luò)的一個關(guān)鍵優(yōu)勢是其對數(shù)據(jù)冗余和錯誤糾正機制的支持,確保可靠的數(shù)據(jù)傳輸。在大規(guī)模模型訓(xùn)練中,由于處理的數(shù)據(jù)量巨大,傳輸錯誤或數(shù)據(jù)丟失會對訓(xùn)練過程產(chǎn)生不利影響,這一點尤為重要。通過利用InfiniBand的強大功能,可以較大程度地減少由于數(shù)據(jù)傳輸問題引起的中斷或故障。

f82e0ec4-90c5-11ef-a511-92fbcf53809c.png

本地子網(wǎng)的配置和維護(hù)

在InfiniBand互連協(xié)議中,每個節(jié)點都配備有一個主機通道適配器(HCA),負(fù)責(zé)與主機設(shè)備建立和維護(hù)鏈接。交換機具有多個端口,用于在端口之間進(jìn)行數(shù)據(jù)包轉(zhuǎn)發(fā),從而實現(xiàn)子網(wǎng)內(nèi)的高效數(shù)據(jù)傳輸。 子網(wǎng)管理器(SM)在配置和維護(hù)本地子網(wǎng)方面發(fā)揮著關(guān)鍵作用,每個InfiniBand設(shè)備上都有子網(wǎng)管理器數(shù)據(jù)包(SMP)和子網(wǎng)管理器代理(SMA)提供支持。子網(wǎng)管理器(SM)發(fā)現(xiàn)和初始化網(wǎng)絡(luò),為所有設(shè)備分配唯一標(biāo)識符,確定最小傳輸單元(MTU),并根據(jù)選擇的路由算法生成交換機的路由表。它還定期掃描子網(wǎng),檢測拓?fù)渥兓⑾鄳?yīng)調(diào)整網(wǎng)絡(luò)配置。

基于信用的流量控制

與其他網(wǎng)絡(luò)通信協(xié)議相比,InfiniBand網(wǎng)絡(luò)提供更高的帶寬、更低的延遲和更大的可擴展性。此外,InfiniBand采用基于信用的流量控制,發(fā)送節(jié)點確保不會傳輸超過接收緩沖區(qū)中可用信用數(shù)量的數(shù)據(jù)到連接的另一端。這消除類似TCP窗口算法的數(shù)據(jù)包丟失機制的需求,使InfiniBand網(wǎng)絡(luò)能夠以較低延遲和CPU使用率實現(xiàn)較高數(shù)據(jù)傳輸速率。

遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)

InfiniBand利用遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù),實現(xiàn)應(yīng)用程序之間在網(wǎng)絡(luò)上直接進(jìn)行數(shù)據(jù)傳輸,無需涉及操作系統(tǒng)。這種零拷貝傳輸方法顯著減少了兩端CPU資源的消耗,使應(yīng)用程序能夠直接從內(nèi)存中讀取消息。降低的CPU開銷提升了網(wǎng)絡(luò)快速傳輸數(shù)據(jù)的能力,并使應(yīng)用程序更高效地接收數(shù)據(jù)。 總體而言,端到端InfiniBand網(wǎng)絡(luò)為大型模型訓(xùn)練提供了顯著優(yōu)勢,包括高帶寬、低延遲、數(shù)據(jù)冗余和錯誤糾正機制。通過利用InfiniBand的能力,研究人員可以克服性能限制,增強系統(tǒng)管理,并加速大規(guī)模語言模型的訓(xùn)練。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • InfiniBand
    +關(guān)注

    關(guān)注

    1

    文章

    29

    瀏覽量

    9180
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1548

    瀏覽量

    7485
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2322

    瀏覽量

    2479

原文標(biāo)題:InfiniBand:突破大模型訓(xùn)練性能瓶頸

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    InfiniBand 連接現(xiàn)在和未來

    InfiniBand 連接現(xiàn)在和未來InfiniBand是致力于服務(wù)器的高性能互聯(lián)技術(shù),它的使命是:使處理器級的帶寬,從處理器系統(tǒng)I/O、
    發(fā)表于 11-13 21:57

    語音加密方案

    本帖最后由 藍(lán)是昵稱 于 2019-11-7 14:21 編輯 提供完整的全數(shù)字語音加密方案:包括硬件、軟件功能:通過通信終端的耳機接口、藍(lán)牙接口實現(xiàn)全數(shù)字語音加密通信,可在現(xiàn)有終端
    發(fā)表于 11-07 14:08

    網(wǎng)絡(luò)流有哪些應(yīng)用實例?

    什么是網(wǎng)絡(luò)流?
    發(fā)表于 06-07 06:30

    為WiMAX構(gòu)建網(wǎng)絡(luò)架構(gòu)

    本文首先分析了WiMAX技術(shù)的市場驅(qū)動力和影響其成功部署的關(guān)鍵因素,隨后介紹了一個基于WiMAX接入技術(shù)的網(wǎng)絡(luò)架構(gòu),包括回程、匯聚、接入控制、以及核心
    發(fā)表于 06-16 11:34 ?491次閱讀

    基于WiMAX接入技術(shù)的網(wǎng)絡(luò)架構(gòu)

    基于WiMAX接入技術(shù)的網(wǎng)絡(luò)架構(gòu) 本文首先分析了WiMAX技術(shù)的市場驅(qū)動力和影響其成功部署的關(guān)鍵因素,隨后介紹了一個基于WiMAX接入技術(shù)的
    發(fā)表于 10-20 21:03 ?730次閱讀

    CMHK宣布完成5G網(wǎng)絡(luò)測試

    中國移動香港有限公司(CMHK)宣布,它已成為當(dāng)?shù)氐谝患彝瓿蓮目蛻艚K端應(yīng)用的5G網(wǎng)絡(luò)測試的網(wǎng)絡(luò)
    的頭像 發(fā)表于 08-16 15:06 ?4161次閱讀

    的自動駕駛研發(fā)系統(tǒng)介紹

    Nvidia是比較早做控制車輛工作的公司,其方法訓(xùn)練CNN模型完成從單個前向攝像頭的圖像像素車輛控制的映射。 其系統(tǒng)自動學(xué)習(xí)一些處理
    的頭像 發(fā)表于 07-13 09:30 ?4878次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的自動駕駛研發(fā)系統(tǒng)介紹

    我國正式啟動了5G網(wǎng)絡(luò)切片總體架構(gòu)標(biāo)準(zhǔn)研制工作

    經(jīng)過認(rèn)真熱烈討論,會議建議“5G網(wǎng)絡(luò)切片 總體技術(shù)要求”“5G網(wǎng)絡(luò)切片基于切片分組網(wǎng)絡(luò)(S
    發(fā)表于 04-02 09:25 ?1075次閱讀

    三大巨頭實現(xiàn)首個基于APP應(yīng)用級的5G SA網(wǎng)絡(luò)切片

    近日,中興通訊攜手中國聯(lián)通、騰訊在廣東實現(xiàn)業(yè)內(nèi)首個基于APP應(yīng)用級的5G SA網(wǎng)絡(luò)切片,構(gòu)建包含5G SA網(wǎng)絡(luò)、切片運營平臺、5G終端
    發(fā)表于 08-14 16:54 ?892次閱讀

    基于深度神經(jīng)網(wǎng)絡(luò)圖像壓縮方法

    人工設(shè)計的算法分別進(jìn)行優(yōu)化近年來,基于深度神經(jīng)網(wǎng)絡(luò)圖像壓縮方法在圖像壓縮中取得了豐碩的成果,相比傳統(tǒng)方法,
    發(fā)表于 04-08 09:30 ?16次下載
    基于深度神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>圖像壓縮方法

    如何實現(xiàn)網(wǎng)絡(luò)切片?

    3GPP將網(wǎng)絡(luò)切片定義為5G 網(wǎng)絡(luò)的主要功能之一,網(wǎng)絡(luò)切片可看作是動態(tài)創(chuàng)建的邏輯
    發(fā)表于 06-15 17:56 ?1601次閱讀
    如何實現(xiàn)<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>網(wǎng)絡(luò)</b>切片?

    英偉達(dá)三大AI法寶:CUDA、Nvlink、InfiniBand

    以太網(wǎng)是一種廣泛使用的網(wǎng)絡(luò)協(xié)議,但其傳輸速率和延遲無法滿足大型模型訓(xùn)練的需求。相比之下,IB(In
    發(fā)表于 12-05 11:02 ?4832次閱讀
    英偉達(dá)三大AI法寶:CUDA、Nvlink、<b class='flag-5'>InfiniBand</b>

    理想汽車自動駕駛模型實現(xiàn)

    理想汽車在感知、跟蹤、預(yù)測、決策和規(guī)劃等方面都進(jìn)行了模型化,最終實現(xiàn)了的模型。這種模型不僅完全模型化,還能夠虛擬化,即在模擬環(huán)境中進(jìn)行訓(xùn)練和測試。
    發(fā)表于 04-12 12:17 ?412次閱讀
    理想汽車自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型實現(xiàn)

    連接視覺語言大模型與自動駕駛

    自動駕駛在大規(guī)模駕駛數(shù)據(jù)上訓(xùn)練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復(fù)雜罕見的駕駛場景,依然存在局限性,這是因為
    的頭像 發(fā)表于 11-07 15:15 ?148次閱讀
    連接視覺語言大模型與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語言模型(LLM)是一個復(fù)雜且資源密集的過程,涉及大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)
    的頭像 發(fā)表于 11-08 09:30 ?324次閱讀