★OpenAI;ChatGPT;Sam Altman;Assistance API;GPT4 Turbo;DALL-E 3;多模態交互;算力調度;算力調優;大模型訓練;GH200;snowflake;AGI;AIGC;H100;A100;DGX Cloud 集群;Base Command;GPU算力;華為 Atlas 900 集群;NVIDIA NVLink;開發者大會
北京時間11月7日凌晨2點,OpenAI在舊金山舉行的開發者大會吸引了全球的關注。在不到一小時的線上發布會上,OpenAI發布許多重磅消息,鼓勵企業使用OpenAI的技術構建基于人工智能的聊天機器人和自主智能體。
算力對訓練模型的重要性日益凸顯。隨著大模型訓練的流行,全球顯卡和算力正在快速增長。算力后周期市場也在迅速崛起。其中“后”更多是指后服務市場,涵蓋從顯卡服務器到貨IDC之后,形成穩定算力到輸出穩定商業推理結果全過程。該過程主要涉及云化、調優、調度、部署、落地和數據管理等環節。
算力的后周期
大模型訓練困難、商用成本高昂和安全問題擔憂,催生算力后周期市場需求。大模型訓練面臨超大規模參數和運算量問題,需要解決顯卡之間數據并行和運算合作,使得后周期需求如云化、調優、調度等應運而生。參數多則準確度高,而反應時間和消耗費用也愈增,開發者需要面對如何快速將新模型部署到應用場景問題。另外,大模型安全問題也令人擔憂,需要考慮如何實現在保證數據安全的前提下,企業原有數據庫與訓練系統的相互調用,以及如何實現原有數據對“AI”訓練的可用等。
全球算力后周期發展呈現出兩個截然不同生態。在涉及算力使用和大模型訓練等上層建筑時,整個行業對于資本支出、模型經驗積累等方面的壁壘正在逐漸加深。大模型時代,天量資本支出已經成為入場券,模型研究從“巧奪天工”到“重劍無鋒”的轉變,使得大算力、大模型的壁壘不斷提高,行業格局加速走向巨頭通吃。
Buy More Save More 的典型代表 英偉達GH200 芯片
在商業落地、數據安全和平臺可視化等模型下游環節中,北美創業公司展現出百花齊放的生態。在訓練過程與資源可視化、數據庫調用、模型加速部署與性價比調節等方面,涌現出一批優秀創業公司與解決方案。同時,原有領域龍頭軟件公司也在積極開發方案,對接AI需求。與大模型和算力戰爭中的巨頭壟斷不同,這個領域各個環節充滿生機,更容易在細分環節中成長出新的優秀獨角獸公司。
數據庫巨頭 Snowflake 與英偉達合作
隨著國內算力資源增長和模型訓練深入,對算力和模型層面的投資將重新聚焦。受海外算力制裁的影響,國內如昇騰等國產優秀生態發展和起量過程中,可能也將涌現出一批優秀的行業加速庫、生態軟件公司,擴展出具有中國特色的相關模型服務體系,走出一條有中國特色的模型服務體系之路。
OpenAI開發者大會亮點
OpenAICEOSam Altman在會上介紹了公司的一系列重要進展,包括推出新的GPT-4 Turbo模型,該模型具有更強大的功能、更長的上下文和更強的控制能力。同時,OpenAI還推出Assistance API,旨在簡化開發者構建輔助代理。
Altman強調自然語言將成為未來與計算機互動的重要方式,并展示通過對話編程GPT的能力。GPT商店即將推出,允許用戶分享和發現創新的GPT應用,并提供收入分享激勵。此外,OpenAI還與微軟深化合作,展示新的文本到語音模型和改進的功能調用。
一、GPT4 Turbo發布
GPT-4 Turbo,在6個方面對GPT-4進行升級:
上下文對話長度:GPT-4 Turbo支持更長的上下文對話長度,達到128K,是GPT-4的16倍。
模型控制:采用新模型控制技術,使開發者更精細地調整輸出,提升用戶體驗。
知識庫更新:至2023年4月,比GPT-4的知識庫新近2年。
多模態API:集成DALL-E 3、帶視覺輸入的GPT-4 Turbo和新的語音合成模型。
定制微調:允許開發者針對特定領域進行自定義微調。
更低價格和更高限制:價格更低但使用限制更高,輸入輸出token價格僅為GPT-4的1/3和1/2,每分鐘限制提升一倍。
SamAltman聲稱,GPT-4 Turbo可供所有付費開發者通過gpt-4-1106-preview API進行嘗鮮,相關穩定版本預計將在未來幾周內發布。
二、GPT Store將上線
定制版GPT可以根據用戶日常生活、特定任務或工作需求提供個性化幫助,如學習棋類游戲規則、輔導孩子數學、提高寫作能力或設計貼紙等。用戶甚至可以與他人分享自己定制的GPT。
用戶無需編程就可以創建自己的GPT,過程非常簡單,只需給GPT輸入指令和知識,然后選擇其功能,例如網絡搜索、圖像生成或數據分析。定制GPT可以私人使用,也可以面向公司內部或制作公共通用版本。
OpenAI正在為ChatGPT Plus和企業版ChatGPT用戶提供定制GPT示例,例如AI圖像生成應用Canva和自動化平臺Zapier。從本周三開始,企業版用戶可以為特定客戶、部門或數據集創建自己的ChatGPT,并可以授權內部用戶無代碼設計企業定制GPT,并安全發布到內部工作區。管理控制臺可以選擇如何在公司內共享這些GPT,以及是否允許使用外部GPT。
三、New GPT Draft
OpenAI表示,即使不會編程也可以制作GPT模型。只需與ChatGPT聊天,描述需求,就可以定制一個GPT模型,使GPT變得非常容易使用,可為每個人提供代理權,做想做的事。
四、全面的API助手
API是一種計算接口,規定了不同軟件組件之間的交互方式、可進行調用或請求的種類、如何進行調用或請求,以及應使用的數據格式和應遵循的慣例等。
根據OpenAI公司的官方信息,目前使用GPT-4和GPT-3.5 Turbo上傳750詞的文檔分別需要支付0.06美元和0.003美元(以最高速度計算)。在這次大會上,OpenAI還發布具有記憶功能的內存存儲API,可以提高大模型的計算速度,并將開發者的API調用成本降低95%。
此外,OpenAI還發布專門的Assistants API,使開發人員可以更輕松地構建自己的輔助AI應用,調用模型和工具以實現自己的目標。
Assistants API 提供代碼解釋、檢索和函數調用等新功能,幫助開發者處理繁重工作,從而構建高質量AI應用。OpenAI介紹,這種API是為了靈活性設計,用例范圍廣泛,包括基于自然語言的數據分析應用、編碼助手、AI驅動的假期規劃器、語音控制DJ、智能視覺畫布。Assistants API功能和新GPT產品相同,都支持自定義指令和一些工具,例如代碼解釋器、檢索和函數調用。
五、多模態交互
新版本GPT增加多模態功能,包括視覺、圖像創建和文本轉語音。GPT-4 Turbo可以接受圖像作為輸入,從而實現生成標題、分析現實世界圖像和閱讀帶圖形文檔等用例。視覺輸入的定價根據圖像大小而定。
此外,OpenAI計劃為主要GPT-4Turbo模型提供視覺支持。對于新版本GPT付費用戶,主要功能更新包括更方便地上傳多種格式文件,如PDF、數據文件等(未來將支持更多文件類型)。
GPT-4 Turbo的不同模式具有不同優勢和功能短板,其中多模態模式可以同時處理文本、圖像、聲音等多種類型數據,但僅支持圖片上傳;數據分析模式具備較強的數據處理和分析能力,但不能實時聯網;實時聯網模式和DALL-E則不支持文件上傳。在舊版本中,用戶需要自己選擇模式;在新版本中,GPT-4 Turbo將根據用戶需求自動選擇和編排多個工具完成任務,向AI智能體角色迭代。
云化-調優-調度
巨頭戰場,技術為骨,通信為魂
一、算力云化:算力租賃勢起,被 AI 重定義的云計算
1、AGI 時代到來,GPU 算力需求爆發,云計算面臨新挑戰
云計算是科技行業過去十年發展最迅速領域之一,推動全球數字化程度持續提升。隨著互聯網高速發展和眾多中小型及初創公司對數字化需求爆發,自購ICT基礎設施投入巨大且運維難度高,不適合具有靈活需求高速發展長尾客戶。而通過云計算,用戶可以隨時獲取云上資源,按需使用按需付費,可無限擴展。云計算將計算資源池化,通過軟件實現自動化管理,提高資源利用效率,并發展出IaaS、PaaS、SaaS等多種形式,極大地促進互聯網發展和全球數字化進程。
云計算原理圖
隨著OpenAIChatGPT引領的生成式AI的崛起,算力需求正在從CPU向GPU躍遷。企業人工智能發展需求爆發,需要支持開發人員創建新一代人工智能應用程序的基礎設施。許多企業轉向云計算,采用越來越復雜的基礎設施,從GPU到GPU集群,以滿足人工智能模型訓練需求。
CPU 和 GPU 的對比
隨著大模型的持續發展,如OpenAI的GPT-3擁有1750億個參數,規模前所未有,模型迭代需要更大規模。對于大模型訓練而言,高速互聯的高性能GPU集群是關鍵門檻,不僅涉及GPU本身,還包括GPU之間高速互聯以及與交換機、光模塊等基礎設施的互聯。與此相比,以CPU和存儲服務器為主傳統基礎設施明顯不夠,資本開支和技術難度也明顯提升,抬高了進入大模型的門檻。
英偉達 H100 集群
大模型訓練需要大規模GPU集群進行數月連續訓練,同時產生大量計算和數據交換需求。與此相比,傳統CPU和存儲集群的內部通信互聯要求明顯提高。在傳統云計算時代,高速光模塊和高端交換機只在超大型數據中心核心節點使用,例如400G和對應的光模塊。但在超算集群中,使用H100集群,第一層便使用400G光模塊,向上則使用800G光模塊和相應交換機,網絡互聯要求明顯提高。
英偉達 DGX A100 與 DGX H100 互聯結構
隨著基礎設施日益復雜,宕機風險增加,維持運行需耗費更多精力和資源。開發人工智能不僅需要基礎設施服務,更需要全棧能力。企業需將所有功能集成到平臺中:
1)用于開發和部署端到端人工智能工作流的框架和工具,涵蓋數據準備、訓練、推理和部署。
2)面向開發人員的平臺,管理從簡單計算機視覺應用到復雜大型語言模型的所有內容。
3)智能編排層和調度程序,為每個作業提供適當資源,動態回收和重新分配資源。
4)自動化基礎設施管理,優化平臺性能和正常運行時間,確保每項工作無憂執行。
5)超高帶寬、低延遲網絡集群,專為多節點訓練設計,可在多個加速計算節點上并行處理大型人工智能模型。
2、DGX Cloud 發布,云算力進入 GPU 新時代
英偉達于2023年3月21日發布的DGX Cloud改變傳統計算框架,為現代深度學習提供理想環境。DGX Cloud結合人工智能和云計算,旨在為企業提供最先進的AI訓練服務。該平臺采用NVIDIA DGX SuperPOD架構,具備分布式訓練能力,其速度較不支持NVIDIA網絡的服務快兩倍以上。
英偉達的DGX Cloud為現代AI開發樹立新的標桿,是世界上第一個專用于開發生成式人工智能的平臺。DGX Cloud是英偉達針對傳統IaaS產品在AI時代面臨的困境而推出的產品,其使用效率是傳統基礎設施的三倍。DGX Cloud集成NVIDIA基礎命令平臺,簡化人工智能開發的過程。
NVIDIA DGX 云人工智能軟件堆棧
DGX Cloud在傳統IaaS上展現出全面領先優勢。其基于NVIDIA DGX技術,為各行業創新提供加速解決方案。通過DGX Cloud,企業可專注于人工智能創新,無需糾纏于基礎設施。企業能夠獲得可靠、快速的資源分配,完全優化執行工作負載,并減少所需時間和精力,從而降低總體擁有成本。根據英偉達官網的比較,DGX Cloud相比傳統IaaS服務具有2-3倍的訓練速度優勢和三倍的GPU利用率提升。
NVIDIA DGX 與傳統 IaaS 比較優勢明顯
NVIDIA DGX 與傳統 IaaS 比較優勢明顯
3、現狀:GPU 禁令,國產算力進程加速,合理分配利用資源重要性突顯
根據英偉達2023 年 10 月 23 日向 SEC 提交的 8-K文件,美國政府已通知英偉達,對總處理性能為4800或更高的數據中心設計或銷售產品實施新的出口管制,并適用于題為“實施附加出口管制:某些先進計算項目;超級計算機和半導體最終用途;更新和更正”的法規。受影響的產品包括 A100、A800、H100、H800 和 L40S,這些產品于 10 月 17 日被要求在 30 天后禁售。
隨著高端算力芯片禁令生效,國內AI產業發展受到制約。華為、寒武紀、海光、壁仞、摩爾線程等國產算力芯片的商業化和生態建設有望加速。科大訊飛與華為昇騰已啟動專項攻關,合力打造通用人工智能新底座,華為昇騰910B能力已基本可對標英偉達A100。
5、跨區域、跨集群、跨架構的算力調度調優能力日益重要
在大規模訓練中,相比傳統云計算,需要考慮的問題更為復雜。如何利用多卡突破內存限制?如何實現大量計算資源的通信和協作?如何將各種大規模訓練技術整合成一個完整高效的方案?因此,大規模訓練技術的挑戰可歸納為內存、通訊、計算和調優四個方面。
大模型訓練四大挑戰
在大模型訓練中,數據和算力是最核心的兩個要素。過去AI的發展方向是使用少量數據和參數來構建模型,而現在隨著OpenAI現象級產品出現,人們發現使用海量數據和算力訓練模型能力有了質的飛躍。目前大模型還處于早期階段,未來大模型的發展將主要集中在提高參數數量和提升算力集群規模上。
英偉達作為全球GPU領軍企業,很早就開始布局AI領域。回顧英偉達超算方案,從DGX A100到DGX H100,再到最新的DGX GH200,除GPU算力提升外,通信能力的大幅持續增長也非常明顯。在AI領域中,通信作用的重要性不亞于計算能力。英偉達早在2019年就收購網絡交換公司Mellanox,以增強其在數據中心網絡交換領域的實力,這充分體現了英偉達的超前眼光和對通信的重視。
以GH200為例,其NVLink提供高達900GB/s雙向帶寬,單向帶寬為450GB/s。當8張卡一起使用時,總帶寬高達28.8TBps。這些帶寬分攤到三個NVLink Switch上,每個Switch的上下行帶寬為9.6TBps。這意味著,對于800G的光模塊來說,每個Switch需要24只。一臺服務器中共有72只800G光模塊,GPU與800G光模塊的比例為1:9。相比之下,DGX H100架構的GPU與800G光模塊比例約為1:3,而DGX A100主要使用400G光模塊。從英偉達產品的迭代可以看出,公司在通信方面持續發力,以匹配計算能力的提升。
英偉達 DGX GH200,256 個 GPU 組成的完全連接的 NVIDIA NVLink 交換機系統拓撲結構
要高效發揮算力集群能力,打破通信墻是唯一的選擇。隨著集群中顯卡數量的增長,如果算力不能線性提升,就無法充分利用高價購買的GPU能力。目前,最佳的方式是通過高速互聯打破通信墻,允許萬卡規模集群中的跨GPU數據交換,保證數據交換暢通無阻。提高通信能力是目前最有效的“調優”方式,無論多么出色的調度和調優,都無法比擬使用高性能交換機和高速光模塊構建的集群內部“高速公路”。
此外,跨架構、跨集群的算力調度也是一個現實問題。跨區域算力調度需求也在增長,例如東數西算等。在模型訓練層面,調優也是一個重要方面。
二、算力調優:大模型時代,通信即調優
1、算力調優是算力發展的終身課題
算力調優本質上是將有限的算力資源進行重新配置并達到最優狀態。在微觀層面,算力調優關注模型調優,包括減少模型訓練和推理時占用的顯存。在宏觀層面,算力調優涉及模型調優、網絡調優和算力調度三個層次。其中,網絡調優在大規模分布式并行訓練背景下愈發重要,高性能網絡應具備超大規模、超高帶寬和超長穩定三大性能。算力調度則是將算力作為資源進行優化分配,解決算力資源供需不匹配問題。
三大算力調優措施針對解決不同的算力問題
算力發展帶來三個重大變化,這促使算力調優成為核心議題。這三個變化分別是:算力需求總量的增加、算力需求的擴散和算力需求的多樣化。
1)隨著5G和AI等產業的快速發展,通用算力和智能算力需求都在不斷增加。
通用算力需求因各種應用逐漸興起而提升,同時大數據、智能汽車、智慧城市、物聯網等新業態新平臺出現也加大了通用算力的需求量。而智能算力需求隨著AIGC產業的迅速發展,國內大模型訓練和推理的快速推進,智算成為大模型落地不可或缺的生產力之一,需求空間巨大。據IDC和浪潮預測,到2026年,國內通用算力規模將達到111.3EFLOPS,智能算力規模將達到1271.4EFLOPS。
2019-2026 中國通用算力規模及預測
2)算力需求最初主要集中在單一設備上,如計算機和工業智能設備等。但隨著5G和AI時代的到來,海量數據已經擴散到各類設備上,如汽車、公路、城市智慧屏等各類終端都需要數據處理能力。
3)隨著數字經濟的崛起,算力需求逐漸走向多元化。自動駕駛的算力需求主要集中在高性能、低延遲和實時性上;而生成式AI的算力需求則需要大量GPU并行計算,主要集中在穩定長時間輸出能力上;邊緣計算的算力需求主要在于短距離和低時延。
2、網絡調優:算力調優的核心手段
1)源起:從 GPU 的通信出發
在AI時代GPU成為核心處理器,廣泛應用于圖像圖形處理和AI推理。然而,隨著大模型復雜度不斷提升,單卡GPU顯存有限,難以滿足訓練需求。例如,百度文心一言大模型擁有2600億個參數,而一個80GB顯存的A800只能存儲10-20億參數,因此需要100-200塊GPU來存放2600億的模型。此外未來大模型訓練將需要更多的參數和計算,進一步增加GPU需求。為適應算力需求,多張GPU甚至多臺服務器需要聯合工作,分布式訓練成為核心訓練方式。
大模型發展下對分布式訓練訴求提升
網絡連接在分布式系統中發揮重要作用,根據連接層級可分為單卡、多卡和多機互聯。單卡內的網絡為計算用的神經網,多卡之間的連接通常采用PCIe或高帶寬通信網絡,而多機之間的連接則通常采用RDMA網絡。
多卡互聯:傳統 PCIe 與 NVLINK/CAPI/GenZ/CCIX/CXL 的“百家爭鳴”
總線是數據通信中必不可少的通道,PCIe是最廣泛使用的總線協議。總線是服務器主板上不同硬件之間進行數據通信管道,對數據傳輸速度起到決定性作用。PCIe協議由英特爾于2001年提出,主要用于連接CPU與其他高速設備如GPU、SSD、網卡、顯卡等。PCIe經歷多個版本的更新,傳輸速率和帶寬不斷提高,目前已經更新到6.0版本,傳輸速率高達64GT/s,16通道的帶寬達到256GB/s。
PCIe6.0 版本的帶寬大幅提高
隨著AIGC的發展,算力需求大幅增加,GPU多卡組合成為趨勢。然而,PCIe的數據傳輸速率和網絡延遲無法滿足這種需求。為提高總線通信效率和降低延遲,各家紛紛推出替代協議。
CAPI協議最早由IBM推出,本質上是在現有高速I/O標準之上的應用程序擴展,增加緩存一致性和更低延遲等內容。但由于IBM服務器份額的持續下降,CAPI協議缺少用戶基礎,最終未能廣泛流傳。
GenZ協議是一個不依賴于任何芯片平臺的開放性組織,眾多廠家參與其中,包括AMD、ARM、IBM、Nvidia、Xilinx等。GenZ將總線協議拓展成交換式網絡并加入GenZSwitch,提高拓展性。
CXL協議于2019年由Intel推出,與CAPI協議思路類似。2021年底吸收了GenZ協議共同發展,2022年兼并了OpenCAPI協議。CXL具備內存接口,逐漸成長為設備互連標準的重要主導協議之一。
CCIX協議是ARM加入的另一個開放協議,功能類似GenZ但未被吸收兼并。
NVLINK協議是英偉達提出的高速GPU互聯協議,相比傳統PCIe總線協議,NVLINK在三個方面做出重大改變。首先支持網狀拓撲結構,解決通道數量有限問題;其次統一內存,允許GPU共享公共內存池,減少GPU之間復制數據需要,提高效率;最后支持直接內存訪問,不需要CPU參與,GPU可以直接讀取彼此內存,從而降低網絡延遲。此外,為解決GPU之間通訊不均衡問題,英偉達還引入NVSwitch,一種類似于交換機ASIC的物理芯片,通過NVLink接口將多個GPU高速互聯,創建高帶寬多節點GPU集群。2023年5月29日,英偉達推出AI超級計算機DGX GH200,通過NVLink和NVSwitch連接256個GH200芯片,所有GPU連接成一個整體協同運行,可訪問內存突破100TB。
多機互聯:IB 網絡與以太網絡并存
在分布式訓練中,RDMA網絡成為最佳選擇,包括IB網絡和以太網絡。傳統的TCP/IP網絡通信通過內核發送消息,涉及較多數據移動和復制,不適合高性能計算、大數據分析等需要高并發、低時延場景。RDMA是一種計算機網絡技術,可直接遠程訪問內存數據,無需內核介入,不占用CPU資源,可顯著提高數據傳輸性能并降低延遲,適合大規模并行計算機集群網絡需求。
目前有三種RDMA:Infiniband、RoCE和iWARP,后兩者基于以太網技術。Infiniband是專為RDMA設計的網絡,從硬件級別保證可靠傳輸,成本高但帶寬和延遲更優;RoCE基于以太網做RDMA,可使用普通以太網交換機,成本較低但需要支持RoCE的網卡;iWARP基于TCP的RDMA網絡,利用TCP達到可靠傳輸,在大型組網中會占用大量內存資源,對系統規格要求更高,但也可使用普通以太網交換機并需要支持iWARP的網卡。
RoCE 、iWARP和 InfiniBand 比較
3)現狀:AI 的網絡新需求
AI大模型訓練和推理對網絡提出超大規模、超高帶寬和超長穩定的需求。超大規模的模型直接影響訓練速度,使用更多的GPU可以縮短訓練時間。超高帶寬的Allreduce直接影響大規模分布式下的整體效率,高帶寬可以獲得更高的加速比。
大模型訓練時長通常至少為幾個星期,穩定性非常重要,包括GPU可用性和網絡可用性。在千卡規模下,如果GPU的月可用性為99.9%,模型訓練一月內遇到故障發生中斷的概率較高。網絡可用性對于大模型的訓練至關重要,包括數據集的讀取以及訓練過程中checkpoint的讀寫,必須保證更高的可用性以減少模型訓練中斷。因此,在大規模分布式AI訓練中,需要使用更多的GPU和更高的帶寬,并確保網絡的可用性和穩定性。
OpenAI 在訓練過程中使用 checkpoint 來保證連續性。Checkpoint 是訓練過程中保存的已訓練模型在特定時間點的版本,包含模型的權重、參數和其他重要信息。加入 checkpoint 后,即使訓練中斷,也可以隨時回到并使用已保存 checkpoint 處的模型,而無需從頭開始訓練。此外,checkpoint 還可以提高實驗的可重現性、進行模型評估以及實現遷移學習等功能。
4)未來:網絡為主,可視化為輔
面對AI大模型對算力網絡通信提出的新需求,提升網絡通信能力是核心,同時需要輔助智算可視化等硬件。三大需求(超大規模、超高帶寬和超長穩定)都強調網絡通信能力的提升。優化過程中,網絡可視化等核心硬件也起到重要作用。
在算力集群中,無論使用以太網還是InfiniBand協議構建通信網絡,數據都以包的形式傳輸。為監控網絡流量,避免擁堵或硬件故障影響系統效率,需要實時監測每條通信鏈路的狀態。如在三層網絡架構中,有一種名為DPFR(Data Plane Fast Recovery)的經典優化方法,可以實現毫秒級收斂。DPFR分為本地快速收斂和遠端快速收斂。本地收斂是指葉交換機掌握指揮權,可以自行選擇要訪問的脊交換機;遠端收斂是指脊交換機掌握指揮權,如果該交換機南向通道故障,脊交換機可以向正常運行的葉交換機發送故障報文,指揮葉交換機切換線路。
DPFR 本地快速收斂(上)和遠端快速收斂(下)
網絡調優的核心是利用軟件或硬件技術抓取數據包進行分析。數據包嗅探抓取分為軟件實現和硬件實現兩種方式。常用的軟件實現包括Wireshark(處理TCP/UDP)、Fiddler(處理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。
軟件抓包會消耗部分系統性能。首先,混雜模式下的網卡處于“廣播模式”,需要處理網絡下層收發的所有數據包,這本身就會消耗一部分網卡性能。其次,軟件抓包需要復制和存儲數據包,會占用一部分CPU和存儲資源。同時,像Wireshark這種軟件大多只能監控系統內單一網絡節點的流量,難以覆蓋全局網絡,更適合被動故障排除作業,而不適用于主動風險監測。
為確保不影響系統整體性能,并行或串行接入的軟硬件結合工具應運而生,其中常用的包括DPI和DFI。DPI(深度報文檢測)是一種基于報文應用層信息進行流量檢測和控制的功能,著重分析應用層,能夠識別各種應用及其內容。當IP數據包、TCP或UDP數據流經過支持DPI技術硬件設備時,設備會深入讀取報文載荷進行分析和重組,識別應用程序內容,然后根據設備定義的管理策略對流量進行后續處理。DFI(深度/動態流檢測)采用基于流量行為應用識別技術,即不同應用類型在會話連接或數據流上的狀態各不相同。DPI技術適用于需要精細和準確識別、精細管理的環境;而DFI技術適用于需要高效識別、粗放管理的環境。
DPI 和 DFI 的流程比較
DPI/DFI由獨立硬件串/并接在物理層,對物理層性能無影響。以浩瀚深度的DPI軟硬件產品為例,可部署在電信網絡各層級節點,通過SaaS/PaaS實現數據收集、分析和呈現。DPI硬件串接或并接在通信物理層,通過鏡像數據包實現無損網絡監測。DPI軟件可嵌入DPI硬件、獨立服務器或交換機/路由器中,實現網絡監測。
網絡可視化是一種高效流量監控工具。通過SaaS/PaaS,可以實現對各層級DPI監測節點的數據收集、分析和呈現,將這些網絡數據以客戶和應用所需的方式展示出來,幫助用戶準確掌握網絡運行情況以及其中的有價值信息。結合大數據分析與挖掘、多維度數據關聯分析、流量控制和管理等手段,實現網絡管理、信息安全和商業智能的一類應用系統,通常稱為網絡視化。
5)模型調優
模型層面調優和軟件層面調優不同于傳統性能優化,如游戲或軟件的優化。在當前模型快速迭代、參數競爭激烈的情況下,削減參數、減少GPU集群訓練時間或算力總量并不是主要關注問題。頭部玩家更關心如何讓重金投入的GPU集群充分發揮其算力,以實現更快模型迭代和參數擴展。因此,模型層面的調優可以理解為如何通過設計模型架構來最大化GPU性能,而非壓縮非必要環節以節省算力。
AI模型訓練主要基于Tensor Flow和PyTorch兩個框架。這些框架提供AI訓練所需的操作系統、工具和運算流程,同時也提供優化GPU使用的完善框架。模型訓練過程類似于生產線,每層訓練步驟對應生產線上一個工序。優化GPU使用的方法主要是并行處理,即對流水線任務進行分配或優化。
模型層面的并行主要有兩種:數據并行和模型并行。數據并行是指將一層模型運算所需的數據分配到多張顯卡上進行計算,然后匯總結果進行下一層運算。而模型并行是將一次訓練所需的多個運算步驟分別放在多張顯卡上進行計算,但隨著模型體積不斷增大,單個顯卡難以承載完整的計算任務,因此模型并行正在逐漸被數據并行所取代。數據并行的瓶頸在于數據的實時切分和通信,進一步突顯了通信能力的重要性。
數據并行
除框架或訓練原理自帶并行能力外,專用訓練調優工具也進一步方便用戶使用。目前,全球模型訓練者主要使用微軟提供的開源工具庫DeepSpeed來進行訓練調優。DeepSpeed通過預處理訓練數據等方式,優化了數據進入GPU的效率和所需空間,從而為發揮GPU集群性能或提高小GPU訓練上限提供解決方案。
DeepSpeed
利用框架和DeepSpeed兩大工具進行模型調優后,積累的經驗將加深各大模型廠商的訓練能力壁壘,提高訓練效率和性能。隨著大模型時代的到來,模型算法層面的優化和算力、金錢性價比的追求日漸式微,而重參數、數據、算力堆疊被認為是通向AGI的必經之路。因此,模型層面的進化更多地發生在如何更好地調用GPU算力的訓練系統和工具庫層面。
三、算力調度:全局最強輔助
1、算力調度是什么?
算力調度是將算力作為資源進行分配和優化的過程,實現算力靈活流動,解決算力供需矛盾、網絡傳輸問題和資源普惠問題。根據供給能力和動態需求,進行算力資源整合和分配,涉及基礎設施底層計算、存儲、網絡等多維資源統一管理和調度。
智能調度和智能管理算力量化&交易圖
2、算力在哪里調度?
算力調度適用于多種場景,包括云與云之間、云和數據中心之間、云網端之間,以及按行業、地區、層級劃分。其中,跨區域調度和跨層級調度是較為典型的兩個場景。跨區域調度是指實現東西部算力協同,打通需求估計不足的算力資源,以實現算力資源跨區域調度。而跨層級調度則是指將算力資源協調應用于云、邊緣、終端等不同層級,實現算力靈活調度和優化分配。
算力調度場景分布
3、如何實施?
算力調度目前尚處于逐步落地階段,具體實施步驟有待在執行中逐漸完善。根據算力分布分散、需求具備多樣性和靈活性等特質,通常算力調度需要包含三個核心步驟:
1)整合多元異構資源
對底層算力資源進行標準化,建立度量模型和評估標準,摸清算力調度區域的設施和資源情況,整合不同所有方的閑置資源;
2)搭建算力調度平臺
整合實時感知、供需匹配、智能調度、服務運營和監測管理等多種功能,根據資源分布情況動態計算最佳調度策略,實現統一的算力交易和售賣;
3)建立標準規范體系
包括算力交易、管理和安全規則,涉及產品定價、自動結算、賬本記錄、權利義務和可信服務機制。
4、誰在參與?
算力調度平臺作為算網大腦,在算力發展中后期的重要性將進一步提升。目前,國內已經涌現多個算力調度平臺,按主導方可分為四大類,其中運營商算力調度平臺的基礎能力較為顯著。這些平臺包括電信運營商主導平臺、地方政府主導平臺、企業主導平臺和行業機構主導型平臺。不同平臺的優勢和特點各不相同,但都致力于整合和優化算力資源的分配。
其中,中國電信、中國移動、中國聯通等運營商在算力調度方面具有強大的網絡基礎設施和資源整合能力,能夠實現算力資源的高速互聯和數據傳輸的穩定運行。此外,一些互聯網和科技巨頭企業也在算力調度方面進行了積極探索和實踐,如阿里云、中科曙光等。同時,行業機構也在推動算力調度平臺的發展,如中國信通院聯合中國電信發布的一體化算力算網調度平臺等。
軟件服務
海外先行,百花齊放,部署先行
軟件服務的三個方向:數據管理、模型落地、訓練可視化
一、數據管理
模型微調的基礎是優質、結構化的數據管理,推動大模型訓練向高精度、高安全和垂直專業化發展。現有的開源 LLM 是“預訓練模型”,即已收集大量訓練數據并提前訓練模型,如 NVIDIA NeMo 和 MetaLlama 能流利使用各種語言,對各種話題有一定了解,但受訓練數據限制,對某些專業領域不夠深入。以 Snowflake 為例,該平臺支持客戶使用自己的數據集進行模型的進一步訓練和微調,以保證定制的模型在特定領域做到專精。Snowflake 子公司 Applica 憑借 TILT(Text-Image-Layout-Transformer)模型,專精于智能文檔。
二、模型落地
Modular Mojo 是一種下一代設計模型和加速庫設計語言。其通過創建 Mojo 編程語言,利用 Python 的語法和社區生態,以及 MILR(一種開源編譯器),針對 AI 開發中的異構計算和 Python 的多線程編譯問題進行優化。
OctoML 是一種模型部署工具,能夠快速實現成品模型在各種算力設備上的優化和部署。以 OctoML 部署的 StableDiffusion 為例,OctoML 利用機器學習優化技術能夠實現三倍的推理速度,支持快速模型微調。
OctoML 優化多 GPU 部署和連續批處理,Llama2 實現 3 倍性能提升。隨著大模型參數量增加,GPU 負載并非線性增長,而是呈指數增長。因為參數數量的提升帶來多 GPU 并行計算問題和大模型最為經典的 KV 緩存問題。針對這些問題,OctoAI 進行優化。
OctoAI 多 GPU 跑分結果
Deci 致力于模型部署層面的優化和小模型功能的提升。DeciLM 解碼器的 Transformer 具備可變的 Grouped-Query Attention(GQA)能力,即能夠改變不同 Transformer 層的 attention 組、鍵值和數值的數量。DeciLM 是首個在 Transformer 層結構上實現互不重復的語言模型。60 億參數的 DeciLM 模型在性能上超越 PyTorch 的 70 億參數 Llama2。
DeciLM 與 Llama2 在 token 生成上的性能對比
三、訓練可視化
Databricks 是一款 GPU 資源管理工具,提供模型和訓練進度的可視化功能。其核心業務是將數據湖和數據倉庫統一到一個平臺,即湖倉一體。與 Snowflake 類似,在數據庫功能實現方式上存在一定的差異。通過 Lakehouse AI 的算力集群資源管理,開發者可以更好地進行模型訓練和推理的監控。Databricks Lakehouse Monitoring 通過監控數據管道和訓練管道來實現 LLM 的性能和質量管理,并創建可視化界面。
Databricks Lakehouse Monitoring 幫助開發者監控模型的訓練推理
藍海大腦大模型訓練平臺
藍海大腦大模型訓練平臺提供強大的算力支持,包括基于開放加速模組高速互聯的AI加速器。配置高速內存且支持全互聯拓撲,滿足大模型訓練中張量并行的通信需求。支持高性能I/O擴展,同時可以擴展至萬卡AI集群,滿足大模型流水線和數據并行的通信需求。強大的液冷系統熱插拔及智能電源管理技術,當BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強制系統的CPU進入ULFM(超低頻模式,以實現最低功耗)。致力于通過“低碳節能”為客戶提供環保綠色的高性能計算解決方案。主要應用于深度學習、學術教育、生物醫藥、地球勘探、氣象海洋、超算中心、AI及大數據等領域。
構建基于英偉達GPU的全場景AI基礎設施方案,適用于“端、邊、云”等各種應用環境。幫助開發者更快速、更高效地構建和部署AI應用。
一、為什么需要大模型?
1、模型效果更優
大模型在各場景上的效果均優于普通模型。
2、創造能力更強
大模型能夠進行內容生成(AIGC),助力內容規模化生產。
3、靈活定制場景
通過舉例子的方式,定制大模型海量的應用場景。
4、標注數據更少
通過學習少量行業數據,大模型就能夠應對特定業務場景的需求。
二、平臺特點
1、異構計算資源調度
一種基于通用服務器和專用硬件的綜合解決方案,用于調度和管理多種異構計算資源,包括CPU、GPU等。通過強大的虛擬化管理功能,能夠輕松部署底層計算資源,并高效運行各種模型。同時充分發揮不同異構資源的硬件加速能力,以加快模型的運行速度和生成速度。
2、穩定可靠的數據存儲
支持多存儲類型協議,包括塊、文件和對象存儲服務。將存儲資源池化實現模型和生成數據的自由流通,提高數據的利用率。同時采用多副本、多級故障域和故障自恢復等數據保護機制,確保模型和數據的安全穩定運行。
3、高性能分布式網絡
提供算力資源的網絡和存儲,并通過分布式網絡機制進行轉發,透傳物理網絡性能,顯著提高模型算力的效率和性能。
4、全方位安全保障
在模型托管方面,采用嚴格的權限管理機制,確保模型倉庫的安全性。在數據存儲方面,提供私有化部署和數據磁盤加密等措施,保證數據的安全可控性。同時,在模型分發和運行過程中,提供全面的賬號認證和日志審計功能,全方位保障模型和數據的安全性。
三、常用配置
1、CPU:
Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W
Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W
AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W
AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W
2、GPU:
NVIDIA L40S GPU 48GB
NVIDIA NVLink-A100-SXM640GB
NVIDIA HGX A800 80GB
NVIDIA Tesla H800 80GB HBM2
NVIDIA A800-80GB-400Wx8-NvlinkSW×8
審核編輯 黃宇
-
Turbo
+關注
關注
1文章
57瀏覽量
18930 -
GPT
+關注
關注
0文章
352瀏覽量
15318 -
超算
+關注
關注
1文章
114瀏覽量
9058 -
大模型
+關注
關注
2文章
2339瀏覽量
2501
發布評論請先 登錄
相關推薦
評論