AGI | NLP | A100 |H100 | Nvidia | Aurora
GPT| LLM | A800 |V100 | Intel | ChatGPT
日前,隨著深度學習、高性能計算、大模型訓練等技術的保駕護航,通用人工智能時代即將到來。各個廠商也都在緊鑼密鼓的布局,如英偉達前段時間發布GH 200包含 36 個 NVLink 開關,將 256 個 GH200 Grace Hopper 芯片和 144TB 的共享內存連接成一個單元。除此之外,英偉達A100、A800、H100、V100也在大模型訓練中廣受歡迎。AMD MI300X其內存遠超120GB的英偉達GPU芯片H100,高達192GB。
6月22日,英特爾(Intel)宣布,美國能源部阿貢國家實驗室已完成新一代超級計算機"Aurora"的安裝工作。這臺超級計算機基于英特爾的CPU和GPU,預計在今年晚些時候上線,將提供超過2 exaflops的FP64浮點性能,超越美國能源部橡樹嶺國家實驗室的"Frontier",有望成為全球第一臺理論峰值性能超過2 exaflops的超級計算機。
Aurora超級計算機是英特爾、惠普(HPE)和美國能源部(DOE)的合作項目,旨在充分發揮高性能計算(HPC)在模擬、數據分析和人工智能(AI)領域的潛力。該系統由10624個刀片服務器組成,每個刀片由兩個英特爾Xeon Max系列CPU(至強Max 9480)和六個英特爾Max系列GPU組成。
GPT-4作為一款先進的AI技術,其六項技術的引入將為人工智能領域帶來巨大的突破和變革。GPU作為算力核心服務器的重要載體扮演著至關重要的角色。GPU的高效處理能力與并行計算能力,使其成為實現大型語言模型訓練的優秀選擇。然而,數據中心算力瓶頸成為限制其發展的主要因素之一。
在中國,各大公司也在爭奪AI入場券,競逐GPU的先機。這一競爭正迅速推動著中國在人工智能領域的發展。GPU的廣泛應用將為中國企業提供更多機會,從而在AI大模型訓練場上取得更加優勢的地位。
本文將深入探討GPU在AI大模型訓練場上的重要性和優勢,并分析當前面臨的挑戰和機遇。同時,將探討如何優化GPU服務器適配,以實現大型語言模型訓練的突破。在接下來的內容中,我們將探索如何解決數據中心算力瓶頸、加速AI技術的進步、優化GPU服務器的適配以及推動中國企業在AI領域的競爭力。這將引領我們進入一個全新的AI時代,為人工智能的發展開創更加廣闊的前景。
GPT-4六項技術創新
一、大參數+大數據+算法創新
參數擴大是提升大語言模型(LLM)能力的關鍵因素。GPT-3首次將模型大小擴展到175B參數規模。在語言模型的早期階段性能與模型規模大致呈線性關系,但當模型規模達到一定程度時,任務性能會出現明顯的突變。大語言模型的基礎具有很強的可擴展性,可以實現反復自我迭代。
參數對大模型性能起到明顯作用
模型能力不僅取決于模型大小,還與數據規模和總計算量有關。此外,預訓練數據質量對于實現良好性能至關重要。
大模型主要利用各種公共文本數據集做預訓練
預訓練語料庫來源可以大致分為兩類:通用數據和專業數據。通用數據包括網頁、書籍和對話文本等,由于其規模龐大、多樣化且易于獲取,被廣泛用于大型語言模型,可以增強語言建模和泛化能力。專業數據則包括多語言數據、科學數據和代碼等,使得語言模型具備解決特定任務的能力。
預訓練大語言模型典型的數據處理過程
成功訓練一個強大的大語言模型(LLM)是具有挑戰性的。為了實現LLM的網絡參數學習,通常需要采用多種并行策略。一些優化框架如Transformer、DeepSpeed和Megatron-LM已經發布,以促進并行算法的實現和部署。此外,優化技巧對于訓練的穩定性和模型性能也至關重要。
目前,常用于訓練LLM的庫包括Transformers、DeepSpeed、Megatron-LM、JAX、Colossal-AI、BMTrain和FastMoe等。此外,現有的深度學習框架如PyTorch、TensorFlow、MXNet、PaddlePaddle、MindSpore和OneFlow也提供對并行算法的支持。
二、Transformer
Transformer是由Google在2017年的論文《Attention is All You Need》中提出的,GPT和BERT都采用Transformer模型。Transformer基于顯著性的注意力機制為輸入序列中的任何位置提供上下文信息,使得它具有強大的全局表征能力、高度并行性、位置關聯操作不受限,通用性強,可擴展性強等優勢,從而使得GPT模型具有優異的表現。
自注意力機制(Self-Attention)允許模型在處理每個詞(輸入序列中的每個位置)時,不僅關注當前位置的詞,還能關注句子中其他位置的詞,從而更好地編碼這個詞。這種機制使得模型能夠記住單詞與哪些單詞在同一句話中共同出現。Transformer模型基于自注意力機制,學習單詞之間共同出現的概率。在輸入語料后,Transformer可以輸出單詞與單詞共同出現的概率,并且能夠捕捉到長距離上下文中詞與詞之間的雙向關系。
三、RLHF
RLHF(Reinforcement Learning with Human Feedback)是ChatGPT所采用的關鍵技術之一。它是強化學習(RL)的一個擴展分支,將人類的反饋信息融入到訓練過程中。通過利用這些反饋信息構建一個獎勵模型神經網絡,RLHF為RL智能體提供獎勵信號,以幫助其學習。這種方法可以更加自然地將人類的需求、偏好和觀念等信息以交互式的學習方式傳達給智能體,以對齊人類和人工智能之間的優化目標,從而產生與人類行為方式和價值觀一致的系統。
四、Prompt
"提示"是一種給予預訓練語言模型的線索,旨在幫助其更好地理解人類的問題。通過在輸入中添加額外的文本(clue/prompt),可以更充分地利用預訓練模型中的知識。
Prompt的案例演示
提示學習的基本流程包括四個步驟:提示構造、答案構造、答案預測和答案-標簽映射。提示學習的優勢主要體現在以下幾個方面:1)對預訓練模LM的利用率高;2)小樣本場景訓練效果提升;3)fine-tune成本大幅度下降等。
Promtptuning 與 pre-trainandfine-tune 對 比
語境學習(in-context learning, ICL)是一種特殊的提示形式,首次與GPT-3一起提出,并已成為一種典型的利用預訓練語言模型的方法。在語境學習中,首先從任務描述中選擇一些示例作為演示。然后,將這些示例按照特定的順序組合起來,形成具有特殊設計模板的自然語言提示。最后,測試實例被添加到演示中,作為預訓練語言模型生成輸出的輸入。基于這些任務演示,預訓練語言模型可以在不需要顯式梯度更新的情況下識別并執行新任務。
情境學習 ( ICL ) 與思維鏈 ( CoT ) 提示的比較研究
五、插件
由于預訓練語言模型(LLM)是在大量純文本語料庫上進行訓練,因此在非文本生成方面(如數值計算)的表現可能不佳。此外,LLM的能力受限于預訓練數據,無法捕捉最新信息。為了解決這些問題,ChatGPT引入了外部插件機制,以幫助ChatGPT獲取最新信息、進行計算或使用第三方服務,類似于LLM的"眼睛和耳朵",從而廣泛擴展LLM的能力范圍。
截至2023年5月,ChatGPT進行更新,包括網絡瀏覽功能和70個測試版插件。這一更新有望徹底改變ChatGPT的使用方式,涵蓋從娛樂和購物到求職和天氣預報等各個領域。ChatGPT建立了一個社區,供插件開發者構建ChatGPT插件,并在語言模型顯示的提示符中列出啟用的插件,并提供指導文檔,以指導模型如何使用每個插件。
ChatGPT插件部分展示
六、系統工程
OpenAI聯合創始人兼首席執行官Sam Altman表示,GPT-4是迄今為止人類最復雜的軟件系統。隨著預訓練語言模型(LLM)的發展,研發和工程之間的界限變得模糊不清。LLM的訓練需要廣泛的大規模數據處理和分布式并行訓練經驗。開發LLM的研究人員必須解決復雜的工程問題,并與工程師緊密合作或成為工程師本身。
GPU為算力核心服務器為重要載體
一、服務器:AI算力的重要載體
服務器是指具備較高計算能力的計算機,可以為多個用戶提供服務。與個人電腦不同,個人電腦通常只為一個用戶提供服務。服務器與主機也有所不同,主機是通過終端設備提供給用戶使用,而服務器則通過網絡給客戶端用戶提供服務。
服務器的主要分類
AI服務器是專門用于進行人工智能(AI)計算的服務器。既可以支持本地應用程序和網頁,也可以為云和本地服務提供復雜的AI模型和服務。其主要作用是為各種實時AI應用提供實時計算服務。根據應用場景的不同,AI服務器可以分為訓練和推理兩種類型。訓練型服務器對芯片算力要求更高,而推理型服務器對算力的要求相對較低。
NVIDIA A100服務器
藍海大腦高性能大模型訓練平臺利用工作流體作為中間熱量傳輸的媒介,將熱量由熱區傳遞到遠處再進行冷卻。支持多種硬件加速器,包括CPU、GPU、FPGA和AI等,能夠滿足大規模數據處理和復雜計算任務的需求。采用分布式計算架構,高效地處理大規模數據和復雜計算任務,為深度學習、高性能計算、大模型訓練、大型語言模型(LLM)算法的研究和開發提供強大的算力支持。具有高度的靈活性和可擴展性,能夠根據不同的應用場景和需求進行定制化配置??梢钥焖俨渴鸷凸芾砀鞣N計算任務,提高了計算資源的利用率和效率。
1、全球服務器市場
根據Counterpoint的報告,預計到2022年,全球服務器市場的收入將同比增長17%,達到1117億美元。在該市場中,主要的服務器公司包括戴爾、惠普、聯想、浪潮和超微以及ODM廠商如富士康、廣達、緯創和英業達。ODM Direct的增長速度比整體市場高出3個百分點,因此ODM Direct將成為大規模數據中心部署的硬件選擇。根據IDC的數據預測,2022年市場規模約為183億美元,而2023年市場規模將達到211億美元。在市場份額方面,浪潮信息占據了20.2%的份額,其次是戴爾、HPE、聯想和華為,它們的市場份額分別為13.8%、9.8%、6.1%和4.8%。
2021年全球各服務器公司收入(單位:百萬美元)
2、中國服務器市場
據數據顯示,2022年中國服務器市場規模達到273.4億美元。在這個市場中,浪潮以28.1%的市場份額位居第一,收入達到530.63億美元。根據IDC的數據,2022年中國加速服務器市場規模達到67億美元,同比增長24%。浪潮、新華三和寧暢是市場中的前三名,它們占據了市場份額的60%以上。互聯網行業仍然是采購加速服務器的最大行業,占據了整體市場接近一半的份額。
2022年中國AI服務器市場份額
二、GPU:AI算力的核心
在訓練大型模型時,超大規模的計算能力是必不可少的,而GPU是其中的核心。沒有GPU卡,訓練大型模型幾乎是不可能的。
AI芯片是算力的核心也被稱為AI加速器或計算卡,專門用于處理人工智能應用中的大量計算任務(而其他非計算任務則由CPU負責)。隨著數據量的急劇增長、算法模型的復雜化以及處理對象的異構性,對計算性能的要求也越來越高。
據數據顯示,2022年我國的AI服務器中,GPU服務器占據89%的份額。目前,GPU是最廣泛應用的AI芯片之一。除了GPU,AI芯片還包括現場可編程門陣列(FPGA)、專用集成電路(ASIC)和神經擬態芯片(NPU)等。GPU是一種通用型芯片,而ASIC是一種專用型芯片,而FPGA則處于兩者之間,具有半定制化的特點。
不同AI芯片之間對比
圖形處理器(GPU)是一種專門用于執行繪圖運算的微處理器,也被稱為顯示核心、視覺處理器、顯示芯片或圖形芯片。它擁有數百或數千個內核,并經過優化,能夠并行執行大量計算任務。盡管GPU在游戲中以3D渲染而聞名,但它們在運行分析、深度學習和機器學習算法方面尤為有用。相比傳統的CPU,GPU可以使某些計算速度提高10倍至100倍。GPGPU是一種將GPU的圖形處理能力應用于通用計算領域的處理器。
英偉達數據中心GPU類別
在2023年,英偉達的全球收入達到269.7億美元。其中,圖形業務部門的收入約為119億美元,而計算與網絡部門的收入為151億美元。在2023年第一季度(Q1 FY24),英偉達的數據中心業務營收達到42.8億美元,創下歷史新高,同比增長14%,環比增長18%。
三、英偉達大模型訓練GPU全系列介紹
自OpenAI發布ChatGPT以來,生成式人工智能技術一直是備受關注的熱門趨勢。這項技術需要強大的算力來生成文本、圖像、視頻等內容。在這個背景下,算力成為人工智能領域的必備條件,而英偉達作為芯片巨頭所生產的人工智能芯片在其中扮演著至關重要的角色。英偉達先后推出V100、A100和H100等多款用于AI訓練的芯片,并為了符合美國標準,推出了A800和H800這兩款帶寬縮減版產品,在中國大陸市場銷售。
V100是英偉達公司推出的高性能計算和人工智能加速器,屬于Volta架構系列。它采用16nm FinFET工藝,擁有5120個CUDA核心和16GB到32GB的HBM2顯存。V100還配備Tensor Cores加速器,可提供高達120倍的深度學習性能提升。此外,V100支持NVLink技術,實現高速的GPU到GPU通信,加速大規模模型的訓練速度。V100被廣泛應用于各種大規模AI訓練和推理場景,包括自然語言處理、計算機視覺和語音識別等領域。
A100是英偉達推出的一款強大的數據中心GPU,采用全新的Ampere架構。它擁有高達6,912個CUDA核心和40GB的高速HBM2顯存。A100還包括第二代NVLink技術,實現快速的GPU到GPU通信,提升大型模型的訓練速度。此外,A100還支持英偉達自主研發的Tensor Cores加速器,可提供高達20倍的深度學習性能提升。A100廣泛應用于各種大規模AI訓練和推理場景,包括自然語言處理、計算機視覺和語音識別等領域。
在大模型訓練中,V100和A100都是非常強大的GPU。以下是它們的主要區別和優勢:
1、架構
V100和A100在架構上有所不同。V100采用Volta架構,而A100則采用全新的Ampere架構。Ampere架構相對于Volta架構進行一些改進,包括更好的能源效率和全新的Tensor Core加速器設計等,這使得A100在某些場景下可能表現出更出色的性能。
2、計算能力
A100配備高達6,912個CUDA核心,比V100的5120個CUDA核心更多。這意味著A100可以提供更高的每秒浮點運算數(FLOPS)和更大的吞吐量,從而在處理大型模型和數據集時提供更快的訓練速度。
3、存儲帶寬
V100的內存帶寬約為900 GB/s,而A100的內存帶寬達到了更高的1555 GB/s。高速內存帶寬可以降低數據傳輸瓶頸,提高訓練效率,因此A100在處理大型數據集時可能表現更出色。
4、存儲容量
V100最高可擁有32GB的HBM2顯存,而A100最高可擁有80GB的HBM2顯存。由于大模型通常需要更多內存來存儲參數和梯度,A100的更大內存容量可以提供更好的性能。
5、通信性能
A100支持第三代NVLink技術,實現高速的GPU到GPU通信,加快大模型訓練的速度。此外,A100還引入Multi-Instance GPU (MIG)功能,可以將單個GPU劃分為多個相互獨立的實例,進一步提高資源利用率和性能。
總的來說,A100在處理大型模型和數據集時可能比V100表現更優秀,但是在實際應用中,需要結合具體場景和需求來選擇合適的GPU。
數據中心算力瓶頸光模塊需求放量
即使單卡的性能再強大,如果網絡性能無法跟上,也只能無奈地等待。而且,隨著集群規模的擴大,網絡帶來的算力損耗也會變得更加明顯。傳統的網絡架構在傳輸數據時需要經過多層協議棧的處理:需要反復停下來檢查、分揀和打包數據,這使得通信效率非常低下。
一、英偉達布局InfiniBand
數據通信設備是指能夠實現IP網絡接入終端、局域網、廣域網間連接、數據交換以及提供相關安全防護功能的通信設備,包括交換機、路由器和WLAN等。交換機和路由器是其中最重要的設備。這些網絡設備構成了互聯網基礎的物理設施層,是信息化建設所必需的基礎架構產品。
網絡設備制造服務行業的上游主要包括芯片、PCB、電源和各類電子元器件等生產商。直接下游是各網絡設備品牌商。而終端下游涵蓋了運營商、政府、金融、教育、能源、電力、交通、中小企業、醫院等各個行業。
2017-2024年中國網絡設備市場規模統計(億美元)
在網絡設備行業中,競爭格局呈現出高度集中的情況。思科、華為、新華三等少數幾家企業占據絕大部分的市場份額,形成寡頭競爭的市場格局。隨著人工智能和高性能計算需求的不斷增長,對多節點、多GPU系統的高速通信需求也日益提升。為構建強大、能夠滿足業務速度要求的端到端計算平臺,快速且可擴展的互連網絡變得至關重要。
2021年全球及中國交換機行業市場份額情況
在人工智能領域中,通信已經成為算力的瓶頸。盡管AI加速器可以通過簡化或刪除其他部分來提高硬件的峰值計算能力,但卻難以解決內存和通信方面的難題。不論是芯片內部、芯片間還是AI加速器之間的通信,都已經成為AI訓練過程中的限制因素。
在過去的20年中,計算設備的算力提高了90,000倍,存儲器從DDR發展到GDDR6x,接口標準從PCIe1.0a升級到NVLink3.0。然而,與此相比,通信帶寬的增長只有30倍。
通信帶寬的提升速度遠低于計算提升的速度
NVLink是NVIDIA開發的一種高帶寬、高能效、低延遲、無損的GPU到GPU互連技術。它具備彈性特性,包括鏈路級錯誤檢測和數據包回放機制,確保數據的可靠傳輸。
與上一代相比,第四代NVLink可將全局操作的帶寬提升3倍,并提高通用帶寬50%。單個NVIDIA H100 Tensor Core GPU最多支持18個NVLink連接,多GPU之間的總帶寬可達900GB/s,是PCIe 5.0的7倍。
NVLink 鏈接圖
NVSwitch是英偉達開發的一種技術,包括位于節點內部和外部的交換機,用于連接多個GPU在服務器、集群和數據中心環境中的使用。每個節點內的NVSwitch具有64個第四代NVLink鏈路端口,可以加速多個GPU之間的連接。新一代的NVSwitch技術將交換機的總吞吐量從上一代的7.2Tb/s提升到13.6Tb/s。
英偉達結合全新的NVLink和NVSwitch技術,構建了大型的NVLink Switch系統網絡,實現了前所未有的通信帶寬水平。該系統最多支持256個GPU,并且互連節點能夠提供57.6TB的多對多帶寬,為高達1 exaFLOP級別的FP8稀疏計算提供了強大的計算能力。
基于 DGX A100 與 DGX H100 的 32 節點、256 GPU NVIDIA SuperPOD對比
InfiniBand是一種用于高性能計算的計算機網絡通信標準,具有高帶寬和低延遲的特點。主要應用于高性能計算、高性能集群應用服務器和高性能存儲等領域。為了加強在InfiniBand領域的投入,英偉達在2019年以69億美元收購了Mellanox。這一新架構為AI開發者和科學研究人員提供了超強的網絡性能和豐富的功能。通過這一技術,用戶可以獲得更快速、更可靠的網絡連接,以支持他們在人工智能領域的工作和研究。
InfiniBand廣泛應用于全球超算中心
二、光模塊:網絡核心器件,AI訓練提振800G需求
預計英偉達的H100 GPU與800G光模塊在計算力網絡中的比例將根據不同層級而有所不同。在服務器層,預計GPU與800G光模塊的比例將為1:1;在交換機層,預計該比例將為1:2。考慮到核心層交換機、管理網絡、存儲網絡等因素,以及安裝率的相關考慮,整體而言,預計英偉達H100 GPU與800G光模塊的比例將大約在1:2至1:4之間。這種配置將確保在計算力網絡中實現高效的通信和數據傳輸。
DGX H100 數據網絡配置圖
2023年5月,英偉達推出DGX GH200,GH200是將 256 個NVIDIA Grace Hopper超級芯片完全連接,旨在處理用于大 規模推薦系統、生成式人工智能和圖形分析的太字節級模型。NVLink交換系統采用兩級、無阻塞、胖樹結構。如下圖:L1和L2層分為96和32臺交換機,承載Grace Hopper超級芯片 的計算底板使用NVLink fabric第一層的定制線纜連接到NVLink交換機系統。LinkX電纜擴展了NVLink fabric的第二層連 接。我們預計GH200的推出將進一步促進800G光模塊的需求增長。
DGX GH200通過NVLink將256個GPU完全聯接
爭奪AI入場券中國大公司競逐GPU
全球范圍內,英偉達GPU的競爭非常激烈。然而,海外巨頭在GPU采購方面比較早,并且采購量更大,近年來的投資也相對連續。中國的大型公司對于GPU的需求和投資動作比海外巨頭更為急迫。以百度為例,今年向英偉達下單的GPU訂單數量高達上萬塊。盡管百度的規模要小得多,去年的營收僅為1236億元人民幣,相當于Google的6%。然而,這顯示出中國大公司在GPU領域的迅速發展和巨大需求。
據了解,字節、騰訊、阿里和百度是中國投入最多的AI和云計算科技公司。在過去,它們累計擁有上萬塊A100 GPU。其中,字節擁有的A100數量最多。不計算今年的新增訂單,字節擁有接近10萬塊A100和前代產品V100。成長期的公司商湯也宣稱,其“AI大裝置”計算集群中已經部署了2.7萬塊GPU,其中包括1萬塊A100。即使是看似與AI無關的量化投資公司幻方,也購買1萬塊A100。
從總數來看,這些GPU似乎足夠供各公司訓練大型模型使用。根據英偉達官方網站的案例,OpenAI在訓練具有1750億參數的GPT-3時使用了1萬塊V100,但訓練時間未公開。根據英偉達的估算,如果使用A100來訓練GPT-3,需要1024塊A100進行一個月的訓練,而A100相比V100性能提升4.3倍。
中國的大型公司過去采購的大量GPU主要用于支撐現有業務或在云計算平臺上銷售,不能自由地用于開發大模型或滿足客戶對大模型的需求。這也解釋了中國AI從業者對計算資源估算存在巨大差異。清華智能產業研究院院長張亞勤在4月底參加清華論壇時表示:“如果將中國的算力加起來,相當于50萬塊A100,可以輕松訓練五個模型。”
AI公司曠視科技的CEO印奇在接受《財新》采訪時表示,中國目前可用于大型模型訓練的A100總數只有約4萬塊。這反映了中國和外國大型公司在計算資源方面的數量級差距,包括芯片、服務器和數據中心等固定資產投資。最早開始測試ChatGPT類產品的百度,在過去幾年的年度資本開支在8億到20億美元之間,阿里在60億到80億美元之間,騰訊在70億到110億美元之間。
與此同時,亞馬遜、Meta、Google和微軟這四家美國科技公司的自建數據中心的年度資本開支最低也超過150億美元。在過去三年的疫情期間,海外公司的資本開支持續增長。亞馬遜去年的資本開支已達到580億美元,Meta和Google分別為314億美元,微軟接近240億美元。而中國公司的投資在2021年后開始收縮。騰訊和百度去年的資本開支同比下降超過25%。
中國公司若想長期投入大模型并賺取更多利潤,需要持續增加GPU資源。就像OpenAI一樣,他們面臨著GPU不足的挑戰。OpenAI的CEO Sam Altman在與開發者交流時表示,由于GPU不夠,他們的API服務不夠穩定,速度也不夠快。
在獲得更多GPU之前,GPT-4的多模態能力無法滿足每個用戶的需求。同樣,微軟也面臨類似的問題。微軟與OpenAI合作密切,他們的新版Bing回答速度變慢,原因是GPU供應跟不上用戶增長的速度。
微軟Office 365 Copilot嵌入了大型模型的能力,目前還沒有大規模開放,只有600多家企業在試用??紤]到全球近3億的Office 365用戶數量,中國大公司如果想利用大型模型創造更多服務,并支持其他客戶在云上進行更多大型模型的訓練,就需要提前儲備更多的GPU資源。
AI大模型訓練常用顯卡
目前,在AI大型模型訓練方面,A100、H100以及其特供中國市場的減配版A800、H800幾乎沒有替代品。根據量化對沖基金Khaveen Investments的測算,到2022年,英偉達在數據中心GPU市場的占有率將達到88%,而AMD和英特爾將瓜分剩下的市場份額。
英偉達GPU目前的不可替代性源于大模型的訓練機制,其中關鍵步驟包括預訓練和微調。預訓練是為模型打下基礎,相當于接受通識教育直至大學畢業;微調則是為了優化模型以適應具體場景和任務,提升其工作表現。
預訓練階段特別需要大量計算資源,對單個GPU的性能和多卡之間的數據傳輸能力有非常高的要求。目前只有A100和H100能夠提供預訓練所需的高效計算能力,盡管價格昂貴,但實際上是最經濟的選擇。在AI商業應用仍處于早期階段,成本直接影響著服務的可用性。
過去的一些模型,如VGG16可以識別貓是貓,其參數量僅為1.3億,當時一些公司會使用消費級顯卡(如RTX系列)來運行AI模型。然而,隨著GPT-3等大型模型的發布,參數規模已經達到1750億。由于大型模型需要巨大的計算資源,使用更多低性能的GPU來組合計算力已經不再可行。
在使用多個GPU進行訓練時,需要在芯片之間傳輸數據并同步參數信息,這導致部分GPU處于閑置狀態,無法充分發揮工作能力。因此,使用性能較低的GPU越多,計算力的損耗就越大。OpenAI在使用1萬塊V100 GPU進行GPT-3訓練時,算力利用率不到50%。而A100和H100既具有單卡高算力,又具備提升卡間數據傳輸的高帶寬能力。A100的FP32算力達到19.5 TFLOPS(1 TFLOPS相當于每秒進行一萬億次浮點運算),而H100的FP32算力更高,達到134 TFLOPS,是競爭對手AMD MI250的約4倍。
A100、H100 還提供高效數據傳輸能力,盡可能減少算力閑置。英偉達的獨家秘籍是自 2014 年起陸續推出的 NVLink、NVSwitch 等通信協議技術。用在 H100 上的第四代 NVLink 可將同一服務器內的 GPU 雙向通信帶寬提升至 900 GB/s(每秒傳輸 900GB 數據),是最新一代 PCle(一種點對點高速串行傳輸標準)的 7 倍多。
去年美國商務部對GPU的出口規定主要限制了算力和帶寬兩個方面:算力上限為4800 TOPS,帶寬上限為600 GB/s。A800和H800的算力與原版相當,但帶寬有所降低。
A800的帶寬從A100的600GB/s降至400GB/s,H800的具體參數尚未公開,據報道,它的帶寬僅為H100(900 GB/s)的約一半。執行相同的AI任務時,H800可能比H100多花費10%至30%的時間。一位AI工程師推測,H800的訓練效果可能不如A100,但價格更高。
大模型訓練工作站常用配置
盡管如此,A800和H800的性能仍然超過其他大公司和創業公司的同類產品。受限于性能和更專用的架構,各公司推出的AI芯片或GPU芯片主要用于AI推理,難以勝任大型模型的預訓練任務。簡而言之,AI訓練是創建模型,而AI推理是使用模型,因此訓練對芯片性能的要求更高。
除了性能差距外,NVIDIA的更大競爭優勢在于其軟件生態系統。早在2006年,NVIDIA推出了計算平臺CUDA,它是一個并行計算軟件引擎,開發者可以使用CUDA更高效地進行AI訓練和推理,充分發揮GPU的計算能力。如今,CUDA已成為AI基礎設施的標準,主流的AI框架、庫和工具都是基于CUDA進行開發的。
而其他GPU和AI芯片如果要接入CUDA,就需要自己提供適配軟件,但它們只能獲得部分CUDA的性能,并且更新迭代的速度較慢。一些AI框架如PyTorch正在嘗試打破CUDA的軟件生態壟斷,提供更多的軟件功能以支持其他廠商的GPU,但對開發者的吸引力有限。一位AI從業者提到,他所在的公司曾考慮使用一家非NVIDIA的GPU廠商,對方的芯片和服務報價更低,也承諾提供更及時的支持,但他們最終判斷,使用其他GPU會導致整體訓練和開發成本高于使用NVIDIA,并且還需要承擔結果的不確定性和花費更多的時間?!半m然A100的價格高,但實際使用起來是最經濟的?!彼f道。
對于那些有意抓住大型模型機會的大型科技公司和領先的創業公司來說,金錢通常不是問題,時間才是最寶貴的資源。在短期內,唯一可能影響NVIDIA數據中心GPU銷量的因素可能只有臺積電的產能。
H100/800和A100/800芯片都采用了臺積電的4納米和7納米制程。根據臺灣媒體報道,今年英偉達向臺積電增加了1萬片數據中心GPU訂單,并且下達了超急件,生產時間可以縮短最多50%。通常情況下,臺積電生產A100芯片需要數月時間。目前的生產瓶頸主要在于先進封裝的產能不足,缺口達到了10%至20%,需要逐步提升產能,可能需要3至6個月的時間。
自從并行計算適用的GPU被引入深度學習領域以來,硬件和軟件一直是推動AI發展的動力。GPU的計算能力與模型和算法的發展相互促進:模型的發展推動了對計算能力的需求增長,而計算能力的增長則使得原本難以實現的大規模訓練成為可能。在以圖像識別為代表的上一波深度學習熱潮中,中國的AI軟件能力已經與全球最前沿水平不相上下;而目前的難點在于計算能力——設計和制造芯片需要積累更長的時間,涉及到復雜的供應鏈和眾多的專利壁壘。
審核編輯黃宇
-
AI
+關注
關注
87文章
30146瀏覽量
268414 -
英偉達
+關注
關注
22文章
3747瀏覽量
90833 -
Agi
+關注
關注
0文章
77瀏覽量
10194 -
高性能計算
+關注
關注
0文章
82瀏覽量
13375 -
大模型
+關注
關注
2文章
2328瀏覽量
2483 -
A800
+關注
關注
0文章
14瀏覽量
246 -
H800
+關注
關注
0文章
9瀏覽量
246
發布評論請先 登錄
相關推薦
評論