精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達Blackwell可支持10萬億參數模型AI訓練,實時大語言模型推理

Carol Li ? 來源:電子發燒友 ? 作者:李彎彎 ? 2024-09-04 09:10 ? 次閱讀

電子發燒友網報道(文/李彎彎)在近日的Hot Chips 2024大會上,英偉達公布了下一代GPU架構Blackwell的更多細節信息,以及未來的產品路線圖。

英偉達Blackwell是通用計算全棧矩陣的終極解決方案,由多個英偉達芯片組成,包括Blackwell GPU、Grace CPU、BlueField數據處理單元、ConnectX網絡接口卡、NVLink交換機、Spectrum以太網交換機和Quantum InfiniBand交換機。

英偉達稱,Blackwell擁有6項革命性技術,可支持多達10萬億參數的模型進行AI訓練和實時大語言模型(LLM)推理。

NVIDIA Blackwell 的技術特點

NVIDIA Blackwell 架構是NVIDIA于2024年3月在NVIDIA GTC大會上發布的全新架構,是NVIDIA繼Hopper架構之后推出的全新架構,旨在推動生成式AI和加速計算領域的發展。Blackwell架構擁有六項革命性技術,這些技術共同構成了其強大的計算能力和高效性。

一、它是全球最強大的芯片,擁有2080億個晶體管,這確保了芯片具有極高的計算能力和復雜性。它采用臺積電4納米工藝制造,提高了芯片的集成度,降低了功耗和發熱量。配備192GB的HBM3E顯存,極大提升了芯片的數據處理能力和效率。

第二代Transformer引擎,結合Blackwell Tensor Core技術和TensorRT-LLM及NeMo Megatron框架中的英偉達先進動態范圍管理算法,Blackwell通過新的4位浮點AI支持雙倍的計算和模型大小推理能力。

第五代NVLink,為每個GPU提供了突破性的1.8TB/s雙向吞吐量,確保最復雜LLM之間多達576個GPU之間的無縫高速通信

四、RAS引擎,Blackwell支持的GPU包含一個專用引擎,實現可靠性、可用性和服務性。此外,Blackwell架構還增加了芯片級功能,利用基于AI的預防性維護進行診斷和預測可靠性問題,從而延長系統正常運行時間并提高大規模部署AI的彈性。

五、安全人工智能,先進的機密計算功能可在不影響性能的情況下保護AI模型和客戶數據,并支持新的本機接口加密協議,進一步增強了芯片的安全性。

六、解壓縮引擎,專用解壓縮引擎支持最新格式,加快數據庫查詢,提供數據分析和數據科學的最高性能。

生態系統方面,Blackwell不僅是系統的核心芯片,更是一個全新的平臺。它涵蓋了從CPU和GPU計算到用于互連的不同類型的網絡,是通用計算全棧矩陣的終極解決方案。

Blackwell架構將助推數據處理、工程模擬、電子設計自動化、計算機輔助藥物設計、量子計算和生成式AI等領域實現突破。

NVIDIA已經展示了基于Blackwell架構的GPU GB200 NVL72等產品,該產品專為萬億參數AI而設計,對大語言模型(LLM)推理性能提升高達30倍。隨著AI模型尺寸的增加,在多個GPU上拆分工作負載勢在必行。而Blackwell足夠強大,可以在一個GPU中處理專家模型。

相比Hopper架構的優勢

NVIDIA Blackwell架構相比其上一個NVIDIA Hopper架構具有多方面的優勢。NVIDIA Hopper架構是NVIDIA在2022年推出的GPU架構,該架構旨在取代之前的NVIDIA Ampere架構,并為新一代工作負載提供強大的加速計算平臺。

Hopper架構采用了先進的臺積電4N工藝制造,集成了超過800億個晶體管,這為高性能計算提供了堅實的基礎。

Hopper架構通過Transformer引擎推進了Tensor Core技術的發展,旨在加速AI模型訓練。Transformer引擎能夠應用混合的FP8和FP16精度,以大幅加速Transformer模型的AI計算。

與上一代相比,Hopper架構在TF32、FP64、FP16和INT8精度的每秒浮點運算(FLOPS)上提高了3倍。這種性能提升使得Hopper在處理大規模AI模型時更加高效。

Hopper架構引入了第四代NVLink技術,可通過NVIDIA DGX和HGX服務器擴展多GPU輸入和輸出(IO),每個GPU的雙向傳輸速率可達900GB/s,比PCIe 5.0的帶寬高7倍。

第三代NVIDIA NVSwitch支持SHARP網絡計算技術,打破了該技術只能通過InfiniBand提供的傳統限制。這使得Hopper架構在處理大規模HPC和AI工作負載時能夠實現更高的互連效率和通信帶寬。

相比較而言,晶體管數量與計算能力方面,Blackwell架構GPU擁有2080億個晶體管,比Hopper架構的GPU多出顯著數量,這直接提升了其計算能力。

Blackwell架構的單個芯片計算能力達到了20 petaFLOPS,這使其在處理大規模AI模型時具有更高的實時性能和效率。

內存與帶寬方面,Blackwell架構配備了更大的HBM3e內存(如192GB)和更高的顯存帶寬(如8TB/s),相比Hopper架構,這進一步增強了數據處理和傳輸的速度。

寫在最后

NVIDIA Blackwell架構相比其上一個架構在性能、計算能力、技術創新、特性增強以及生態系統與應用拓展等方面均具有顯著優勢。應用方面,Blackwell架構將助推數據處理、工程模擬、電子設計自動化、計算機輔助藥物設計、量子計算和生成式AI等領域實現突破。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4700

    瀏覽量

    128695
  • AI
    AI
    +關注

    關注

    87

    文章

    30106

    瀏覽量

    268398
  • 英偉達
    +關注

    關注

    22

    文章

    3743

    瀏覽量

    90830
收藏 人收藏

    評論

    相關推薦

    AI模型不再依賴英偉GPU?蘋果揭秘自研大模型

    ,獲得足夠的算力構建自己的計算中心,用于訓練不同應用的AI模型AI領域眾星捧月也造就了英偉
    的頭像 發表于 08-05 06:07 ?3894次閱讀
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>不再依賴<b class='flag-5'>英偉</b><b class='flag-5'>達</b>GPU?蘋果揭秘自研大<b class='flag-5'>模型</b>

    英偉發布AI模型 Llama-3.1-Nemotron-51B AI模型

    英偉公司宣布推出 Llama-3.1-Nemotron-51B AI 模型,這個AI模型是源
    的頭像 發表于 09-26 17:30 ?558次閱讀

    英偉震撼發布:全新AI模型參數規模躍升至80億量級

    8月23日,英偉宣布,其全新AI模型面世,該模型參數規模高達80億,具有精度高、計算效益大等優
    的頭像 發表于 08-23 16:08 ?685次閱讀

    蘋果AI模型訓練新動向:攜手谷歌,未選英偉

    近日,蘋果公司發布的最新研究報告揭示了其在人工智能領域的又一重要戰略選擇——采用谷歌設計的芯片來訓練AI模型,而非行業巨頭英偉的產品。這
    的頭像 發表于 08-01 18:11 ?902次閱讀

    英偉開源Nemotron-4 340B系列模型,助力大型語言模型訓練

    近日,英偉宣布開源了一款名為Nemotron-4 340B的大型模型,這一壯舉為開發者們打開了通往高性能大型語言模型(LLM)
    的頭像 發表于 06-17 14:53 ?538次閱讀

    英偉推出AI模型推理服務NVIDIA NIM

    英偉近日宣布推出一項革命性的AI模型推理服務——NVIDIA NIM。這項服務將極大地簡化AI
    的頭像 發表于 06-04 09:15 ?642次閱讀

    摩爾線程和滴普科技完成大模型訓練推理適配

    近日,摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥(KUAE)千卡智算集群與滴普科技的企業大模型Deepexi已完成訓練推理適配,共同實現了700億參數LLaMA2大
    的頭像 發表于 05-30 10:14 ?513次閱讀

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    計算工作負載、釋放百億億次計算能力和萬億參數人工智能模型的全部潛力提供關鍵基礎。 NVLink釋放數萬億參數
    發表于 05-13 17:16

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模預訓練的實施,大
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    是否與事實或邏輯相符;以及推理過程的完整性,即模型在解題過程中是否提供了完整的推理鏈或證據支持。 摘要生成類評測任務:考察大語言
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    特定任務對模型進行微調。這種方法的成功不僅是自然語言處理發展的一個轉折點,還為許多現實世界的應用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預訓練模型
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    豐富的常識知識,能夠基于常識進行推理,填補信息空白,并作出合理推斷。隨著訓練規模和參數量的增加,大語言模型
    發表于 05-04 23:55

    英偉Blackwell平臺網絡配置分析

    采用 DGX GB200 系統的 NVIDIA DGX SuperPOD 專為訓練推理萬億參數生成式AI
    的頭像 發表于 04-17 11:01 ?1281次閱讀

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設備 AI 模型推理的功能,目前已經在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。 本文介紹
    發表于 12-14 11:41