周一,半導(dǎo)體行業(yè)巨頭英偉達(dá)發(fā)布了新一代人工智能芯片 H200,旨在為各種 AI 模型提供訓(xùn)練和部署支持。
H200 芯片是目前用于訓(xùn)練最先進(jìn)的大型語言模型 H100 芯片的升級(jí)版,搭載了 141GB 的內(nèi)存,專注于執(zhí)行“推理”任務(wù)。在進(jìn)行推理或生成問題答案時(shí),H200 的性能相比 H100 提升了 1.4 至 1.9 倍不等。
性能拉升無極限?
據(jù)英偉達(dá)官網(wǎng)消息,基于英偉達(dá)的“Hopper”架構(gòu),H200 是該公司首款采用 HBM3e 內(nèi)存的芯片。這種內(nèi)存速度更快、容量更大,使其更適用于大語言模型。相信過去一年來花大價(jià)錢購買過 Hopper H100 加速器的朋友都會(huì)為自己的沖動(dòng)而后悔。為了防止囤積了大量 H100 的客戶們當(dāng)場(chǎng)掀桿而起,英偉達(dá)似乎只有一種辦法:把配備 141 GB HBM3e 內(nèi)存 Hopper 的價(jià)格,定為 80 GB 或 96 GB HBM3 內(nèi)存版本的 1.5 到 2 倍。只有這樣,才能讓之前的“冤種”們稍微平衡一點(diǎn)。
下圖所示,為 H100 與 H200 在一系列 AI 推理工作負(fù)載上的相對(duì)性能比較:
可以看到,相較于 H100,H200 的性能提升最主要體現(xiàn)在大模型的推理性能表現(xiàn)上。在處理 Llama 2 等大語言模型時(shí),H200 的推理速度比 H100 提高了接近 2 倍。 很明顯,如果能在相同的功率范圍之內(nèi)實(shí)現(xiàn) 2 倍的性能提升,就意味著實(shí)際能耗和總體擁有成本降低了 50%。所以從理論上講,英偉達(dá)似乎可以讓 H200 GPU 的價(jià)格與 H100 持平。
得益于 Tansformer 引擎、浮點(diǎn)運(yùn)算精度的下降以及更快的 HBM3 內(nèi)存,今年起全面出貨的 H100 在 GPT-3 175B 模型的推理性能方面已經(jīng)較 A100 提升至 11 倍。而憑借更大、更快的 HBM3e 內(nèi)存,無需任何硬件或代碼變更的 H200 則直接把性能拉升至 18 倍。 哪怕是與 H100 相比,H200 的性能也提高至 1.64 倍,而這一切都純粹源自內(nèi)存容量和帶寬的增長(zhǎng)。
想象一下,如果未來的設(shè)備擁有 512 GB HBM 內(nèi)存和 10 TB/ 秒帶寬,性能又會(huì)來到怎樣的水平?大家愿意為這款能夠全力施為的 GPU 支付多高的價(jià)錢?最終產(chǎn)品很可能要賣到 6 萬甚至是 9 萬美元,畢竟很多朋友已經(jīng)愿意為目前未能充分發(fā)揮潛力的產(chǎn)品掏出 3 萬美元了。
英偉達(dá)需要順應(yīng) 大內(nèi)存的發(fā)展趨勢(shì)
出于種種技術(shù)和經(jīng)濟(jì)方面的權(quán)衡,幾十年來各種處理器在算力方面往往配置過剩,但相應(yīng)的內(nèi)存帶寬卻相對(duì)不足。實(shí)際內(nèi)存容量,往往要視設(shè)備和工作負(fù)載需求而定。
Web 基礎(chǔ)設(shè)施類負(fù)載和那些相對(duì)簡(jiǎn)單的分析 / 數(shù)據(jù)庫工作負(fù)載大多能在擁有十幾條 DDR 內(nèi)存通道的現(xiàn)代 CPU 上運(yùn)行良好,但到了 HPC 模擬 / 建模乃至 AI 訓(xùn)練 / 推理這邊,即使是最先進(jìn) GPU 的內(nèi)存帶寬和內(nèi)存容量也相對(duì)不足,因此無法實(shí)質(zhì)性提升芯片上既有向量與矩陣引擎的利用率。于是乎,這些 GPU 只能耗費(fèi)大量時(shí)間等待數(shù)據(jù)交付,無法全力施展自身所長(zhǎng)。
所以答案就很明確了:應(yīng)該在這些芯片上放置更多內(nèi)存!但遺憾的是,高級(jí)計(jì)算引擎上的 HBM 內(nèi)存成本往往比芯片本身還要高,因此添加更多內(nèi)存自然面臨很大的阻力。特別是如果添加內(nèi)存就能讓性能翻倍,那同樣的 HPC 或 AI 應(yīng)用性能將只需要一半的設(shè)備即可達(dá)成,這樣的主意顯然沒法在董事會(huì)那邊得到支持。這種主動(dòng)壓縮利潤(rùn)的思路,恐怕只能在市場(chǎng)供過于求,三、四家廠商爭(zhēng)奪客戶預(yù)算的時(shí)候才會(huì)發(fā)生。但很明顯,現(xiàn)狀并非如此。
好在最終理性還是占據(jù)了上風(fēng),所以英特爾才推出了“Sapphire Rapids”至強(qiáng) SP 芯片變體,配備有 64 GB HBM2e 內(nèi)存。雖然每核分配到的內(nèi)存才剛剛超過 1 GB,但總和內(nèi)存帶寬卻可達(dá)到每秒 1 TB 以上。對(duì)于各類對(duì)內(nèi)存容量要求較低的工作負(fù)載,以及主要受帶寬限制、而非容量限制的工作負(fù)載(主要體現(xiàn)在 HPC 類應(yīng)用當(dāng)中),只需轉(zhuǎn)向 HBM2e 即可將性能提升 1.8 至 1.9 倍。于是乎,Sapphire Rapids 的 HBM 變體自然成為 1 月份產(chǎn)品發(fā)布中最受關(guān)注、也最具現(xiàn)實(shí)意義的內(nèi)容之一。英特爾還很有可能在接下來推出的“Granite Rapids”芯片中發(fā)布 HBM 變體,雖然號(hào)稱是以多路復(fù)用器組合列(MCR)DDR5 內(nèi)存為賣點(diǎn),但這種內(nèi)存擴(kuò)容的整體思路必將成為 Granite Rapids 架構(gòu)中的重要部分。
英偉達(dá)之前在丹佛舉行的 SC23 超級(jí)計(jì)算大會(huì)上宣布推出新的“Hopper”H200 GPU 加速器,AMD 則將于 12 月 6 日發(fā)布面向數(shù)據(jù)中心的“Antares”GPU 加速器系列——包括搭載 192 GB HBM3 內(nèi)存的 Instinct MI300X,以及擁有 128 GB HBM3 內(nèi)存的 CPU-GPU 混合 MI300A。很明顯,英偉達(dá)也必須順應(yīng)這波趨勢(shì),至少也要為 Hopper GPU 配備更大的內(nèi)存。
英偉達(dá)在一個(gè)月前的財(cái)務(wù)會(huì)議上放出技術(shù)路線圖時(shí),我們都知道 GH200 GPU 和 H200 GPU 加速器將成為“Blackwell”GB100 GPU 及 B100 GPU 之前的過渡性產(chǎn)品,而后者計(jì)劃在 2024 年內(nèi)發(fā)布。人們普遍認(rèn)為 H200 套件將擁有更大的內(nèi)存,但我們認(rèn)為英偉達(dá)應(yīng)該想辦法提升 GPU 引擎本身的性能。事實(shí)證明,通過擴(kuò)大 HBM 內(nèi)存并轉(zhuǎn)向速度更快的 HBM3e 內(nèi)存,英偉達(dá)完全可以在現(xiàn)有 Hopper GPU 的設(shè)計(jì)之上帶來顯著的性能提升,無需添加更多 CUDA 核心或者對(duì) GPU 超頻。 明年還有新的大冤種?
身處摩爾定律末期,在計(jì)算引擎中集成 HBM 內(nèi)存所帶來的高昂成本已經(jīng)嚴(yán)重限制了性能擴(kuò)展。英偉達(dá)和英特爾在 Sapphire Rapids 至強(qiáng) Max CPU 上都公布了相應(yīng)的統(tǒng)計(jì)數(shù)字。而無論英偉達(dá)接下來的 Blackwell B100 GPU 加速器具體表現(xiàn)如何,都基本可以斷定會(huì)帶來更強(qiáng)大的推理性能,而且這種性能提升很可能來自內(nèi)存方面的突破、而非計(jì)算層面的升級(jí)。下面來看 B100 GPU 在 GPT-3 175B 參數(shù)模型上的推理能力提升:
因此,從現(xiàn)在到明年夏季之間砸錢購買英偉達(dá) Hopper G200 的朋友,肯定又要被再割一波“韭菜”(當(dāng)然,這也是數(shù)據(jù)中心持續(xù)發(fā)展下的常態(tài))。
最后:H200 GPU 加速器和 Grace-Hopper 超級(jí)芯片將采用更新的 Hopper GPU,配備更大、更快的內(nèi)存,且計(jì)劃于明年年中正式上市。也正因?yàn)槿绱耍覀儾耪J(rèn)定 Blackwell B100 加速器雖然會(huì)在明年 3 月的 GTC 2024 大會(huì)上首次亮相,但實(shí)際出貨恐怕要等到 2024 年底。當(dāng)然,無論大家決定為自己的系統(tǒng)選擇哪款產(chǎn)品,最好現(xiàn)在就提交訂單,否則到時(shí)候肯定會(huì)一無所獲。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46870瀏覽量
237593 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3748瀏覽量
90836 -
AI芯片
+關(guān)注
關(guān)注
17文章
1860瀏覽量
34911
原文標(biāo)題:囤H100的都成了大冤種!英偉達(dá)發(fā)布最新AI芯片H200:性能提升2倍,成本下降50%
文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論