精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

7nm制程,比GPU效率高,Meta發(fā)布第一代AI推理加速器

AI智勝未來 ? 來源:機(jī)器之心 ? 2023-05-26 15:41 ? 次閱讀

近日,Meta 透露了其在人工智能方面取得的最新進(jìn)展。

人們提起 Meta 時,通常會想到其應(yīng)用程序,包括 Facebook、Instagram、WhatsApp 或即將推出的元宇宙。但許多人不知道的是這家公司設(shè)計(jì)和構(gòu)建了非常復(fù)雜的數(shù)據(jù)中心來運(yùn)營這些服務(wù)。

與 AWS、GCP 或 Azure 等云服務(wù)提供商不同,Meta 不需要披露有關(guān)其硅芯選擇、基礎(chǔ)設(shè)施或數(shù)據(jù)中心設(shè)計(jì)的細(xì)節(jié),除了其 OCP 設(shè)計(jì)用來給買家留下深刻印象。Meta 的用戶希望獲得更好、更一致的體驗(yàn),而不關(guān)心它是如何實(shí)現(xiàn)的。

在 Meta,AI 工作負(fù)載無處不在,它們構(gòu)成了廣泛用例的基礎(chǔ),包括內(nèi)容理解、信息流、生成式 AI 和廣告排名。這些工作負(fù)載在 PyTorch 上運(yùn)行,具有一流的 Python 集成、即時模式(eager-mode)開發(fā)和 API 簡潔性。特別是深度學(xué)習(xí)推薦模型(DLRMs),對于改善 Meta 的服務(wù)和應(yīng)用體驗(yàn)非常重要。但隨著這些模型的大小和復(fù)雜性的增加,底層的硬件系統(tǒng)需要在保持高效的同時提供指數(shù)級增長的內(nèi)存和計(jì)算能力。

Meta 發(fā)現(xiàn),對于目前規(guī)模的 AI 運(yùn)算和特定的工作負(fù)載,GPU 的效率不高,并不是最佳選擇。因此,該公司提出了推理加速器 MTIA,幫助更快地訓(xùn)練 AI 系統(tǒng)。

MTIA V1

4ca17d8c-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1(推理)芯片(die)

2020 年,Meta 為其內(nèi)部工作負(fù)載設(shè)計(jì)了第一代 MTIA ASIC 推理加速器。該推理加速器是其全棧解決方案的一部分,整個解決方案包括芯片、PyTorch 和推薦模型。

MTIA 加速器采用 TSMC 7nm 工藝制造,運(yùn)行頻率為 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的熱設(shè)計(jì)功耗 (TDP) 為 25 W。

MTIA 加速器由處理元件 (PE)、片上和片外存儲器資源以及互連組成。該加速器配備了運(yùn)行系統(tǒng)固件的專用控制子系統(tǒng)。固件管理可用的計(jì)算和內(nèi)存資源,通過專用主機(jī)接口與主機(jī)通信,協(xié)調(diào)加速器上的 job 執(zhí)行。

內(nèi)存子系統(tǒng)使用 LPDDR5 作為片外 DRAM 資源,可擴(kuò)展至 128 GB。該芯片還有 128 MB 的片上 SRAM,由所有 PE 共享,為頻繁訪問的數(shù)據(jù)和指令提供更高的帶寬和更低的延遲。

MTIA 加速器網(wǎng)格包含以 8x8 配置組織的 64 個 PE,這些 PE 相互連接,并通過網(wǎng)狀網(wǎng)絡(luò)連接到內(nèi)存塊。整個網(wǎng)格可以作為一個整體來運(yùn)行一個 job,也可以分成多個可以運(yùn)行獨(dú)立 job 的子網(wǎng)格。

每個 PE 配備兩個處理器內(nèi)核(其中一個配備矢量擴(kuò)展)和一些固定功能單元,這些單元經(jīng)過優(yōu)化以執(zhí)行關(guān)鍵操作,例如矩陣乘法、累加、數(shù)據(jù)移動和非線性函數(shù)計(jì)算。處理器內(nèi)核基于 RISC-V 開放指令集架構(gòu) (ISA),并經(jīng)過大量定制以執(zhí)行必要的計(jì)算和控制任務(wù)。

每個 PE 還具有 128 KB 的本地 SRAM 內(nèi)存,用于快速存儲和操作數(shù)據(jù)。該架構(gòu)最大限度地提高了并行性和數(shù)據(jù)重用性,這是高效運(yùn)行工作負(fù)載的基礎(chǔ)。

該芯片同時提供線程和數(shù)據(jù)級并行性(TLP 和 DLP),利用指令級并行性 (ILP),并通過允許同時處理大量內(nèi)存請求來實(shí)現(xiàn)大量的內(nèi)存級并行性 (MLP)。

4d2fdce4-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1 系統(tǒng)設(shè)計(jì)

MTIA 加速器安裝在小型雙 M.2 板上,可以更輕松地集成到服務(wù)器中。這些板使用 PCIe Gen4 x8 鏈接連接到服務(wù)器上的主機(jī) CPU,功耗低至 35 W。

4d5ef182-fb2c-11ed-90ce-dac502259ad0.png

帶有 MTIA 的樣品測試板

托管這些加速器的服務(wù)器使用來自開放計(jì)算項(xiàng)目的 Yosemite V3 服務(wù)器規(guī)范。每臺服務(wù)器包含 12 個加速器,這些加速器連接到主機(jī) CPU,并使用 PCIe 交換機(jī)層級相互連接。因此,不同加速器之間的通信不需要涉及主機(jī) CPU。此拓?fù)湓试S將工作負(fù)載分布在多個加速器上并并行運(yùn)行。加速器的數(shù)量和服務(wù)器配置參數(shù)經(jīng)過精心選擇,以最適合執(zhí)行當(dāng)前和未來的工作負(fù)載。

MTIA 軟件棧

MTIA 軟件(SW)棧旨在提供給開發(fā)者更好的開發(fā)效率和高性能體驗(yàn)。它與 PyTorch 完全集成,給用戶提供了一種熟悉的開發(fā)體驗(yàn)。使用基于 MTIA 的 PyTorch 與使用 CPU 或 GPU 的 PyTorch 一樣簡單。并且,得益于蓬勃發(fā)展的 PyTorch 開發(fā)者生態(tài)系統(tǒng)和工具,現(xiàn)在 MTIA SW 棧可以使用 PyTorch FX IR 執(zhí)行模型級轉(zhuǎn)換和優(yōu)化,并使用 LLVM IR 進(jìn)行低級優(yōu)化,同時還支持 MTIA 加速器自定義架構(gòu)和 ISA。

下圖為 MTIA 軟件棧框架圖:

4e236b98-fb2c-11ed-90ce-dac502259ad0.png

作為 SW 棧的一部分,Meta 還為性能關(guān)鍵型 ML 內(nèi)核開發(fā)了一個手動調(diào)整和高度優(yōu)化的內(nèi)核庫,例如完全連接和嵌入包運(yùn)算符。在 SW 棧的更高層級可以選擇在編譯和代碼生成過程中實(shí)例化和使用這些高度優(yōu)化的內(nèi)核。

此外,MTIA SW 棧隨著與 PyTorch 2.0 的集成而不斷發(fā)展,PyTorch 2.0 更快、更 Python 化,但一如既往地動態(tài)。這將啟用新功能,例如 TorchDynamo 和 TorchInductor。Meta 還在擴(kuò)展 Triton DSL 以支持 MTIA 加速器,并使用 MLIR 進(jìn)行內(nèi)部表示和高級優(yōu)化。

MTIA 性能

Meta 比較了 MTIA 與其他加速器的性能,結(jié)果如下:

4e597684-fb2c-11ed-90ce-dac502259ad0.png

Meta 使用五種不同的 DLRMs(復(fù)雜度從低到高)來評估 MTIA

此外,Meta 還將 MTIA 與 NNPI 以及 GPU 進(jìn)行了比較,結(jié)果如下:

4e63c922-fb2c-11ed-90ce-dac502259ad0.png

評估發(fā)現(xiàn),與 NNPI 和 GPU 相比,MTIA 能夠更高效地處理低復(fù)雜度(LC1 和 LC2)和中等復(fù)雜度(MC1 和 MC2)的模型。此外,Meta 尚未針對高復(fù)雜度(HC)模型進(jìn)行 MTIA 的優(yōu)化。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    795

    瀏覽量

    37762
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4701

    瀏覽量

    128707
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    803

    瀏覽量

    13148

原文標(biāo)題:7nm制程,比GPU效率高,Meta發(fā)布第一代AI推理加速器

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    所謂的7nm芯片上沒有個圖形是7nm

    最近網(wǎng)上因?yàn)楣饪虣C(jī)的事情,網(wǎng)上又是陣熱鬧。好多人又開始討論起28nm/7nm的事情了有意無意之間,我也看了不少網(wǎng)上關(guān)于國產(chǎn)自主7nm工藝的文章。不過這些文章里更多是抒情和遐想,卻很少
    的頭像 發(fā)表于 10-08 17:12 ?226次閱讀
    所謂的<b class='flag-5'>7nm</b>芯片上沒有<b class='flag-5'>一</b>個圖形是<b class='flag-5'>7nm</b>的

    RISC-V擁有巨大市場潛力的原因

    發(fā)布了第三“香山”開源高性能RISC-V處理核,其性能水平已進(jìn)入全球第一梯隊(duì),可廣泛應(yīng)用于服務(wù)芯片、
    發(fā)表于 09-30 14:20

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)

    提高成本效率。HyperAccel 針對新興的生成式 AI 應(yīng)用提供超級加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出個快速、高效且低成本的
    的頭像 發(fā)表于 09-18 09:37 ?330次閱讀
    AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)<b class='flag-5'>器</b>

    一代功能新一代AI加速器(DRP-AI3):10x在高級AI系統(tǒng)高級AI中更快的嵌入處理

    電子發(fā)燒友網(wǎng)站提供《下一代功能新一代AI加速器(DRP-AI3):10x在高級
    發(fā)表于 08-15 11:06 ?0次下載
    下<b class='flag-5'>一代</b><b class='flag-5'>高</b>功能新<b class='flag-5'>一代</b><b class='flag-5'>AI</b><b class='flag-5'>加速器</b>(DRP-<b class='flag-5'>AI</b>3):10x在高級<b class='flag-5'>AI</b>系統(tǒng)高級<b class='flag-5'>AI</b>中更快的嵌入處理

    進(jìn)步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    性能,加速模型的訓(xùn)練和推理過程。 2. 生成式 AI 解決方案 與英偉達(dá) Grace CPU、新一代網(wǎng)絡(luò)芯片等產(chǎn)品起,面向生成式
    發(fā)表于 05-13 17:16

    Arm發(fā)布一代Ethos-U AI加速器 Arm旨在瞄準(zhǔn)國產(chǎn)CPU市場

    Arm發(fā)布的新一代Ethos-U AI加速器確實(shí)在業(yè)界引起了廣泛關(guān)注。
    的頭像 發(fā)表于 04-18 15:59 ?720次閱讀

    Arm推動生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構(gòu),性能提升四倍

    等領(lǐng)先企業(yè)均已推出搭載 Ethos-U 的量產(chǎn)芯片。最近,Arm發(fā)布Arm Ethos-U85 AI加速器,這款加速器在性能、算力、應(yīng)用場景方面進(jìn)
    的頭像 發(fā)表于 04-16 09:10 ?4524次閱讀
    Arm推動生成式<b class='flag-5'>AI</b>落地邊緣!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架構(gòu),性能提升四倍

    Meta第二自研AI芯片出世,性能提升三倍以上

    電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))不久前,Meta宣布將花費(fèi)150億美元,購置60多萬塊GPU,而這還沒算上系統(tǒng)成本。就當(dāng)大家以為Meta打算All In GPU之際,
    的頭像 發(fā)表于 04-15 09:25 ?2107次閱讀
    <b class='flag-5'>Meta</b>第二<b class='flag-5'>代</b>自研<b class='flag-5'>AI</b>芯片出世,性能提升三倍以上

    2024年全球與中國7nm智能座艙芯片行業(yè)總體規(guī)模、主要企業(yè)國內(nèi)外市場占有率及排名

    類型及應(yīng)用 2.9 7nm智能座艙芯片行業(yè)集中度、競爭程度分析 2.9.1 7nm智能座艙芯片行業(yè)集中度分析:2023年全球Top 5生產(chǎn)商市場份額 2.9.2 全球7nm智能座艙芯片第一
    發(fā)表于 03-16 14:52

    瑞薩發(fā)布下一代動態(tài)可重構(gòu)人工智能處理加速器

    瑞薩最新發(fā)布的動態(tài)可重構(gòu)人工智能處理(DRP-AI加速器,在業(yè)界引起了廣泛關(guān)注。這款加速器擁有卓越的10 TOPS/W
    的頭像 發(fā)表于 03-08 13:45 ?726次閱讀

    NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

    根據(jù)各方信息和路線圖,NVIDIA預(yù)計(jì)會在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。
    的頭像 發(fā)表于 03-04 09:33 ?1253次閱讀
    NVIDIA將在今年第二季度<b class='flag-5'>發(fā)布</b>Blackwell架構(gòu)的新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b><b class='flag-5'>加速器</b>“B100”

    家居智能化,推動AI加速器的發(fā)展

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃山明)AI加速芯片,也稱為人工智能加速器AI Accelerator),是種專為執(zhí)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計(jì)
    的頭像 發(fā)表于 02-23 00:18 ?4538次閱讀

    第一代通S7和S7 Pro音頻平臺:超旗艦性能,全面革新音頻體驗(yàn)

    》中發(fā)現(xiàn),人們使用耳塞和耳機(jī)的頻率正在提高、時間更長、用途也更廣泛; 更關(guān)注卓越音頻體驗(yàn),同時對音質(zhì)的要求也達(dá)到新高。 為此,通推出了面向耳塞、耳機(jī)和音箱設(shè)計(jì)的 第一代通S7和S
    的頭像 發(fā)表于 12-14 20:15 ?729次閱讀
    <b class='flag-5'>第一代</b><b class='flag-5'>高</b>通S<b class='flag-5'>7</b>和S<b class='flag-5'>7</b> Pro音頻平臺:超旗艦性能,全面革新音頻體驗(yàn)

    文詳解芯片的7nm工藝

    芯片的7nm工藝我們經(jīng)常能聽到,但是7nm是否真的意味著芯片的尺寸只有7nm呢?讓我們起來看看吧!
    的頭像 發(fā)表于 12-07 11:45 ?5476次閱讀
    <b class='flag-5'>一</b>文詳解芯片的<b class='flag-5'>7nm</b>工藝

    臺積電7nm制程降幅約為5%至10%

    據(jù)供應(yīng)鏈消息透露,臺積電計(jì)劃真正降低其7nm制程的價格,降幅約為5%至10%。這舉措的主要目的是緩解7nm制程產(chǎn)能利用率下滑的壓力。
    的頭像 發(fā)表于 12-01 16:46 ?854次閱讀