国产亚洲欧美日韩在线我不卡_久久久久久久久经典精品欧美激情_97久久天天躁夜夜躁狠狠

近日，Meta 透露了其在人工智能方面取得的最新進(jìn)展。

人們提起 Meta 時，通常會想到其應(yīng)用程序，包括 Facebook、Instagram、WhatsApp 或即將推出的元宇宙。但許多人不知道的是這家公司設(shè)計(jì)和構(gòu)建了非常復(fù)雜的數(shù)據(jù)中心來運(yùn)營這些服務(wù)。

與 AWS、GCP 或 Azure 等云服務(wù)提供商不同，Meta 不需要披露有關(guān)其硅芯選擇、基礎(chǔ)設(shè)施或數(shù)據(jù)中心設(shè)計(jì)的細(xì)節(jié)，除了其 OCP 設(shè)計(jì)用來給買家留下深刻印象。Meta 的用戶希望獲得更好、更一致的體驗(yàn)，而不關(guān)心它是如何實(shí)現(xiàn)的。

在 Meta，AI 工作負(fù)載無處不在，它們構(gòu)成了廣泛用例的基礎(chǔ)，包括內(nèi)容理解、信息流、生成式 AI 和廣告排名。這些工作負(fù)載在 PyTorch 上運(yùn)行，具有一流的 Python 集成、即時模式（eager-mode）開發(fā)和 API 簡潔性。特別是深度學(xué)習(xí)推薦模型（DLRMs），對于改善 Meta 的服務(wù)和應(yīng)用體驗(yàn)非常重要。但隨著這些模型的大小和復(fù)雜性的增加，底層的硬件系統(tǒng)需要在保持高效的同時提供指數(shù)級增長的內(nèi)存和計(jì)算能力。

Meta 發(fā)現(xiàn)，對于目前規(guī)模的 AI 運(yùn)算和特定的工作負(fù)載，GPU 的效率不高，并不是最佳選擇。因此，該公司提出了推理加速器 MTIA，幫助更快地訓(xùn)練 AI 系統(tǒng)。

MTIA V1

MTIA v1（推理）芯片（die）

2020 年，Meta 為其內(nèi)部工作負(fù)載設(shè)計(jì)了第一代 MTIA ASIC 推理加速器。該推理加速器是其全棧解決方案的一部分，整個解決方案包括芯片、PyTorch 和推薦模型。

MTIA 加速器采用 TSMC 7nm 工藝制造，運(yùn)行頻率為 800 MHz，在 INT8 精度下提供 102.4 TOPS，在 FP16 精度下提供 51.2 TFLOPS。它的熱設(shè)計(jì)功耗 (TDP) 為 25 W。

MTIA 加速器由處理元件 (PE)、片上和片外存儲器資源以及互連組成。該加速器配備了運(yùn)行系統(tǒng)固件的專用控制子系統(tǒng)。固件管理可用的計(jì)算和內(nèi)存資源，通過專用主機(jī)接口與主機(jī)通信，協(xié)調(diào)加速器上的 job 執(zhí)行。

內(nèi)存子系統(tǒng)使用 LPDDR5 作為片外 DRAM 資源，可擴(kuò)展至 128 GB。該芯片還有 128 MB 的片上 SRAM，由所有 PE 共享，為頻繁訪問的數(shù)據(jù)和指令提供更高的帶寬和更低的延遲。

MTIA 加速器網(wǎng)格包含以 8x8 配置組織的 64 個 PE，這些 PE 相互連接，并通過網(wǎng)狀網(wǎng)絡(luò)連接到內(nèi)存塊。整個網(wǎng)格可以作為一個整體來運(yùn)行一個 job，也可以分成多個可以運(yùn)行獨(dú)立 job 的子網(wǎng)格。

每個 PE 配備兩個處理器內(nèi)核（其中一個配備矢量擴(kuò)展）和一些固定功能單元，這些單元經(jīng)過優(yōu)化以執(zhí)行關(guān)鍵操作，例如矩陣乘法、累加、數(shù)據(jù)移動和非線性函數(shù)計(jì)算。處理器內(nèi)核基于 RISC-V 開放指令集架構(gòu) (ISA)，并經(jīng)過大量定制以執(zhí)行必要的計(jì)算和控制任務(wù)。

每個 PE 還具有 128 KB 的本地 SRAM 內(nèi)存，用于快速存儲和操作數(shù)據(jù)。該架構(gòu)最大限度地提高了并行性和數(shù)據(jù)重用性，這是高效運(yùn)行工作負(fù)載的基礎(chǔ)。

該芯片同時提供線程和數(shù)據(jù)級并行性（TLP 和 DLP），利用指令級并行性 (ILP)，并通過允許同時處理大量內(nèi)存請求來實(shí)現(xiàn)大量的內(nèi)存級并行性 (MLP)。

MTIA v1 系統(tǒng)設(shè)計(jì)

MTIA 加速器安裝在小型雙 M.2 板上，可以更輕松地集成到服務(wù)器中。這些板使用 PCIe Gen4 x8 鏈接連接到服務(wù)器上的主機(jī) CPU，功耗低至 35 W。

帶有 MTIA 的樣品測試板

托管這些加速器的服務(wù)器使用來自開放計(jì)算項(xiàng)目的 Yosemite V3 服務(wù)器規(guī)范。每臺服務(wù)器包含 12 個加速器，這些加速器連接到主機(jī) CPU，并使用 PCIe 交換機(jī)層級相互連接。因此，不同加速器之間的通信不需要涉及主機(jī) CPU。此拓?fù)湓试S將工作負(fù)載分布在多個加速器上并并行運(yùn)行。加速器的數(shù)量和服務(wù)器配置參數(shù)經(jīng)過精心選擇，以最適合執(zhí)行當(dāng)前和未來的工作負(fù)載。

MTIA 軟件棧

MTIA 軟件（SW）棧旨在提供給開發(fā)者更好的開發(fā)效率和高性能體驗(yàn)。它與 PyTorch 完全集成，給用戶提供了一種熟悉的開發(fā)體驗(yàn)。使用基于 MTIA 的 PyTorch 與使用 CPU 或 GPU 的 PyTorch 一樣簡單。并且，得益于蓬勃發(fā)展的 PyTorch 開發(fā)者生態(tài)系統(tǒng)和工具，現(xiàn)在 MTIA SW 棧可以使用 PyTorch FX IR 執(zhí)行模型級轉(zhuǎn)換和優(yōu)化，并使用 LLVM IR 進(jìn)行低級優(yōu)化，同時還支持 MTIA 加速器自定義架構(gòu)和 ISA。

下圖為 MTIA 軟件棧框架圖：

作為 SW 棧的一部分，Meta 還為性能關(guān)鍵型 ML 內(nèi)核開發(fā)了一個手動調(diào)整和高度優(yōu)化的內(nèi)核庫，例如完全連接和嵌入包運(yùn)算符。在 SW 棧的更高層級可以選擇在編譯和代碼生成過程中實(shí)例化和使用這些高度優(yōu)化的內(nèi)核。

此外，MTIA SW 棧隨著與 PyTorch 2.0 的集成而不斷發(fā)展，PyTorch 2.0 更快、更 Python 化，但一如既往地動態(tài)。這將啟用新功能，例如 TorchDynamo 和 TorchInductor。Meta 還在擴(kuò)展 Triton DSL 以支持 MTIA 加速器，并使用 MLIR 進(jìn)行內(nèi)部表示和高級優(yōu)化。

MTIA 性能

Meta 比較了 MTIA 與其他加速器的性能，結(jié)果如下：

Meta 使用五種不同的 DLRMs（復(fù)雜度從低到高）來評估 MTIA

此外，Meta 還將 MTIA 與 NNPI 以及 GPU 進(jìn)行了比較，結(jié)果如下：

評估發(fā)現(xiàn)，與 NNPI 和 GPU 相比，MTIA 能夠更高效地處理低復(fù)雜度（LC1 和 LC2）和中等復(fù)雜度（MC1 和 MC2）的模型。此外，Meta 尚未針對高復(fù)雜度（HC）模型進(jìn)行 MTIA 的優(yōu)化。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

加速器

加速器

+關(guān)注

關(guān)注
2

文章
795

瀏覽量
37762
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4701

瀏覽量
128707
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
803

瀏覽量
13148

原文標(biāo)題：7nm制程，比GPU效率高，Meta發(fā)布第一代AI推理加速器

文章出處：【微信號：AI智勝未來，微信公眾號：AI智勝未來】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

所謂的7nm芯片上沒有一個圖形是7nm的

最近網(wǎng)上因?yàn)楣饪虣C(jī)的事情，網(wǎng)上又是一陣熱鬧。好多人又開始討論起28nm/7nm的事情了有意無意之間，我也看了不少網(wǎng)上關(guān)于國產(chǎn)自主7nm工藝的文章。不過這些文章里更多是抒情和遐想，卻很少

發(fā)表于 10-08 17:12 ?226次閱讀

所謂的<b class='flag-5'>7nm</b>芯片上沒有<b class='flag-5'>一</b>個圖形是<b class='flag-5'>7nm</b>的

RISC-V擁有巨大市場潛力的原因

旬發(fā)布了第三代“香山”開源高性能RISC-V處理器核，其性能水平已進(jìn)入全球第一梯隊(duì)，可廣泛應(yīng)用于服務(wù)器芯片、

發(fā)表于 09-30 14:20

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

提高成本效率。HyperAccel 針對新興的生成式 AI 應(yīng)用提供超級加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個快速、高效且低成本的

發(fā)表于 09-18 09:37 ?330次閱讀

AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)<b class='flag-5'>器</b>

下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統(tǒng)高級AI中更快的嵌入處理

電子發(fā)燒友網(wǎng)站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高級

發(fā)表于 08-15 11:06 ?0次下載

下<b class='flag-5'>一代</b><b class='flag-5'>高</b>功能新<b class='flag-5'>一代</b><b class='flag-5'>AI</b><b class='flag-5'>加速器</b>(DRP-<b class='flag-5'>AI</b>3):10x在高級<b class='flag-5'>AI</b>系統(tǒng)高級<b class='flag-5'>AI</b>中更快的嵌入處理

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

性能，加速模型的訓(xùn)練和推理過程。 2. 生成式 AI 解決方案與英偉達(dá) Grace CPU、新一代網(wǎng)絡(luò)芯片等產(chǎn)品一起，面向生成式

發(fā)表于 05-13 17:16

Arm發(fā)布新一代Ethos-U AI加速器 Arm旨在瞄準(zhǔn)國產(chǎn)CPU市場

Arm發(fā)布的新一代Ethos-U AI加速器確實(shí)在業(yè)界引起了廣泛關(guān)注。

發(fā)表于 04-18 15:59 ?720次閱讀

Arm推動生成式AI落地邊緣！全新Ethos-U85 AI加速器支持Transformer 架構(gòu)，性能提升四倍

等領(lǐng)先企業(yè)均已推出搭載 Ethos-U 的量產(chǎn)芯片。最近，Arm發(fā)布Arm Ethos-U85 AI加速器，這款加速器在性能、算力、應(yīng)用場景方面進(jìn)

發(fā)表于 04-16 09:10 ?4524次閱讀

Meta第二代自研AI芯片出世，性能提升三倍以上

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）不久前，Meta宣布將花費(fèi)150億美元，購置60多萬塊GPU，而這還沒算上系統(tǒng)成本。就當(dāng)大家以為Meta打算All In GPU之際，

發(fā)表于 04-15 09:25 ?2107次閱讀

2024年全球與中國7nm智能座艙芯片行業(yè)總體規(guī)模、主要企業(yè)國內(nèi)外市場占有率及排名

類型及應(yīng)用 2.9 7nm智能座艙芯片行業(yè)集中度、競爭程度分析 2.9.1 7nm智能座艙芯片行業(yè)集中度分析：2023年全球Top 5生產(chǎn)商市場份額 2.9.2 全球7nm智能座艙芯片第一

發(fā)表于 03-16 14:52

瑞薩發(fā)布下一代動態(tài)可重構(gòu)人工智能處理器加速器

瑞薩最新發(fā)布的動態(tài)可重構(gòu)人工智能處理器（DRP-AI）加速器，在業(yè)界引起了廣泛關(guān)注。這款加速器擁有卓越的10 TOPS/W

發(fā)表于 03-08 13:45 ?726次閱讀

NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

根據(jù)各方信息和路線圖，NVIDIA預(yù)計(jì)會在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。

發(fā)表于 03-04 09:33 ?1253次閱讀

家居智能化，推動AI加速器的發(fā)展

電子發(fā)燒友網(wǎng)報(bào)道（文/黃山明）AI加速芯片，也稱為人工智能加速器（AI Accelerator），是一種專為執(zhí)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計(jì)

發(fā)表于 02-23 00:18 ?4538次閱讀

第一代高通S7和S7 Pro音頻平臺：超旗艦性能，全面革新音頻體驗(yàn)

》中發(fā)現(xiàn)，人們使用耳塞和耳機(jī)的頻率正在提高、時間更長、用途也更廣泛；更關(guān)注卓越音頻體驗(yàn)，同時對音質(zhì)的要求也達(dá)到新高。為此，高通推出了面向耳塞、耳機(jī)和音箱設(shè)計(jì)的 第一代高通S7和S

發(fā)表于 12-14 20:15 ?729次閱讀

一文詳解芯片的7nm工藝

芯片的7nm工藝我們經(jīng)常能聽到，但是7nm是否真的意味著芯片的尺寸只有7nm呢？讓我們一起來看看吧！

發(fā)表于 12-07 11:45 ?5476次閱讀

臺積電7nm制程降幅約為5%至10%

據(jù)供應(yīng)鏈消息透露，臺積電計(jì)劃真正降低其7nm制程的價格，降幅約為5%至10%。這一舉措的主要目的是緩解7nm制程產(chǎn)能利用率下滑的壓力。

發(fā)表于 12-01 16:46 ?854次閱讀