隨著人工智能 (AI) 在我們的日常生活中繼續(xù)發(fā)揮更大的影響力和影響,該領(lǐng)域正在從基于云的推理遷移到邊緣和端點(diǎn)推理。基于邊緣的推理為各種物聯(lián)網(wǎng)設(shè)備帶來智能,使數(shù)據(jù)能夠在本地處理并實(shí)時(shí)做出決策,同時(shí)提高數(shù)據(jù)隱私和安全性。
Arm 的 Ethos NPU 如何增強(qiáng)邊緣和端點(diǎn)的 AI 性能?
多年來,Arm 一直在開發(fā)邊緣 AI 加速器,以支持對(duì)邊緣和端點(diǎn)推理工作負(fù)載日益增長(zhǎng)的需求。通過 Arm 的 Ethos-U55 和 Ethos-U65 NPU,我們推出了兩款非常成功的產(chǎn)品,為邊緣和端點(diǎn)的 AI 應(yīng)用帶來了高性能、高能效的解決方案。
Ethos-U55 部署在許多基于 Cortex-M 的異構(gòu)系統(tǒng)中。Ethos-U65 將 Ethos-U 系列的適用性擴(kuò)展到基于 Cortex-A 的系統(tǒng),同時(shí)提供兩倍的設(shè)備端機(jī)器學(xué)習(xí) (ML) 性能。這兩款產(chǎn)品都提供了統(tǒng)一的工具鏈,便于開發(fā)和支持常見的 ML 網(wǎng)絡(luò)操作,包括卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和遞歸神經(jīng)網(wǎng)絡(luò) (RNN)。
Transformer 架構(gòu)對(duì) AI 開發(fā)有何影響?
Transformer 架構(gòu)于 2017 年推出,徹底改變了生成式 AI,并成為許多新神經(jīng)網(wǎng)絡(luò)的首選架構(gòu)。基于 Transformer 的模型可以使用注意力機(jī)制處理順序數(shù)據(jù),并在許多 AI 任務(wù)中取得了最先進(jìn)的結(jié)果,例如機(jī)器翻譯、自然語言理解、語音識(shí)別、分割和圖像字幕。
這些模型可以進(jìn)行調(diào)整和壓縮,以便在邊緣設(shè)備上高效運(yùn)行,而不會(huì)對(duì)準(zhǔn)確性造成太大影響,并在許多邊緣和端點(diǎn)用例中展示最先進(jìn)的進(jìn)步。
Ethos-U85 NPU 在邊緣和端點(diǎn)工作負(fù)載方面的主要優(yōu)勢(shì)是什么?
在我們之前的 Ethos-U 系列 NPU 成功的基礎(chǔ)上,我們推出了一款新產(chǎn)品 Ethos-U85。這帶來了一個(gè)加速器,其特點(diǎn)是具有與以前的 Ethos-U NPU 相同的高性能、節(jié)能理念,同時(shí)使用基于 Transformer 的網(wǎng)絡(luò)在邊緣和端點(diǎn)上實(shí)現(xiàn)當(dāng)前和即將到來的工作負(fù)載。
Ethos-U85 是 Arm Ethos-U 產(chǎn)品線的第三代 NPU,也是迄今為止性能最高、能效最高的 Ethos NPU。與前代產(chǎn)品相比,它的性能提升了 4 倍,能效提高了 20%,在流行網(wǎng)絡(luò)上的利用率高達(dá) 85%。這解決了物聯(lián)網(wǎng)應(yīng)用的需求,在這些應(yīng)用中,我們看到更高的性能需求,例如工廠自動(dòng)化和商用或智能家居攝像頭。它還設(shè)計(jì)用于與 Cortex-M 以及基于 Cortex-A 的系統(tǒng)一起運(yùn)行,并可承受高 DRAM 延遲。
Ethos-U85 的一些主要功能包括:
支持從 128 到 2048 MAC/周期的配置 – 256 GOPS/s 到 4 TOP/s(1GHz)。
支持 int8 權(quán)重和 int8 或 int16 激活。
支持 transformer 架構(gòu)網(wǎng)絡(luò),以及 CNN 和 RNN。
硬件原生支持 2/4 稀疏性,吞吐量翻倍。
29 至 267 KB 的內(nèi)部 SRAM 和多達(dá) 6 個(gè) 128 位 AXI5 接口。
支持重量壓縮,具有標(biāo)準(zhǔn)和快速重量解碼器。
支持?jǐn)U展壓縮。
除了目前 Ethos-U55 和 U65 支持的算子外,Ethos-U85 還將通過支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等操作,為轉(zhuǎn)換器網(wǎng)絡(luò)和 DeeplabV3 語義分割網(wǎng)絡(luò)提供原生硬件支持。
Ethos-U85 還支持元素運(yùn)算符鏈接。鏈接將元素運(yùn)算與先前運(yùn)算相結(jié)合,使SRAM不必寫入然后讀取中間張量。這可以通過減少需要在 NPU 和內(nèi)存之間傳輸?shù)臄?shù)據(jù)量來提高 NPU 的效率。與 Ethos-U65 相比,鏈?zhǔn)?Ethos-U85 中幾個(gè)改進(jìn)的效率功能之一,此外還有快速權(quán)重解碼器、改進(jìn)的 MAC 陣列的電源效率和改進(jìn)的元素效率。
Ethos-U85 系統(tǒng)配置
Ethos-U85 可用于與 Ethos-U55 和 Ethos-U65 相同的系統(tǒng)配置流程,我們正在引入從基于 Cortex-A 的系統(tǒng)直接驅(qū)動(dòng) Ethos-U85 的功能。
Ethos-U85 還將支持與之前的 Ethos-U 系列產(chǎn)品建立的相同軟件工具鏈,該系列使用 TFLmicro 運(yùn)行時(shí)。這將擴(kuò)展已經(jīng)使用Cortex-A/Cortex-M和Ethos-U55/Ethos-U65的系統(tǒng)進(jìn)行投資的價(jià)值,因?yàn)镋thos-U85在此基礎(chǔ)上構(gòu)建并利用該價(jià)值來實(shí)現(xiàn)基于變壓器網(wǎng)絡(luò)的更廣泛的用例。將來,我們希望啟用對(duì) ExecuTorch 的支持,這是邊緣設(shè)備的 PyTorch 運(yùn)行時(shí)。
Ethos-U85 支持的算子將在 NPU 本身上加速,而如果有任何不支持的特殊算子,那么其中一些可以在使用 CMSIS-NN 的基于 Cortex-M 的系統(tǒng)上加速。例如,在 tinyLlama 的情況下,該模型完全映射到 Ethos-U85,沒有將操作員回退到 CPU。
最后,作為 Corstone-320 的一部分,Ethos-U85 構(gòu)建在我們最新的物聯(lián)網(wǎng)參考設(shè)計(jì)平臺(tái)的核心。這有助于在各種基于 AI 的物聯(lián)網(wǎng)解決方案中加速高性能片上系統(tǒng) (SoC) 的開發(fā)和部署。
在邊緣釋放所有 AI 功能
Ethos-U85 將帶來在邊緣和端點(diǎn)設(shè)備上執(zhí)行許多最先進(jìn)的 AI 功能所需的計(jì)算能力。隨著人工智能世界的發(fā)展,我們的合作伙伴將擁有可靠、高效和高性能的基于 Ethos-U 的解決方案。我們希望看到 Ethos-U85 部署在新興的邊緣 AI 用例中,例如智能家居、零售或工業(yè)環(huán)境中,這些領(lǐng)域需要支持最新 AI 框架的更高性能計(jì)算。
在 Arm,我們?yōu)槟軌驗(yàn)槲覀兊暮献骰锇楹蜕鷳B(tài)系統(tǒng)提供尖端的硬件和軟件解決方案而感到自豪。借助 Ethos-U85,我們正在打開一個(gè)充滿邊緣和基于端點(diǎn)的 AI 推理用例的可能性世界,這些用例將改變世界。隨著我們繼續(xù)在 Arm 上構(gòu)建邊緣 AI 的未來,Arm 正在將邊緣 AI 創(chuàng)新提升到一個(gè)新的水平。
在此處了解有關(guān) Arm Ethos-U85 的更多信息。
作者: Parag Beeraka,物聯(lián)網(wǎng)細(xì)分市場(chǎng)高級(jí)總監(jiān)手臂
審核編輯 黃宇
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2893文章
42893瀏覽量
364359 -
AI
+關(guān)注
關(guān)注
87文章
28461瀏覽量
265734 -
人工智能
+關(guān)注
關(guān)注
1787文章
45805瀏覽量
234090 -
NPU
+關(guān)注
關(guān)注
2文章
246瀏覽量
18311
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論