隨著人工智能( AI )技術(shù)廣泛應(yīng)用于各行各業(yè),從云到邊緣的解決方案逐漸成為信息技術(shù)領(lǐng)域新的熱點(diǎn)。嵌入式邊緣 AI 在當(dāng)今的各種邊緣應(yīng)用中能夠大幅提升作業(yè)人員的生產(chǎn)力,帶動(dòng)整個(gè) AI 技術(shù)在各個(gè)領(lǐng)域的全面落地。邊緣 AI 的價(jià)值在于將計(jì)算和存儲(chǔ)資源移動(dòng)到網(wǎng)絡(luò)邊緣,縮短傳輸距離降低傳輸要求,大幅提升數(shù)據(jù)反饋的速度,降低了對(duì)系統(tǒng)云端計(jì)算能力的需求。邊緣處理數(shù)據(jù)無需傳輸?shù)竭h(yuǎn)程服務(wù)器,從而大大減少了傳輸延遲,對(duì)于需要實(shí)時(shí)響應(yīng)的應(yīng)用場(chǎng)景至關(guān)重要。此外,嵌入式邊緣 AI 結(jié)構(gòu)相對(duì)處理效率更高,通過優(yōu)化算法和硬件設(shè)計(jì),可以大幅降低系統(tǒng)處理所需的功耗。
目前的 AI 驅(qū)動(dòng)型嵌入式系統(tǒng)實(shí)現(xiàn)端到端加速需要采用多芯片方法,為用戶增加了很大的開銷和設(shè)計(jì)復(fù)雜性。針對(duì)這一現(xiàn)狀,AMD 工業(yè)、視覺、醫(yī)療與科學(xué)市場(chǎng)視覺業(yè)務(wù)主管 Yingyu Xia認(rèn)為,全面采用嵌入式邊緣 AI 技術(shù)仍然存在障礙,包括技能人才短缺、AI 系統(tǒng)的復(fù)雜性以及對(duì)失業(yè)的擔(dān)憂。為了更廣泛地推廣此類應(yīng)用,不僅需要展示 AI 在各個(gè)應(yīng)用任務(wù)中的價(jià)值,而且還需要確保其便于部署,作為擁有多種嵌入式處理器產(chǎn)品的廠商,這恰是 AMD 最突出的競(jìng)爭(zhēng)優(yōu)勢(shì)所在。
Yingyu Xia
AMD 工業(yè)、視覺、醫(yī)療與科學(xué)
市場(chǎng)視覺業(yè)務(wù)主管
在邊緣智能的應(yīng)用中,需要重點(diǎn)關(guān)注的就是不同處理器發(fā)揮各自的處理優(yōu)勢(shì)從而更好地提升邊緣智能系統(tǒng)的運(yùn)行效率。為了支持嵌入式設(shè)備上的生成式 AI 模型,Yingyu Xia 表示計(jì)算平臺(tái)需要確保高算力的同時(shí)具有高效率,采用處理器異構(gòu)計(jì)算平臺(tái)以及一個(gè)編譯器,能夠高效地在應(yīng)用處理器( PS )、圖形處理單元( GPU )、神經(jīng)處理單元( NPU )和現(xiàn)場(chǎng)可編程門陣列( FPGA )之間分配各種工作負(fù)載。此外,它們應(yīng)該提供易于使用的軟件開發(fā)工具套件( SDK ),幫助嵌入式工程師將其模型無縫部署到硬件平臺(tái)上。NPU 對(duì)于高效處理標(biāo)準(zhǔn) AI 模型至關(guān)重要,有助于加速 AI 任務(wù)并最大限度降低功耗;與此同時(shí),PS 和 GPU 對(duì)于處理尚未針對(duì) NPU 進(jìn)行優(yōu)化的更高級(jí)別的模型也提供了必要支持;FPGA 則有助于集成多種傳感器模態(tài),以利用多模態(tài)模型并確保傳感器同步。此外,F(xiàn)PGA 可以被編程以建立定制、優(yōu)化的數(shù)據(jù)路徑,從而實(shí)現(xiàn)系統(tǒng)組件之間的有效數(shù)據(jù)傳輸。
針對(duì)各個(gè)處理器在邊緣 AI 應(yīng)用中的作用,AMD 工業(yè)、視覺、醫(yī)療與科學(xué)市場(chǎng)機(jī)器人業(yè)務(wù)主管 KV Thanjavur Bhaaskar介紹,CPU 一直以來都是功能強(qiáng)大的通用計(jì)算引擎,相對(duì)于許多其他計(jì)算平臺(tái),在可提供支持的廣泛軟件生態(tài)系統(tǒng)方面具有優(yōu)勢(shì)。嵌入式處理器集成了用于渲染、可視化和顯示的 CPU 和圖形。隨著邊緣智能的快速增長(zhǎng),近來的一種趨勢(shì)是 CPU 除了通用計(jì)算和圖形功能外,還具有專用的 AI 計(jì)算引擎。
KV Thanjavur Bhaaskar
AMD 工業(yè)、視覺、醫(yī)療與科學(xué)
市場(chǎng)機(jī)器人業(yè)務(wù)主管
迄今為止,設(shè)計(jì)人員必須在設(shè)計(jì)中引入加速器才能實(shí)現(xiàn)高性能的 AI 推理。將專用的 AI 計(jì)算引擎引入到 CPU 中,可提供靈活的架構(gòu)選擇,減小占板面積并提高能效。就新應(yīng)用而言,邊緣智能已經(jīng)無處不在,所以可以想象在以前只有 CPU 的地方現(xiàn)在都具備了 AI 功能,比如具有 AI 路徑規(guī)劃的機(jī)器人控制器、具有診斷或感興趣區(qū)域功能的醫(yī)學(xué)成像等。正在出現(xiàn)的主要設(shè)計(jì)要求是在滿足整體解決方案需求的情況下選擇正確的引擎進(jìn)行正確的任務(wù),因?yàn)橛?jì)算工作負(fù)載的多樣性、處理器以有效處理它們的方式、以及系統(tǒng)中這種處理能力的可用性都發(fā)生了顯著變化。在為傳統(tǒng) CPU 增加 AI 功能之外,異構(gòu)處理架構(gòu)的出現(xiàn)能夠更好的去提升邊緣 AI 在功耗和效率方面的表現(xiàn)。KV Thanjavur Bhaaskar 強(qiáng)調(diào),處理器的選擇取決于特定的系統(tǒng)級(jí)別,一個(gè)解決方案可能是選擇適合特定任務(wù)的正確引擎,因?yàn)檫@將為解決系統(tǒng)中的特定計(jì)算任務(wù)提供最節(jié)能的方式。AMD 提供的器件結(jié)合了不同技術(shù),包括 FPGA、處理子系統(tǒng)(包括 Arm 和 RISC-V )、基于 x86 的 CPU、GPU、AI 引擎,構(gòu)成了可擴(kuò)展性很強(qiáng)的產(chǎn)品系列,從成本優(yōu)化的嵌入式器件一直到針對(duì)數(shù)據(jù)中心市場(chǎng)的高端器件。
Omdia預(yù)測(cè)
2027 年?duì)I收前 10 的嵌入式 AI 應(yīng)用 ( Alexander Harrowell, Omdia, 2022 )
Omdia 預(yù)測(cè)了到 2027 年預(yù)計(jì)將產(chǎn)生最高收入的前 10 個(gè)嵌入式 AI 應(yīng)用(如圖所示),這些應(yīng)用通常展示了上述因素中的兩個(gè)或更多,呈現(xiàn)出業(yè)界采用嵌入式AI 的目標(biāo)領(lǐng)域。以工廠自動(dòng)化為例,工廠中的拾取和放置機(jī)器人,需要實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的毫米級(jí)準(zhǔn)確識(shí)別并最小化對(duì)機(jī)械臂的干擾,這需要結(jié)合 3D 視覺、點(diǎn)云處理、嵌入式 AI 和傳感器致動(dòng)器融合。最大限度降低時(shí)延對(duì)于保持高生產(chǎn)力至關(guān)重要,也有助于確保產(chǎn)量和整體效率的提升。這方面許多人所熟悉的另一個(gè)例子是智能結(jié)賬系統(tǒng),不僅可通過實(shí)時(shí)監(jiān)控掃描商品來增強(qiáng)結(jié)賬體驗(yàn),而且還能檢測(cè)購物者的不當(dāng)行為,例如將較便宜的商品(如香蕉)替換為較昂貴的商品(如牛排)。這一功能不僅鼓勵(lì)顧客使用自助結(jié)賬,減少零售商的擔(dān)憂,還解決了不斷上升的勞動(dòng)力成本問題。此外,還可以參考智能交通攝像頭,其需要針對(duì)速度高達(dá) 200 公里/小時(shí)的車輛采集圖像信息。要實(shí)現(xiàn)這一點(diǎn),需要集成各種傳感器。然而,全天候持續(xù)傳輸視頻將產(chǎn)生極高的成本。
統(tǒng)一 AI 模型的潛在發(fā)展趨勢(shì)
隨著 AI 模型及其參數(shù)的復(fù)雜性日益提高,對(duì)系統(tǒng)內(nèi)部更有效的數(shù)據(jù)傳輸機(jī)制的需求也在增長(zhǎng)。統(tǒng)一 AI 模型是最突出的潛在發(fā)展趨勢(shì)。與為同一背景下的各種任務(wù)管理多個(gè)專門的 AI 模型不同,統(tǒng)一模型可用于處理多種視覺任務(wù)。這種方法在嵌入式邊緣中提供了更有效地資源利用的可能性,尤其是在分布式 AI 架構(gòu)中更為明顯。預(yù)計(jì)在這個(gè)領(lǐng)域會(huì)進(jìn)行進(jìn)一步的研究,以提高統(tǒng)一模型的準(zhǔn)確性。
Yingyu Xia 特別提到
當(dāng)前一個(gè)值得關(guān)注的趨勢(shì),即業(yè)界出現(xiàn)了能夠在有限標(biāo)記數(shù)據(jù)下進(jìn)行有效泛化的模型。這一策略在數(shù)據(jù)采集不便和需要頻繁數(shù)據(jù)訓(xùn)練的場(chǎng)景中具有極大的價(jià)值。由于僅需要最少量的數(shù)據(jù)進(jìn)行重新訓(xùn)練,這一趨勢(shì)降低了所需的技術(shù)專長(zhǎng),并節(jié)省了 AI 訓(xùn)練時(shí)間。
此外,大型語言模型( LLM )的普及使得與 AI 的交互更類似于與人類對(duì)話。只需提出一個(gè)問題,AI 就能夠理解背景語義并像咨詢專家一樣作出回應(yīng)。目前一種趨勢(shì)是在嵌入式邊緣部署的 AI 模型中提升對(duì)視覺場(chǎng)景的理解。這一發(fā)展有助于作業(yè)人員更清晰地理解視覺場(chǎng)景,在一次視頻搜索的調(diào)查過程中,它能夠以自然的人類語言提供洞察和建議。除了評(píng)估 AI 引擎的能力外,Yingyu Xia 認(rèn)為嵌入式 AI 系統(tǒng)還在高速和大量數(shù)據(jù)涌入的實(shí)時(shí)環(huán)境中運(yùn)行。確保實(shí)時(shí)操作需要硬件平臺(tái)具備高效的數(shù)據(jù)同步和前后處理流水線,以有效地管理數(shù)據(jù)流。在選擇嵌入式平臺(tái)時(shí),不僅要考慮 AI 引擎的效率,還要考慮它與其他關(guān)鍵部分的兼容性。AI 引擎只是嵌入式系統(tǒng)的一個(gè)組成部分,為了實(shí)現(xiàn)最佳功能,必須通過其它重要因素進(jìn)行補(bǔ)充,理想的平臺(tái)應(yīng)該是根據(jù)嵌入式用例需求可以滿足下列大部分要求的平臺(tái)。
AMD Embedded+
面向邊緣 AI 應(yīng)用市場(chǎng),AMD 最近發(fā)布了加速嵌入式邊緣 AI 開發(fā)的 Embedded+ 架構(gòu),該架構(gòu)將 AMD Ryzen(銳龍)嵌入式處理器與 AMD Versal AI Edge 自適應(yīng) SoC 集成在一塊板卡上。KV Thanjavur Bhaaskar 強(qiáng)調(diào),自適應(yīng)計(jì)算在確定性、低時(shí)延處理方面表現(xiàn)出色,而 AI 引擎則能夠提升高每瓦性能推理。在這種異構(gòu)處理器架構(gòu)中,Ryzen 嵌入式處理器提供了 Zen+ x86 核心,并且具備廣泛的軟件生態(tài)系統(tǒng)支持,Radeon 顯卡用于渲染和顯示功能。Versal AI Edge 自適應(yīng) SoC 提供了基于 Arm Cortex-A72 內(nèi)核處理器的子系統(tǒng)用于應(yīng)用處理,R5-F 用于實(shí)時(shí)處理,F(xiàn)PGA 用于低時(shí)延和確定性,AI 引擎用于 AI 推理,最重要的是可編程 I/O,支持用戶將各種傳感器直接連接到平臺(tái)。在自動(dòng)化系統(tǒng)中,傳感器數(shù)據(jù)的價(jià)值會(huì)隨時(shí)間推移而遞減,而這些數(shù)據(jù)必須根據(jù)盡可能最新的信息運(yùn)行,才能實(shí)現(xiàn)最低時(shí)延和確定性響應(yīng)。在工業(yè)和醫(yī)療應(yīng)用中許多決策需要在幾毫秒內(nèi)做出,這就是嵌入式邊緣 AI 最適合的方向。Embedded+ 能最大限度發(fā)揮合作伙伴和客戶數(shù)據(jù)價(jià)值,其高能效和高性能算力使合作伙伴與客戶能夠?qū)W⒂跐M足客戶和市場(chǎng)需求。
AMD Embedded+ 架構(gòu)將傳統(tǒng)的嵌入式 PC 轉(zhuǎn)變?yōu)閮?yōu)化的工業(yè)和醫(yī)療 PC。低時(shí)延處理和高每瓦性能推理的結(jié)合可為關(guān)鍵任務(wù)實(shí)現(xiàn)高性能,包括將自適應(yīng)計(jì)算與靈活的 I/O、用于 AI 推理的 AI 引擎以及 AMD Radeon 顯卡實(shí)時(shí)集成到單個(gè)解決方案中,發(fā)揮每項(xiàng)技術(shù)的最大優(yōu)勢(shì)。Embedded+ 架構(gòu)作為一種可擴(kuò)展的方法,可以通過 AMD 的任何器件組合進(jìn)行更新,就在近期,AMD 推出了具有專用AI引擎的銳龍 8000G 系列 CPU 和第二代 Versal AI Edge 系列,這些產(chǎn)品可以用于新一代基于 Embedded+ 的主板,以應(yīng)對(duì)邊緣智能不斷變化的需求。
KV Thanjavur Bhaaskar 特別提到
AMD 在邊緣和云計(jì)算領(lǐng)域擁有廣泛的產(chǎn)品組合。AMD 不僅將 AI 功能添加到最新發(fā)布的相關(guān)器件中,同時(shí)還將提高已有器件的 AI 能力,考慮到功率效率與成本方面因素,預(yù)計(jì)這種趨勢(shì)將持續(xù)下去。
AMD 嵌入式行業(yè)解決方案可為工業(yè)和商業(yè)應(yīng)用打造高性能、高性價(jià)比的系統(tǒng)。
憑借一系列靈活、可擴(kuò)展的處理器,AMD 為客戶帶來更出色的計(jì)算性能、先進(jìn)安全性和各種連接選項(xiàng)。
AMD 嵌入式行業(yè)解決方案可滿足游戲、醫(yī)療、運(yùn)輸、自動(dòng)化等工業(yè)和商業(yè)應(yīng)用的苛刻需求。
嵌入式環(huán)境中實(shí)現(xiàn) AI 的分布式架構(gòu)
在針對(duì)嵌入式環(huán)境中實(shí)現(xiàn) AI 的分布式架構(gòu)中,Yingyu Xia總結(jié)的關(guān)鍵是考慮嵌入式邊緣設(shè)備的限制性資源、功耗、實(shí)時(shí)要求和安全性等因素??紤]到每個(gè) AI 參數(shù)需要 4 字節(jié)( 32 位)的數(shù)據(jù),部署原始大小的 32 位浮點(diǎn)模型大多是不可行的。例如,如果有 1.7 萬億個(gè)參數(shù),嵌入式設(shè)備上的存儲(chǔ)需求將達(dá)到 1.7 * 10^12 * 4 = 6.8 TB。因此,采用 BFLOAT16、FLOAT16、INT8 等新穎的數(shù)據(jù)格式以最小化所需的內(nèi)存占用是至關(guān)重要的。通常,量化器可以幫助將來自浮點(diǎn) 32 模型的數(shù)據(jù)精度降低到量化模型。此外,可以利用 AI 分析工具來識(shí)別導(dǎo)致最重要瓶頸的層,這有助于嵌入式 AI 工程師在邊緣優(yōu)化其模型。而且,關(guān)鍵在于需要開發(fā)特定領(lǐng)域的模型以簡(jiǎn)化模型復(fù)雜性,從而減少模型層數(shù),使其更容易部署到嵌入式 AI 模型中。
作為一家可以同時(shí)提供 x86、GPU、FPGA 和自適應(yīng) SoC 技術(shù)的行業(yè)領(lǐng)導(dǎo)者,AMD 的嵌入式邊緣 AI 技術(shù)聚焦在汽車、工業(yè)、智能家居和智慧城市以及網(wǎng)絡(luò)與存儲(chǔ)等應(yīng)用,幫助客戶快速構(gòu)建面向物聯(lián)網(wǎng)網(wǎng)關(guān)、邊緣基礎(chǔ)設(shè)施、迷你電腦、瘦客戶端等智能邊緣應(yīng)用的經(jīng)濟(jì)高效的產(chǎn)品和解決方案。
-
amd
+關(guān)注
關(guān)注
25文章
5449瀏覽量
133959 -
嵌入式
+關(guān)注
關(guān)注
5071文章
19026瀏覽量
303501 -
AI
+關(guān)注
關(guān)注
87文章
30239瀏覽量
268474 -
人工智能
+關(guān)注
關(guān)注
1791文章
46896瀏覽量
237663
原文標(biāo)題:AMD:嵌入式邊緣 AI 需要體現(xiàn)價(jià)值并便于部署
文章出處:【微信號(hào):賽靈思,微信公眾號(hào):Xilinx賽靈思官微】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論