無處不在的移動設備和遍在的連接已使世界“沉浸”在無線連接的汪洋大海,從不斷增長的地面和非地面蜂窩基礎設施,以及其所需的支持性光纖和無線回傳網絡,一直到通過最新開發的協議和SoC、將數十億個傳感器的數據發送到云端的大規模物聯網生態系統。
預計在2025年以前,全球數據量(datasphere)每年將達到175ZB。而到2030年以前,相關連接設備的數量預計將達到500億部(臺)。但是,傳統的分布式感測加云端集中處理數據的方案在安全性、功耗管理和延遲(端到端)方面都存在嚴重制限。5G標準中的超可靠低延遲通信,要求端對端(E2E)延遲不得高于數十毫秒。這就導致了將數據處理推到邊緣端、避免將計算(和存儲)資源進行匯聚,以減少在上下行鏈路的傳輸中產生的巨大開銷。這么做,也同時提升了網絡的敏捷性和可擴展性。
機器學習(ML)和人工智能深度神經網絡(DNN)的發展,為推動邊緣端的這一洞察視角帶來了希望。但這些方案具有巨大的計算負荷,是傳統軟件和嵌入式處理器方法無法滿足的。此外,隨著工藝制程的推進,高昂的超專業化專用IC(ASIC)的開發和生產成本,是邊緣設備無法承受的。而且, ASIC不具可重構性(reconfigurability),因而嚴重限制了任何潛在的系統升級可能。對于新一代邊緣應用所需要的邏輯容量來說,傳統的FPGA方案通常都過于昂貴和耗電。
邊緣計算的細分市場要求設備具有極低的功耗、緊湊的外形尺寸、面對數據變化的敏捷響應、以及借助遠程升級能力緊隨AI的演進——所有這些都要以合理的價格實現。實際上,這是FPGA的天然優勢,在靈活、硬件可定制的平臺上加速計算密集型任務方面,FPGA是天生王者。但是,許多現成的FPGA都是面向數據中心應用的,而在數據中心整體功耗與成本核算里,是完全可以承受FPGA的那點“奢華”的。幸運的是,有一款解決方案:借助易靈思的 鈦金系列FPGA系列,其先進的Quantum計算架構可直面近端數據(near-data)計算的需求,可靈活配置多達一百萬個邏輯單元(LE),并且無論應用如何,都可輕松布線,實現超高的資源利用率。
邊緣數據處理的剛需
就連接性而言,過去十年或多或少地致力于以下三件事:將世界用無線連接起來;提高無線連接的強度和完整性;并確保一切可連(從人到物) 的、都以某種方式連接起來。本質上講,這是通過——下一代5G部署(強化基礎蜂窩基礎架構并開發更新的技術以優化數據吞吐量、容量、覆蓋范圍和延遲要求)以及物聯網革命(其中物理目標配備了感知功能和/或標簽)——實現的。這些技術發展已經產生了深遠的社會影響,無線連接已成為日常生活中不可或缺的一部分。從家用電器到復雜的工業機械,使用傳感器和執行器進行遠程監視、跟蹤甚至控制相關對象的能力幾乎已成為了基本必須的能力。但是,設備密度的巨大提升也導致了某些非常明顯的瓶頸。
以云為中心的物聯網從公共/私有云的物聯網節點中提取、累積和處理大量傳感器數據,從而導致顯著的延遲。回傳訪問的各種拓撲結構——從邊緣設備到網關,再通過光纖或無線連接回到云——引入了三個主要瓶頸,它們是:
延遲
功耗預算
成本效益
傳統物聯網通常由嚴格控制功耗的終端設備定義,這些終端設備通過星型或網狀拓撲以低到中等的吞吐量向互聯網連接的網關發送少量有效載荷。這些多級架構無法滿足從公共安全、醫療到工業自動化等許多時間敏感型的關鍵應用的低延遲要求。那些為低延遲、中等吞吐量、與時間同步的連接所定義的協議,例如WirelessHART、ISA 100.11a、IEEE802.11ac和LTE-M,其直接訪問網關的往返延遲,可嚴苛到只允許有10毫秒;但是,典型的延遲卻要幾百毫秒。1這只是在IoT領域內——如果我們將重點轉移到移動蜂窩網絡,基于5G的高壓配電網絡中允許的最小E2E延遲則為5毫秒 ;對于離散自動化應用,會長一些、為10毫秒。2但是,碩果累累的先進制造技術利用了基于以太網的硬連線(如,EtherNet/IP、Profinet IO、Ethercat等)或基于現場總線(如,Profibus、Foundation Fieldbus,CAN等)的技術,這些時間敏感的組網技術必須要可靠地實現亞毫秒級的循環時間、亞微秒級的延遲以及極低的抖動(工廠運行要求)。3這些應用從感知到執行的閉環時間要求小于1 微秒,最大傳輸誤碼率率(transaction error rate)小于10–9,這是傳統無線網絡難以匹敵的指標。
無線連接需要異步或同步通信。為進行可靠的數據傳輸,傳輸必須有嚴格的時序安排。但這會消費不菲的功耗——理想的休眠或低功耗模式可延長電池續航時間,但設備無法在這樣的模式下運行。此外,以智能地部署傳感器節點,再通過網關和/或多級傳輸將數據帶到云端,不僅會降低安全性、而且會增加硬件成本。可靠的數據傳輸是5G后(6G及更高)的移動通信時代的主要目標,而數據服務提供商大量收集用戶信息的行為經常導致數據泄漏事件。4通過以去中心化的方式執行計算密集型任務,就可以實現數據的完全匿名化和不可追溯性。
邊緣設備智能化的基本要求
將計算基礎架構從數據中心擴展到邊緣這一主張,得到了越來越廣泛的共識。諸如聯邦學習之類的概念,通過共享的預測模型進行協作學習這種方式,將標準集中式機器學習(ML)方法從數據中心轉移到手機——在將數據存儲到云的需求中,消解了對可實現ML能力的要求。5而各種高級深度神經網絡(DNN),每天都在發展、以更好地賦能基于邊緣的處理功能。成功地將智能帶到邊緣設備也帶來了與傳統的AI不同的商機——例如:個性化購物,基于AI的助手;或在制造設施中進行預測分析。邊緣/霧計算的應用,比如:車輛的自動駕駛;需要復雜反饋機制的機器人技術的遠程控制;甚至是使用ML、可更好地管理可再生能源的智能電網終端設備;以及在電網中對本地電能使用進行預測分析。對于此類應用,成功實施AI的主要決定因素包括:
成本效益
低功耗
可重構性/靈活性
尺寸
IoT /邊緣節點上流行AI芯片方案的比較
AI芯片方案市場一直在持續增長, 2020年的市場規模為76億美元,到2026年有望增長至578億美元。在各超專業方案之間,有著不同的6先進AI硬件,例如:
高度定制的ASIC和SoC
可編程FPGA方案
通用GPU和CPU通常遵循馮·諾依曼(von Neumann)架構,其中指令提取不能與數據操作同時發生,這樣,指令只能被順序執行。在矢量CPU和多核GPU等多處理器方案中,在某種程度上繞過了這種順序性,但卻需要更多的跨核數據共享而增加了延遲。這種由軟件管理的并行機制必須在各處理單元之間最佳地分配工作量,否則可能會導致計算負載和通信不平衡——這種特性很難支撐自定義數據類型和特定的硬件優化。就延遲、功耗、并行處理和靈活/可重構性的效率而言,FPGA本質上優于GPU。首先, CPU和GPU必須以特定方式(如,SIMD、SIMT執行模型)處理數據,但FPGA和ASIC本質上直接在硬件中實現軟件算法,邏輯單元可以簡單地完成軟件指令。此外,就完成相同質量的工作而言, FPGA功耗更低、可重構性更好——與硬件已固化的ASIC、SoC、GPU和CPU相比,人們可以在硬件層級來更改數據流的性質。
就流行的AI芯片方案而言,ASIC領先,FPGA隨后。但是,就邊緣智能計算的主要關注點而言,ASIC相形見絀。對于成本而言尤其如此:IoT的部署數量,可能在數十個到數十萬個節點之間。眾所周知,打造一款ASIC殊非易事,需要數年時間,而僅生產制造一項就需要數千萬美元的巨額資本支出——通常,只有數百萬至數十億片的批量,此符合開發ASIC的成本效益。此外,人工智能的發展日新月異。僅在幾個月內,數百種現有拓撲及其各自的神經網絡就會有顯著的改良。隨著時間的流逝,會出現具有不同功能和層級的新模型,任何公司都會希望擁抱這些變化。這就吁求一種可快速原型化和部署的低成本、靈活、可重構的平臺。
為什么傳統的FPGA無法將智能傳送到邊緣
在傳統以ASIC和GPU為主的AI芯片方案市場中,FPGA的競爭力與日俱增,這些平臺主要用于ASIC的原型設計和開發,或用于公共和私有云中的網頁搜索、圖像分類和翻譯等應用。要滿足復雜AI運算的性能,通常需要價格昂貴、耗電且塊頭大的器件。FPGA的主要初衷是可編程性,其中硬件結構由可編程邏輯單元(LE)和配有交換開關模塊的可編程路由電路組成。憑借這種結構,用戶可通過可編程開關將任何LE連接到任一路由軌線上。如要擴大器件的容量,基本是通過增加LE的數量并確保路由交換電路與算法有能力支撐這些增長。這一艱苦卓絕且昂貴的過程一邊需要工程師團隊來優化FPGA的路由,一邊讓IC設計師盡量減小尺寸、才得以逐步提升器件容量;于此同時,FPGA被定位為只適合邊緣之外的昂貴、耗電的應用。
約10年前易靈思的聯合創始人張少逸先生和魏啟杰先生就預測到這種情況,并以打造一種可以發揮FPGA的真正潛力來滿足新興邊緣市場需求的FPGA技術——這一愿景創建了易靈思。如今,易靈思鈦金系列器件在市場上獨樹一幟,在滿足邊緣AI的計算需求的同時,提供超小的功耗與尺寸,使其自然適用于哪怕是最苛刻的邊緣應用。這在很大程度上要歸功于其創新的Quantum計算架構,該架構由可重構的小塊(tile)或可交換的邏輯和路由(XLR)單元組成,它消解了傳統的路由方法,并允許LE變得更小、使用更靈活。集成了存儲模塊和高速DSP模塊(乘法器模塊)的器件的邏輯容量范圍為3.6萬至1百萬個LE。與傳統FPGA相比,無論最終應用為何,Quantum架構上的這種根本優勢可以顯著提高資源利用率。易靈思的FPGA技術迥異于傳統的FPGA,它以小巧的器件封裝實現了高密度、低功耗,同時又保持了FPGA隨附的所有靈活性。總之,這些功能使該方案成為真正的顛覆者,在邊緣/霧計算方面處于絕對領先地位。
Quantum內核架構與傳統的FPGA架構[圖片取自白皮書]
仔細觀察:鈦金系列 FPGA如何滿足邊緣計算的基本要求
成本效益、尺寸和功耗優勢
16nm工藝使這款纖巧器件具有小至0.5mm間距、5.5×5.5mm BGA封裝的器件尺寸可容易地集成進邊緣節點。除尺寸方面的考慮外,與傳統FPGA建構的分道揚鑣,也降低了鈦金系列FPGA的價格。反過來,與集中式基于云的處理相比,可享受邊緣計算帶來的額外成本降低的好處,且同時降低了使用FPGA做設計的門檻。
物聯網節點也將不可避免地需要低能耗,并經常利用能量收集技術來最大程度地減少節點維護。因要盡可能多地完成數據處理,所以通常不會在邊緣計算中看到在低功耗無線調制方案中經常用到的理想的休眠模式。但是,設計者可通過使用并行處理來降低內部時鐘頻率,以降低動態功耗,從而實現更具能效的電源方案。這與僅使用空間并行性的順序處理器所遇到的瓶頸不同,在順序處理器中,投入更多處理器內核的典型解決方案只會耗能——內存中數據的批處理無法為來自I/O通道的動態傳入數據流提供一致的處理性能。FPGA同時提供空間和時間并行性,因此不僅采用數據并行,而且還實施任務和流水線并行。7這就使有效數據流有更多變化,從而減少了存儲芯片對功耗的影響(例如,使用LE實現的空間和時間映射,通過重用FPGA內存的數據來減少片外存儲芯片的訪問)。
架構優勢:靈活和可重構性
邊緣應用的最終挑戰是為特定應用找到合適的算法,并將其有效地映射到硬件。通常,網絡(例如DNN、CNN等)很復雜,并且計算量、內存需求和耗電都非常高,因此它們需要訪問具有優化內存的專用硬件加速器,才能在一致的數據流上執行算法 、且同時保持較小的功耗。通過將工作負荷映射到鈦金系列 FPGA,用戶可以利用其天生的小尺寸、低成本和高資源利用率的優勢將智能傳送到邊緣。對于初涉該領域的新公司或想更新的老機構來說,這并不是一個復雜的過程。工程師們可以在鈦金器件里使用RISC-V嵌入式處理器運行其算法的內核,并在Edge Vision SoC框架中進行快速創新。
Edge Vision SoC設計流程
鈦金系列中的RISC-V是“軟”核,在需要時才在FPGA里例化,而不是被硬化到硅片中。這使它們保有靈活性,以便可以在應用開發期間根據需要對其進行定制。在編譯過程中,Efinity軟件動態決定是將XLR單元用作路由還是邏輯,并且針對每個設計的特性專門優化相關資源的使用。這樣,工程師可為軟件定義的硬件加速,放入任意所需數量的內核。
這是易靈思 Quantum加速器背后的基本概念:一些預先定義好了數據輸入和輸出的“插件(sockets)”,既可以被直接例化使用,也可以通過軟件編程以標準的方式被調用。然后,軟件工程師可以輕松地將代碼中的熱點作為他們想要加速的區域。更具體地說,在每個插件內,設計人員可以創建一小部分硬件以加速;例如,AI算法的卷積就可被放置在加速器框架中。算法的各個部分都可以在需要時移回RISC-V軟件,或者在要求高性能時移入硬件加速器的“插件”。這種流暢的硬件/軟件系統分區方法既快速又便宜。最終結果就是,對標準硬件加速器的標準調用:工程師可以通過調用那些優化了系統性能的小硬件加速器,來輕松編寫和調試軟件算法。這種方法既將設計概念保留在軟件中,又可在其中對算法進行快速調試、調整和迭代。
鈦金系列FPGA的Quantum架構還具有通過將可用作邏輯的隨變單元(XLR)分配給路由來緩解擁堵的天然能力。所有這些因素與鈦金系列 FPGA的成本效益相結合,可以使工程師快速地在最大的器件中進行原型的設計和調試,并在開發結束、量產時,切換到仍滿足基本要求的最小器件,從而優化性能、功耗、尺寸和成本。
在邊緣計算的早期階段,與其它設備互連的能力是設計重用的重要系統級屬性。使用鈦金系列,用戶可以利用FPGA固有的功能,通過豐富的I/O(146至268)連接到幾乎任何設備。這些I/O引腳可配置為多種標準,來提升橋接的能力——這種靈活性是其它處理引擎或定制、專用標準部件很難實現的。
鈦金系列 FPGA滿足將智能迅速帶到邊緣的所有要求。
利用鈦金系列在邊緣服務嵌入式AI應用
從邊緣處理中受益最大的物聯網應用通常與需要可靠、低延遲通信的應用重疊。在保持相對低功耗的同時將復雜處理帶到邊緣的用例很多,隨著時間的推移及該技術的成熟,將會涌現更多的應用。
機器人技術
在遠程手術醫療應用中,外科醫生/控制器和醫療設備之間的時間延遲必須極短。對于此應用,絕對需要同時具有云計算和邊緣計算的共享網絡架構,以便將機器人的機器學習算法應用于所有驅動工具或外科手術機器人,以提高人工操縱的末端執行器的靈巧性,以實現精確的觸覺反饋。這屬于機器人聯網的范疇,其中對機器人進行編程的方法包括模仿學習或強化學習。盡管該復雜領域的許多部分將在云端執行,但由于外科醫生遙遠的地理位置,因此可將預先獲取的電子病歷和相關手術歷史記錄(例如以前記錄的機器人動作)存儲在本地。這樣,當對要執行的任務信心不足時,基于邊緣的AI引擎可以允許機器人查詢其本地模型。模式識別算法還可以在本地處理3D視頻和圖像,并照亮相關特征(例如異常),還可以使用相關解剖數據對圖像進行注釋,同時最大程度地減少此類操作所消耗的數據帶寬。
而工業應用中的機器人通常執行重復性任務,這些任務沒多大差異和變化,動作基本千篇一律。但是,可以對這些機器人進行快速培訓,使其成功執行任務并在出現細小偏差時更改動作,以幫助防范產線停機。此外,人機交互可以在不危及人類生命的情況下發生。結合了機器視覺和機器人技術的協作式機器人(例如用于工廠車間監控/維護的自動行走機器人和自動導引車),要求在實時的3D地圖構建與機器人運動之間幾乎沒有延遲。這就要使用深度學習算法(如同步定位和地圖構建SLAM),來防止在動態環境中發生磕碰。這兩種應用都既需要高計算能力、又要求低功耗。
鈦金系列FPGA系列具有滿足這些應用以及更多應用的獨特優勢,用戶可以一如既往正常地在處理器上開發代碼,并通過靈活的XLR硬件加速來穩定地消除時序瓶頸,直到實現所需的貼近實時的系統性能為止。無論最終應用如何,基于鈦金系列 FPGA的此類迭代改進可以優化性能、延遲和功耗等參數;而對于ASIC、GPU和CPU方案來說,這幾乎是不可能的。
可穿戴設備
醫療可穿戴設備可以傳輸本地收集的患者數據的關鍵信息,該場景下,無需頻繁傳輸。使用該技術,只能在現場進行快速有效的診斷。毋庸置疑,可穿戴設備將尺寸和功率限制發揮到極致。但在這里,鈦金系列 Ti60在3.5×3.4mm WLCSP封裝中以小巧的形態提供了高性能計算能力的獨特組合:6.2萬多LE;160個DSP模塊;146個I/O。這款鈦金系列 FPGA具有極低的工作和待機功耗,非常適合可穿戴應用嚴苛的尺寸和功耗要求。
機器視覺
用于過程自動化的機器視覺通常依賴于ML,而配備MIPI CSI-2傳感器和強大存儲器帶寬的智能相機可用于執行基于視覺、像素或特征的檢查。可通過合適的ML算法(例如決策樹、樸素貝葉斯(Na?ve Bayes))訓練分類器進行故障檢測和分類,以確定缺陷(例如劃痕)和粗糙度。通過運行基于經過訓練的神經網絡的推理引擎,FPGA可提供圖像和音頻處理。在此,鈦金系列FPGA中的大量內存允許將大部分活動保留在芯片內,從而減少了耗時耗電的片外存儲新品的訪問。這些非常相同的特性可以應用于需要AI的視覺應用,例如提高視頻會議的質量、對視頻門鈴的快速人體檢測/面部識別,甚至自動駕駛應用中的行人/障礙物識別。
虛擬現實
從郵件/包裹遞送到上述遠程手術和工業機器人用例,可以在大量潛在應用中看到自動和遠程控制的無人機和機器人。這些應用需要快速響應以識別并規避各種障礙。這些應用的其它重要考慮因素是知識共享、沉浸式培訓以及通過AR/VR設備進行的遠程控制/輔助。通常,AR/VR設備需要極低的功耗、大量的視頻聚合以及計算能力。大多數鈦金系列FPGA中的2.5Gb MIPI硬核IP有助于降低功耗,而嵌入式內存和DSP模塊則可以為AR/VR系統累計并處理大量數據。
可最終服務于主流應用的FPGA
鈦金系列FPGA系列在FPGA固有的靈活性、處理能力和性能優勢的基礎上,終于為各公司在功耗、尺寸和成本極為受限的邊緣端,開辟了一條新道路。邊緣給硬件加速帶來了終極挑戰,其中計算密集型算法必須在極低功耗的約束下實現最佳性能,同時還要滿足面對不斷變化的數據集和不斷發展的AI能力以延長設備使用壽命的敏捷性需求。易靈思并沒有盲目跟風其它FPGA公司進軍數據中心的步伐;雖然在數據中心整體功耗與成本核算里,是完全可以承受“奢華”的FPGA的。而易靈思卻通過鈦金系列滿足了所有邊緣計算的要求。
? ? ? ?本文綜合整理自電子工程專輯 易靈思
? ? ? ?責任編輯:pj
評論
查看更多