語音在與智能手機、平板電腦和個人輔助系統交互的廣泛使用,使語音成為其他技術的首選HMI(人機界面)。例如,在當今的智能家居中,用戶可以要求Alexa打開或關閉燈,鎖門和調節恒溫器。隨著這項技術變得越來越普遍,人們越來越需要使用高度準確、緊湊和高能效的基于神經網絡的關鍵短語檢測解決方案來增加人與機器之間的交互的技術解決方案。與需要網絡連接的云連接神經網絡 (NN) 關鍵短語檢測實現不同,基于邊緣的解決方案在邊緣執行所有計算,并且不會記錄數據或將數據傳輸到云。
本文將介紹一種專為網絡邊緣設計的基于NN的關鍵短語檢測解決方案。這些二值化型號可在低功耗超增強? FPGA 上運行。本文將討論當使用包含嘈雜背景(如音樂或聊天噪音)的數據集訓練 NN 時,如何在嘈雜環境中使用關鍵短語檢測。在這種情況下,神經網絡是使用公共數據集來檢測單詞“seven”的訓練。關鍵短語檢測可用于各種應用,無需個人助理設備。可能的應用包括智能電燈開關、智能電視和使用調高和調低音量等命令管理設備的 AVR。
一、引言
長期以來,使用語音命令來控制人機界面(HMI)一直是系統設計人員的目標。可追溯到20世紀中葉的流行科幻電視節目和電影,如“星際迷航”和“星球大戰”,給了我們一個聲音世界可能是什么樣子的暗示。但是,事實證明,為現實生活中的消費類應用開發低成本、高能效的解決方案是難以捉摸的。
然而,在過去幾年中,亞馬遜的Alexa和蘋果的Siri等流行的AI應用程序的出現以及它們將語音命令轉換為系統操作的能力加速了向基于語音的HMI的遷移。這些快速的進步為依賴關鍵短語檢測的智能家居解決方案打開了大門。如今,用戶可以要求Alexa通過互聯網訂購產品,打開燈,鎖門,設置家庭恒溫器,甚至給草地澆水。
通常,這些支持語音的 HMI 執行識別云中關鍵短語所需的計算。在許多情況下,設計人員將他們的應用程序插入到像亞馬遜的Alexa這樣的預先存在的基礎設施中。但是,這種發展戰略面臨幾個限制。首先是成本。在云中的服務器上運行關鍵短語檢測算法的解決方案必須在每次訪問云中的資源時按分鐘付費。此外,構建基于云的邊緣解決方案的開發人員必須向 NRE 支付費用,以針對特定設備訓練其解決方案,然后為他們發布的每個解決方案支付版稅。將設計插入預先存在的基礎設施的設計人員將看到他們的成本上升,因為他們轉向Wi-Fi模型,該模型需要更強大的處理器來獲取數據,分析數據,將其發送到邊緣設備,并通過Wi-Fi收聽命令。
此外,依賴互聯網連接會帶來額外的風險。如果連接中斷,使用互聯網連接將數據傳輸到云可能會導致服務中斷。通過互聯網傳輸數據也會帶來潛在的黑客攻擊風險。從用戶的角度來看,互聯網連接為侵犯隱私和安全問題打開了大門。依賴于直接位于設備上的計算資源的邊緣解決方案可避免這些潛在問題。
二、新方法
本文探討了一種不同的方法,可為位于網絡邊緣的設備提供低成本的關鍵短語檢測。利用在開發高度準確、緊湊和低成本的二值化神經網絡(NN)模型方面取得的進展,以及新一代極低功耗現場可編程門陣列(FPGA)的改進,設計人員現在可以構建關鍵短語檢測解決方案,在邊緣執行所有計算,從而消除與云連接的NN關鍵短語檢測實現相關的連接性、安全性和隱私問題。
通過在本地執行關鍵短語檢測,與基于云的解決方案相比,此設計策略可顯著節省成本。它也不依賴于其他生態系統來運行。如果基于云的解決方案中的互聯網連接失敗,則系統將失敗。基于邊緣的本地解決方案不會冒此風險。安全和隱私問題不是威脅。本地解決方案更易于用戶設置和運行。最后,使用萊迪思的超低功耗iCE40 Ultra Plus FPGA,這種方法為設計人員提供了顯著的省電功能,這是電池供電器件中的一個重要考慮因素。例如,本演示中描述的解決方案僅消耗7 mW。
將經濟實惠的智能家居應用推向邊緣的一個關鍵步驟是開發能夠在低密度、低功耗FPGA上運行的二值化NN模型。在云中使用浮點計算的深度學習技術對于邊緣的消費者應用程序是不切實際的。相反,設計人員必須開發計算效率高的解決方案,既要滿足精度目標,又要符合消費市場的成本、尺寸和功耗限制。因此,在邊緣操作的設計人員必須使用盡可能少的位的數學。
設計人員可以簡化計算的一種方法是從浮點數切換到定點數甚至基本整數。通過補償浮點到定點整數的量化,使用二值化NN的設計人員可以開發出訓練速度更快、精度更高的解決方案,并提高定點、低精度整數NN的性能,接近浮點版本的水平。要構建簡單的邊緣設備,訓練必須創建具有 1 位權重的 NN 模型。這些模型稱為二值化神經網絡 (BNN)。
通過使用 1 位值而不是較大的數字,BNN 可以消除乘法和除法的使用。這允許使用異或和爆裂計數計算卷積,從而產生顯著的成本和高達16倍的節能。借助當今的 FPGA,設計人員擁有了一個高度靈活的平臺,可提供他們所需的所有內存、邏輯和 DSP 資源。
三、國家實施
下面的討論描述了一個關鍵短語檢測解決方案的示例,該解決方案專為邊緣應用而設計,并在具有BNN軟核的iCE40 UltraPlus FPGA中實現。在正常操作期間,關鍵短語檢測實現在功耗低于 1mW 的情況下偵聽聲音。一旦系統檢測到聲音,它就會激活 1 秒的緩沖,并調用 BNN。BNN直接在原始輸入上運行,而不是在傳統的頻譜圖和MFCC預處理上工作。代表 1 秒音頻的 16K 原始樣本經過重疊的 1D 卷積層,變成 30 張 32x32x3 圖像,每張圖像代表一個 10 毫秒的音頻樣本。然后將輸出傳遞到主 BNN 進行處理。
BNN有四層深,每層執行如下圖所示的功能:
二進制卷積是輸入數據和 1 位權重的 1 位乘法。在這種情況下,乘法被異或函數所取代。批量規范化和縮放使激活規范化,并在 BNN 訓練階段提供幫助。整流線性單元 (ReLu) 將低于特定閾值的數據設置為 0,高于相同閾值的數據設置為 1。對圖像的相鄰像素的每個像素執行池化,并選擇概率最高的有意義像素。此函數可減少后續步驟中所需的計算量。全連接層通常是最后一層,它需要前一層中的每個神經元。它對下一層的神經元也有一定的權重。此函數的計算成本通常很高,因此它是作為神經元明顯較少的最后一次操作執行的。
BNN使用GPU進行訓練,并運行標準訓練工具,如咖啡館和張量流。使用的訓練數據集是一個公共訓練集,其中包含 65,000 個一秒長的話語,其中包含 1000 多人的 30 個短詞。此階段稱為訓練階段。然后,訓練工具的輸出通過萊迪思半導體的NN編譯器工具進行格式化,以供FPGA設計使用。您可以將權重視為在邊緣硬件推理期間要使用的關鍵短語的模板。選擇的關鍵短語是“七”。
四、系統實施
為了演示系統的功能,工程師們將 HiMax HM01B0 UPduino 擴展板與 iCE40 超增強型 FPGA 配合使用。這是一款低成本的 Arduino 板塊,旨在演示 FPGA 的功能。該板有兩個直接連接到 FPGA 的 I2S 麥克風、用于 FPGA 設計的外部閃存和權重激活存儲。它還具有LED,用于指示關鍵短語的檢測。用戶可以直接對著麥克風講話。一旦檢測到關鍵短語,LED就會亮起。
五、性能
在此應用中,FPGA設計頻率和處理長度可以換取功耗。在 27MHz 頻率下,16K 原始采樣(相當于 1 秒的音頻處理)可在 25ms 內處理,而功耗為 7.7mW。當頻率降至13.5MHz時,功耗降至4.2mW,并在50ms內處理相同的1秒音頻樣本。
關鍵短語檢測通常必須在嘈雜的環境中運行,而無需添加額外的硬件來消除噪聲和回聲。該實現通過使用包含噪聲背景的數據集來訓練 NN 來實現這一目標,而無需進行定位和波束成形。經過訓練的NN像人類一樣檢測關鍵詞,具有類似的局限性。添加了具有各種隨機人群噪音水平(咖啡館,會議等)的數據集,并帶有關鍵短語。使用更高噪聲級別訓練的 NN 對噪聲的魯棒性更強,但需要更響亮的關鍵短語。
BNN 可以檢測多達 10 個 1 秒的關鍵短語,使其成為通過語音進行 HMI 的理想選擇。為了提高檢測精度,僅當發生連續檢測時,才使用時域濾波器來報告關鍵短語檢測。該設計為單個關鍵短語提供高達 99% 的準確率,為多達 5 個關鍵短語提供高達 90% 的準確率。
六、結語
將AI帶到邊緣會帶來幾個重大挑戰。但是,它也提供了巨大的機會。正如該項目所表明的那樣,使用實現BNN而不是基于云的資源的FPGA將AI構建到設備中可以顯著降低硬件成本,同時加快響應時間。同時
審核編輯:郭婷
-
智能手機
+關注
關注
66文章
18444瀏覽量
179896 -
HMI
+關注
關注
9文章
585瀏覽量
48461
發布評論請先 登錄
相關推薦
評論