語音助手和集成已在投放市場的大多數產品,設備和技術中實現。話雖這么說,這些有用的語音助手始終會監聽激活/喚醒單詞(例如“ okay Google”或“ Alexa”),這通常會消耗大量電量,這已不是什么秘密。在當今技術日新月異的世界中,必須考慮其對能源消耗的影響。
本文提供了使用語音活動檢測(VAD)的低功耗,始終在線語音命令系統的設計注意事項。在選擇創建易于使用,節能的語音用戶界面(VUI)所需的組件時,它探討了取舍和注意事項。
VAD功能可在聆聽喚醒詞之前檢測環境中的人聲,這意味著當沒人在家時,您的語音助手將不會浪費不必要的能量。據估計,全球使用的數字語音助手有42億,到2024年,這個數字有望翻一番。將該技術應用于語音助手軟件和其他依賴語音集成的產品,將大大降低其能耗。使用語音助手的人。
有幾種用于實現VUI系統的硬件體系結構。通常,典型的語音用戶界面實現由麥克風組成,麥克風可以是單個麥克風,也可以是與音頻處理器相連的麥克風陣列,用于捕獲和處理語音。
可以在邊緣音頻邊緣處理器,具有內置音頻邊緣處理器的智能麥克風或標準應用處理器(AP)上處理輸入的音頻流。邊緣音頻處理器針對音頻信號的低功耗和低延遲處理進行了優化。除了提供對輸入音頻的專門處理之外,邊緣音頻處理器還可以用于后處理音頻輸出信號。如果VUI系統是云連接的,則音頻邊緣處理器還可以通過具有無線連接性的主單芯片系統(SoC)與云VUI接口進行通信。本文介紹了VUI系統的兩種不同實現,以及它們各自的權衡。
超低功耗VAD(語音活動檢測)
圖1所示的體系結構使用模擬信號路徑支持超低功耗VUI,該路徑包括模擬麥克風和模擬比較器以提供喚醒觸發。當檢測到聲音活動時,模擬信號鏈會產生一個中斷,以喚醒音頻處理器以進行語音捕獲。該設備還可以包括“一鍵通”功能,從而用戶按下按鈕即可喚醒音頻處理器。
圖1.超低功耗,始終在線的VUI硬件信號鏈,無需進行前滾動緩沖即可進行遠程控制。
模擬喚醒麥克風必須始終在聆聽環境,因此該麥克風以及比較器必須消耗很少的功率。Knowles IA8201是高效音頻處理器的一個示例,在最簡單的喚醒觸發模式下其功耗小于1mW,并且具有1MB的存儲器用于高級音頻處理。盡管圖1中所示的方法為設備(例如,遙控器和可穿戴設備)中始終在線的VUI提供了一種簡單的低功耗AAD(聲學活動檢測)方法,但它具有局限性。這種實現方式會喚醒音頻處理器的任何聲音信號,并且在嘈雜的情況下會導致總體系統功耗過高。還,與云連接的語音用戶界面系統要求在捕獲喚醒字之前的一段時間內獲取音頻數據,以提高喚醒字檢測的準確性。這通常稱為預滾動,是支持Alexa的設備和其他智能揚聲器設備的必備條件。
圖2.支持諸如智能揚聲器之類的設備的前置滾動緩沖的架構。
圖2顯示了一種支持針對智能揚聲器等設備的前置滾動緩沖的體系結構。這些設備通常具有更大的電池,并且/或者一次充電可能不需要多個月的電池壽命。VUI系統始終處于打開狀態,可以收聽環境并在循環緩沖區中記錄預滾動。預卷的長度通常約為500毫秒的音頻數據,用于校準環境噪聲水平。
有幾種不同的方法可以設計永遠在線的前端體系結構。音頻處理器的選擇取決于所用麥克風的數量,以及它們是模擬還是數字。
上面顯示的體系結構使用Knowles IA611進行語音活動檢測,使用SPH0655LM4H-1 Cornell II數字麥克風進行波束成形,并使用Knowles IA8201進行音頻處理。Knowles IA611是一款智能麥克風,可為系統設計人員帶來好處,如以下部分所述。
麥克風選擇
對于圖1所示的體系結構,當檢測到聲音活動時,將單個模擬麥克風和比較器用作觸發輸入,以喚醒音頻處理器。喚醒麥克風應為低功率模擬麥克風,其信噪比(SNR)最好高于62 dB。Knowles SiSonic MEMS麥克風產品組合為喚醒麥克風提供了多種選擇。例如,SPV1840LR5H-B Kaskade模擬麥克風是一個不錯的選擇,當打開時僅消耗45μA。包括麥克風,放大器和比較器在內的始終在線的模擬路徑消耗的電流小于67μA。市場上有一些壓電麥克風,它們的始終接通功率很低(10μA),但是它們通常具有低SNR,這會影響系統性能。
對于圖2所示的具有預卷緩沖功能的體系結構,具有嵌入式音頻處理器和足夠內存以在2秒的循環緩沖區中連續捕獲語音數據的麥克風(例如Knowles IA611)是始終在線語音活動的可行選擇。檢測。它還帶有移植語音觸發器和命令的生態系統,例如亞馬遜的Alexa。當檢測到關鍵字時,預滾動緩沖區和發出的語音音頻都會發送到云自動語音識別(ASR)引擎。IA611的始終開啟的語音喚醒功率為0.39 mA(電池1.8V,效率為90%),使其成為電池供電設備(如藍牙揚聲器)中語音用戶界面的理想選擇。該設備還接受來自數字麥克風的PDM輸入,
雖然這種始終接通的功率對于預卷式應用是可以接受的,但對于圖1所示的非預卷式架構,也值得考慮。如前所述,模擬喚醒麥克風將觸發任何傳入聲音并打開揚聲器。音頻處理器。在嘈雜的環境中(例如在電視開機時),這可能會成問題,因為那里會有許多虛假的喚醒,導致功率的大量浪費。如果使用語音活動檢測而不是低功率模擬喚醒麥克風,則系統僅在檢測到關鍵字時才打開。從邏輯上看,為什么在嘈雜的環境中使用語音活動檢測麥克風可能比簡單的模擬喚醒麥克風更有效。
圖3顯示了模擬數據,該數據比較了使用IA611上的VAD的典型電視遙控器與競爭性的壓電低功率AAD麥克風和音頻處理器在不同聲活動開啟時間下的電池壽命天數。當電視或其他家用電器打開時,或在其他情況下,如鼓鼓聲等時,可能會出現聲音活動。如圖3所示,在大約3小時處有一個交叉點,因此使用模擬AAD的功率優勢競爭對手的麥克風上的IA611上的語音活動檢測消失了。
在聲音活動開啟時間為五個小時的情況下,語音活動檢測解決方案比基于競爭的基于AAD的解決方案多了八天的電池壽命。為了充分發揮這一優勢,根據尼爾森(Nielsen)在2017年發布的一項研究,美國成年人每天看電視的時間將近八小時。隨著對聯網設備(例如智能電視,游戲機和其他多媒體設備)的需求不斷增加,在典型的美國家庭中,聲音活動的小時數也可能會繼續增加。使用基于智能VAD的喚醒將幫助系統設計人員開發更節能的VUI系統。
圖3. VAD與AAD的遠程控制電池壽命。
結論
從智能家居,酒店,數字工作場所,語音支付,智能能源管理,邊緣語音和醫療保健,一直到改變廠房的工業物聯網應用,語音都為新技術增加了靈活性,效率,可持續性和采用接受性。
用于語音用戶界面設計的各種硬件體系結構以及麥克風部分,根據最終設備的應用程序和設計人員的喜好,各自滿足的需求略有不同。例如,支持Alexa的設備和智能揚聲器需要具有預卷緩沖功能的體系結構。
電子工程師和設計師必須仔細評估終端設備將如何利用語音,他們希望訪問的功能,并據此確定正確的架構和麥克風組件,這一點很重要。
Raj Senguttuvan 在面向消費者和工業應用的新技術開發,早期業務開發以及為Analog Devices和Texas Instruments等公司提供的項目管理方面擁有超過15年的經驗。在擔任Knowles戰略營銷總監期間,他指導系統級開發,推動風險投資和合作伙伴關系以及IoT和消費者技術(包括音頻處理器,算法,麥克風,傳感器和接收器)的營銷策略。Raj擁有康奈爾大學(Cornell University)的MBA學位和佐治亞理工學院(Georgia Institute of Technology)的電氣工程博士學位。
編輯“hfy”
-
麥克風
+關注
關注
15文章
633瀏覽量
54772 -
模擬信號
+關注
關注
8文章
1120瀏覽量
52407 -
智能家居
+關注
關注
1926文章
9523瀏覽量
184371 -
語音系統
+關注
關注
1文章
27瀏覽量
12996 -
智能揚聲器
+關注
關注
0文章
32瀏覽量
6283
發布評論請先 登錄
相關推薦
評論