快商通公檢法事業線總經理李稀敏博士就“人機語音交互是否必須要先喚醒和離線語音技術在本地端上的實現是否未來的趨勢”為題進行分享:
01 人機交互必須要先喚醒嗎?
語音交互流程被劃分為五個環節 – 喚醒、響應、輸入、理解、反饋。其中喚醒是每一次用戶與語音產品交互的第一個接觸點,喚醒環節的體驗在整個語音交互流程中至關重要,它的體驗好壞將直接影響用戶對產品的“第一印象”。就目前市面上常見的語音交互產品來說,一個眼神或者一個動作還不能引起它的注意,因此需要定義一個將產品從待機狀態切換到工作狀態的詞語,即所謂的“喚醒詞”。比如“小度小度”“若琪”“叮咚叮咚”。那么,人機交互我們必須要先喚醒嗎?李稀敏認為:隨著技術場景越來越成熟,當機器具備足夠的智能化,機器是可以不需要喚醒詞,就像跟人對話一樣自然。但距離無喚醒交互的實現,還有一段路要走。從聲紋識別的角度來看有兩種場景,第一種,用喚醒詞作為命令詞,設備在休眠或鎖屏狀態下也能檢測到用戶的聲音(設定的語音指令,即喚醒詞),讓處于休眠狀態下的設備直接進入到等待指令狀態,開啟語音交互第一步。第二種設置一個“喚醒詞”,這時候我們可以將設備喚醒比作水龍頭的開關,如果水龍頭沒有開關的話,摁都摁不住是吧?就像智能音響交互的時候,設備亂七八糟的識別了一大堆語音,這個東西出來摁都摁不住,所以人機交互還是要有“喚醒”步驟。但是否需要喚醒詞,還需根據場景的需求來決定,沒有所謂的通用答案。
02 聲紋識別是否可以改進人機交互方式?
最近一段時間很火的蘋果AirPods,華為榮耀FlyPods Pro都在主打身份識別。目前的喚醒大家都是在用這個特定的喚醒詞,如果改用聲紋識別,是否可以改變這種交互的方式?李稀敏認為:在不同的場景中,最佳的喚醒的方式可以不同,但在耳機等可穿戴設備的場景中,聲紋識別因其高易用性、非接觸、不需要前置設備等優點,相對其他生物識別技術,能夠更好的解決該場景的實際身份認證的問題,進而改進人機交互體驗。
03 實現本地端離線語音技術是未來趨勢?
“在貼身的耳機,也就是本地端做聲紋識別,其實避免了一個技術問題:遠場識別”,李稀敏解釋。遠場的文本無關身份識別由于復雜的信號傳播環境等原因,是目前的技術難點,還有很長的路要走。但相對來說,近場的身份識別,在本地端可以通過技術手段快速解決問題。所以,接下來本地端近場身份識別能夠大面積普及,在今后很多場景,我們隨身攜帶一個小設備都能夠直接識別身份。
關于本地化是不是未來的趨勢。從數據的角度來講,很多人是不希望自己的聲音信息,人臉信息,通過設備或各種隱私接口上傳到云端且變為不可控。李稀敏認為,從這個角度來看,本地化的AI的能力是一個剛需。
04 大熱的語音合成技術TTS,跟聲紋識別PK,誰會更勝一籌?
對于使用錄音、合成語音等攻擊手段的識別,是聲紋識別必須要解決的問題。快商通在為銀行、保險等金融客戶設計聲紋身份識別系統,這個是第一個需要解決的問題。
目前,對聲紋認證的攻擊,大概分成幾類,第一類是模仿,第二類是語音合成或者語音轉換,第三類是錄音重放。根據實際欺詐的手段來講,目前主要是防錄音重放。其中,錄音重放是最難檢測的。解決了錄音重放問題,就相當于解決了語音拼接和語音合成問題。
快商通在這一點上做得比較領先,我們的首席科學家李海洲院士,團隊在ASVspoof2017自動說話人驗證欺騙和對策挑戰賽中獲得第一名。包括在許多銀行客戶的測試中,我們都是100%檢測到錄音重放。
另外分享個故事,除了算法和系統本身領先,解決方案還需要數據驅動,大量的錄音樣本、各種設備、各種采樣率、各種時長、各種環境的訓練。1年前,我們在北京幾家銀行做測試的時候,白天我們在地鐵上,在最嘈雜的環境下,各種測試都攻不破。
但晚上,我住在清華大學里,在10:00、11:00左右夜深人靜、一點聲音都沒有的時候,掏出了我們的APP進行測試,卻被攻破了。說明當時我們的訓練數據沒有覆蓋到無雜音、無噪音的情況,當然,現在已經覆蓋到了(笑)。
關于快商通:
快商通是一家從事人工智能技術與應用研發的創新型科技企業,在聲紋識別、自然語言處理、深度學習、大數據等方面擁有原創核心競爭力。
面向企業服務、金融、公檢法、醫療、物聯網等領域,為全球客戶提供包含人工智能算法、應用軟件、平臺軟件及內嵌人工智能功能的軟硬件一體化解決方案。致力于持續為客戶創造價值,讓人工智能走進每個人的生活。
發布評論請先 登錄
相關推薦
評論