自動語音識別( ASR )正在成為日常生活的一部分,從與數字助理交互到聽寫文本信息。由于以下方面的最新進展, ASR 研究繼續取得進展:
ASR 為多個架構建模以滿足需求
在特定行業的行話、語言、口音和方言方面具有定制靈活性
云、預部署或混合部署選項
這篇文章首先介紹了常見的 ASR 應用程序,然后介紹了兩個初創公司,他們正在探索 ASR 作為核心產品功能的獨特應用。
語音識別系統的工作原理
自動語音識別 或語音識別,是計算機系統從音頻中破譯口語單詞和短語并將其轉錄成書面文本的能力。開發人員也可以將 ASR 稱為語音到文本,不要與文本到語音( TTS )混淆。
ASR 系統的文本輸出可能是語音 AI 接口的最終產品,或 會話人工智能 系統可能會消耗文本。
常見 ASR 應用
ASR 已經成為新型交互式產品和服務的網關。即使現在,您也可以考慮使用下面詳細介紹的用例的品牌系統:
現場字幕和轉錄
實時字幕和轉錄是兄弟。兩者之間的主要區別是字幕產生字幕 根據需要,為流媒體電影等視頻節目直播。相比之下,轉錄可以在現場或批處理模式下進行,其中錄制的音頻片段的轉錄速度比實時快幾個數量級。
虛擬助理和聊天機器人
虛擬助手和聊天機器人與人們互動,既提供幫助,也提供娛樂。他們可以從用戶輸入的文本或 ASR 系統接收基于文本的輸入,因為 ASR 系統識別并輸出用戶的單詞。
助手和機器人需要足夠快地向用戶發出響應,因此處理延遲是不可察覺的。響應可能是純文本、合成語音或圖像。
語音命令和聽寫
語音命令和聽寫系統是社交媒體平臺和醫療行業使用的常見 ASR 應用。
為了提供一個社交媒體示例,在移動設備上錄制視頻之前,用戶可能會發出語音命令以激活美容過濾器:“給我紫色頭發”。該社交網絡應用程序涉及一個支持 ASR 的子系統,該子系統以命令的形式接收用戶的話語,同時應用程序同時處理攝像機輸入并應用過濾器進行屏幕顯示。
聽寫系統存儲語音中的文本,擴展了 語音人工智能系統 超越命令。為了提供醫療保健行業的一個例子,醫生口述包含醫學術語和名稱的語音注釋。準確的文本輸出可以添加到患者電子病歷中的就診摘要中。
獨特的 ASR 應用
除了這些常見用例之外,研究人員和企業家正在探索各種獨特的 ASR 應用。以下兩個初創公司正在開發以新穎方式使用該技術的產品。
互動學習: Tarteel AI
ASR 的創造性應用開始出現在教育材料中,特別是以互動學習的形式出現在兒童和成人中。
挑戰和解決辦法
雖然應用程序現在運行順利,但 Tarteel 面臨著一系列艱難的初始挑戰。首先,古蘭經阿拉伯語沒有合適的 ASR 模型,最初迫使塔特爾嘗試通用 ASR 模型。
Tarteel Anas-Abou Allaban 的聯合創始人兼首席執行官說:“我們從設備上的語音人工智能框架開始,就像智能手機一樣,但它們的設計更多是為了命令和短句,而不是精確的背誦?!??!八鼈円膊皇巧a級別的工具,甚至不接近。”
為了克服這一挑戰, Tarteel 構建了一個自定義數據集來完善現有的 ASR 模型,以滿足應用程序的性能目標。然后,在他們的下一個原型中, ASR 模型確實以較低的字錯誤率( WER )運行,但仍不能滿足應用程序的實際精度和延遲要求。
阿拉班指出,他在一些電話會議記錄中看到了 10-15% 的正確率,但在古蘭經研究中看到高正確率是另一回事。他說,應用程序中超過 300 毫秒的處理延遲“變得非常煩人”。
Tarteel 通過調整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服務器上部署之前使用 TensorRT 進一步優化其延遲來應對這些挑戰。
數字人類服務:Ex-human
創業公司 Ex human 正在創造超現實的數字人 與模擬人(你和我)互動。他們目前的重點是為娛樂利基開發 B2B 數字人類服務,使之能夠創建具有獨特個性、知識和現實說話聲音的聊天機器人或游戲角色。
在公司 Botify AI 應用 ,人工智能實體包括名人,通過口頭和圖形交互與用戶互動,無論您是在智能手機聊天窗口中打字還是使用語音。 NVIDIA Riva 自動語音識別為數字人類的自然語言處理子系統提供文本輸入,作為大型語言模型( LLM )的一部分。
為了使虛擬交互可信,需要精確和快速的 ASR 。由于 LLM 是計算密集型的,并且需要大量的處理資源,因此對于交互來說,它們可能運行得太慢。
例如, Botify AI 應用最先進的 TTS 來產生語音音頻響應,進而使用另一種 AI 模型驅動面部動畫。該團隊觀察到,當響應的周轉時間短于約三分之一秒時,機器人與用戶的可信交互處于最佳狀態。
挑戰和解決辦法
雖然 Botify 人工智能正在努力彌合人工智能生成的真實視頻與真實人類之間的差距,但 Ex-human 團隊對其客戶行為數據的分析感到驚訝。“他們正在打造自己的新動漫人物,”Ex-human 的創始人兼首席執行官阿泰姆·羅迪切夫( Artem Rodichev )說。
通過使用為 Botify AI 生態系統微調的 ASR 模型,用戶可以與自己喜愛的個性進行交流或創建自己的個性。在上傳自定義人臉的背景下,構建新動畫角色的令人驚訝的模式出現了,通過自定義角色將對話帶入生活。 Rodichev 解釋說,他的團隊需要快速調整他們的人工智能模型,以處理例如在風格上只是一個點或一條線的嘴。
Rodichev 和他的團隊通過仔細選擇工具和 SDK 以及評估并行處理的機會,克服了 Ex-human 架構中的許多挑戰。 Rodichev 警告說:“由于延遲非常重要,我們使用 NVIDIA TensorRT 優化了 ASR 模型和其他模型,并依賴于 Triton 推理服務器?!?/p>
Botify AI 用戶是否準備好與數字人類而不是模擬人類互動?數據顯示,用戶平均每天花 40 分鐘與 Botify 人工智能數字人在一起,在這段時間內發送他們最喜歡的數百條信息。
開始使用 ASR
您可以開始在自己的設計和項目中包括 ASR 功能,從免提語音命令到實時轉錄。 Riva 等高級 SDK 在世界級的準確性、速度、延遲和易集成性方面表現出高性能,所有這些都與您的新想法一致。
關于作者
David Taubenheim 是 NVIDIA Inception 項目的高級解決方案架構師,該項目是初創企業的加速器。他目前的技術重點領域是加速計算和對話 AI 使能器。 David 擁有國立技術大學的電氣工程碩士學位和伊利諾伊大學香檳分校的電氣工程學士學位。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4940瀏覽量
102816 -
語音識別
+關注
關注
38文章
1721瀏覽量
112547
發布評論請先 登錄
相關推薦
評論