精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探索自動語音識別技術的獨特應用

星星科技指導員 ? 來源:NVIDIA ? 作者:David Taubenheim ? 2022-10-11 09:55 ? 次閱讀

自動語音識別( ASR )正在成為日常生活的一部分,從與數字助理交互到聽寫文本信息。由于以下方面的最新進展, ASR 研究繼續取得進展:

ASR 為多個架構建模以滿足需求

在特定行業的行話、語言、口音和方言方面具有定制靈活性

云、預部署或混合部署選項

這篇文章首先介紹了常見的 ASR 應用程序,然后介紹了兩個初創公司,他們正在探索 ASR 作為核心產品功能的獨特應用。

語音識別系統的工作原理

自動語音識別 或語音識別,是計算機系統從音頻中破譯口語單詞和短語并將其轉錄成書面文本的能力。開發人員也可以將 ASR 稱為語音到文本,不要與文本到語音( TTS )混淆。

ASR 系統的文本輸出可能是語音 AI 接口的最終產品,或 會話人工智能 系統可能會消耗文本。

常見 ASR 應用

ASR 已經成為新型交互式產品和服務的網關。即使現在,您也可以考慮使用下面詳細介紹的用例的品牌系統:

現場字幕和轉錄

實時字幕和轉錄是兄弟。兩者之間的主要區別是字幕產生字幕 根據需要,為流媒體電影等視頻節目直播。相比之下,轉錄可以在現場或批處理模式下進行,其中錄制的音頻片段的轉錄速度比實時快幾個數量級。

虛擬助理和聊天機器人

虛擬助手和聊天機器人與人們互動,既提供幫助,也提供娛樂。他們可以從用戶輸入的文本或 ASR 系統接收基于文本的輸入,因為 ASR 系統識別并輸出用戶的單詞。

助手和機器人需要足夠快地向用戶發出響應,因此處理延遲是不可察覺的。響應可能是純文本、合成語音或圖像。

語音命令和聽寫

語音命令和聽寫系統是社交媒體平臺和醫療行業使用的常見 ASR 應用。

為了提供一個社交媒體示例,在移動設備上錄制視頻之前,用戶可能會發出語音命令以激活美容過濾器:“給我紫色頭發”。該社交網絡應用程序涉及一個支持 ASR 的子系統,該子系統以命令的形式接收用戶的話語,同時應用程序同時處理攝像機輸入并應用過濾器進行屏幕顯示。

聽寫系統存儲語音中的文本,擴展了 語音人工智能系統 超越命令。為了提供醫療保健行業的一個例子,醫生口述包含醫學術語和名稱的語音注釋。準確的文本輸出可以添加到患者電子病歷中的就診摘要中。

獨特的 ASR 應用

除了這些常見用例之外,研究人員和企業家正在探索各種獨特的 ASR 應用。以下兩個初創公司正在開發以新穎方式使用該技術的產品。

互動學習: Tarteel AI

ASR 的創造性應用開始出現在教育材料中,特別是以互動學習的形式出現在兒童和成人中。

挑戰和解決辦法

雖然應用程序現在運行順利,但 Tarteel 面臨著一系列艱難的初始挑戰。首先,古蘭經阿拉伯語沒有合適的 ASR 模型,最初迫使塔特爾嘗試通用 ASR 模型。

Tarteel Anas-Abou Allaban 的聯合創始人兼首席執行官說:“我們從設備上的語音人工智能框架開始,就像智能手機一樣,但它們的設計更多是為了命令和短句,而不是精確的背誦?!??!八鼈円膊皇巧a級別的工具,甚至不接近。”

為了克服這一挑戰, Tarteel 構建了一個自定義數據集來完善現有的 ASR 模型,以滿足應用程序的性能目標。然后,在他們的下一個原型中, ASR 模型確實以較低的字錯誤率( WER )運行,但仍不能滿足應用程序的實際精度和延遲要求。

阿拉班指出,他在一些電話會議記錄中看到了 10-15% 的正確率,但在古蘭經研究中看到高正確率是另一回事。他說,應用程序中超過 300 毫秒的處理延遲“變得非常煩人”。

Tarteel 通過調整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服務器上部署之前使用 TensorRT 進一步優化其延遲來應對這些挑戰。

數字人類服務:Ex-human

創業公司 Ex human 正在創造超現實的數字人 與模擬人(你和我)互動。他們目前的重點是為娛樂利基開發 B2B 數字人類服務,使之能夠創建具有獨特個性、知識和現實說話聲音的聊天機器人或游戲角色。

在公司 Botify AI 應用 ,人工智能實體包括名人,通過口頭和圖形交互與用戶互動,無論您是在智能手機聊天窗口中打字還是使用語音。 NVIDIA Riva 自動語音識別為數字人類的自然語言處理子系統提供文本輸入,作為大型語言模型( LLM )的一部分。

為了使虛擬交互可信,需要精確和快速的 ASR 。由于 LLM 是計算密集型的,并且需要大量的處理資源,因此對于交互來說,它們可能運行得太慢。

例如, Botify AI 應用最先進的 TTS 來產生語音音頻響應,進而使用另一種 AI 模型驅動面部動畫。該團隊觀察到,當響應的周轉時間短于約三分之一秒時,機器人與用戶的可信交互處于最佳狀態。

挑戰和解決辦法

雖然 Botify 人工智能正在努力彌合人工智能生成的真實視頻與真實人類之間的差距,但 Ex-human 團隊對其客戶行為數據的分析感到驚訝。“他們正在打造自己的新動漫人物,”Ex-human 的創始人兼首席執行官阿泰姆·羅迪切夫( Artem Rodichev )說。

通過使用為 Botify AI 生態系統微調的 ASR 模型,用戶可以與自己喜愛的個性進行交流或創建自己的個性。在上傳自定義人臉的背景下,構建新動畫角色的令人驚訝的模式出現了,通過自定義角色將對話帶入生活。 Rodichev 解釋說,他的團隊需要快速調整他們的人工智能模型,以處理例如在風格上只是一個點或一條線的嘴。

Rodichev 和他的團隊通過仔細選擇工具和 SDK 以及評估并行處理的機會,克服了 Ex-human 架構中的許多挑戰。 Rodichev 警告說:“由于延遲非常重要,我們使用 NVIDIA TensorRT 優化了 ASR 模型和其他模型,并依賴于 Triton 推理服務器?!?/p>

Botify AI 用戶是否準備好與數字人類而不是模擬人類互動?數據顯示,用戶平均每天花 40 分鐘與 Botify 人工智能數字人在一起,在這段時間內發送他們最喜歡的數百條信息。

開始使用 ASR

您可以開始在自己的設計和項目中包括 ASR 功能,從免提語音命令到實時轉錄。 Riva 等高級 SDK 在世界級的準確性、速度、延遲和易集成性方面表現出高性能,所有這些都與您的新想法一致。

關于作者

David Taubenheim 是 NVIDIA Inception 項目的高級解決方案架構師,該項目是初創企業的加速器。他目前的技術重點領域是加速計算和對話 AI 使能器。 David 擁有國立技術大學的電氣工程碩士學位和伊利諾伊大學香檳分校的電氣工程學士學位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4940

    瀏覽量

    102816
  • 語音識別
    +關注

    關注

    38

    文章

    1721

    瀏覽量

    112547
收藏 人收藏

    評論

    相關推薦

    ASR與傳統語音識別的區別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統語音識別在多個方面存在顯著的區別。以下是對這兩者的對比
    的頭像 發表于 11-18 15:22 ?309次閱讀

    ASR語音識別技術應用

    語音識別技術應用的分析: 一、ASR語音識別技術原理 ASR
    的頭像 發表于 11-18 15:12 ?298次閱讀

    基于Arm Neoverse N2實現自動語音識別技術

    自動語音識別 (Automatic Speech Recognition) 技術已經深入到現代生活的方方面面,廣泛應用于從語音助手、轉錄服務
    的頭像 發表于 11-15 11:35 ?175次閱讀
    基于Arm Neoverse N2實現<b class='flag-5'>自動</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術</b>

    Transformer模型在語音識別語音生成中的應用優勢

    隨著人工智能技術的飛速發展,語音識別語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其
    的頭像 發表于 07-03 18:24 ?968次閱讀

    人工智能的語音識別技術詳解

    隨著科技的飛速發展,人工智能(AI)技術已經滲透到我們生活的方方面面,其中語音識別技術作為AI領域的重要分支,更是以其獨特的魅力和廣泛的應用
    的頭像 發表于 07-01 11:39 ?1076次閱讀

    標貝語音識別技術在金融領域中的應用實例

    隨著語音識別技術與文本挖掘、自然語言處理等技術的不斷融合,智能語音交互技術在金融領域中爆發了出巨
    的頭像 發表于 05-16 16:55 ?544次閱讀
    標貝<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術</b>在金融領域中的應用實例

    車內語音識別技術在智能駕駛中的應用與前景

    一、引言 隨著智能駕駛技術的快速發展,車內語音識別技術逐漸成為智能駕駛領域的研究熱點。語音識別
    的頭像 發表于 02-19 11:46 ?753次閱讀

    語音數據集:智能駕駛中車內語音識別技術的基石

    一、引言 在智能駕駛中,車內語音識別技術發揮著越來越重要的作用。語音數據集作為這一技術的基石,其質量和規模對
    的頭像 發表于 01-31 16:07 ?493次閱讀

    語音數據集:探索、挑戰與應用

    隨著人工智能技術的飛速發展,語音識別技術已經滲透到我們生活的方方面面,從智能手機助手到智能家居設備,再到自動駕駛汽車,都離不開這項
    的頭像 發表于 12-28 13:56 ?514次閱讀

    離線語音識別技術:掌控未來的語音交互

    離線語音識別技術的核心優勢在于其獨立性和實時性。在沒有網絡連接的情況下,設備依然能夠迅速識別用戶的語音指令,實現各種功能。這使得
    的頭像 發表于 12-13 11:12 ?551次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術</b>:掌控未來的<b class='flag-5'>語音</b>交互

    離線語音識別與在線語音識別有什么不一樣?

    離線語音識別與在線語音識別有什么不一樣? 離線語音識別和在線
    的頭像 發表于 12-12 14:36 ?1158次閱讀

    淺談情感語音識別技術發展與未來趨勢

    一、引言 情感語音識別是一種新興的人工智能技術,它通過分析人類語音中的情感信息,實現人機之間的情感交互。本文將探討情感語音
    的頭像 發表于 11-30 11:06 ?692次閱讀

    情感語音識別的應用與挑戰

    一、引言 情感語音識別是一種通過分析人類語音中的情感信息實現智能化和個性化人機交互的技術。本文將探討情感語音
    的頭像 發表于 11-30 10:40 ?619次閱讀

    情感語音識別技術前沿與未來趨勢

    一、引言 情感語音識別是當前人工智能領域的前沿技術,它通過分析人類語音中的情感信息,實現更加智能化和個性化的人機交互。本文將探討情感語音
    的頭像 發表于 11-28 18:35 ?566次閱讀

    情感語音識別技術發展與挑戰

    一、引言 情感語音識別是人工智能領域的重要研究方向,它通過分析人類語音中的情感信息,實現人機之間的情感交互。本文將探討情感語音識別
    的頭像 發表于 11-28 18:26 ?622次閱讀