精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決自動語音識別部署難題

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Sunil Kumar Jang Baha ? 2022-10-11 10:56 ? 次閱讀

成功部署自動語音識別( ASR )應(yīng)用程序可能是令人沮喪的體驗。例如,考慮到存在許多不同的方言和發(fā)音, ASR 系統(tǒng)很難在保持低延遲的同時正確識別單詞。

無論您使用的是商業(yè)解決方案還是開源解決方案,在構(gòu)建 ASR 應(yīng)用程序時都有許多挑戰(zhàn)需要考慮。

在這篇文章中,我強(qiáng)調(diào)了開發(fā)人員在向應(yīng)用程序添加 ASR 功能時面臨的主要痛點。我以 NVIDIA Riva 語音 AI SDK 為例,分享如何應(yīng)對和克服這些挑戰(zhàn)。

構(gòu)建 ASR 應(yīng)用程序的挑戰(zhàn)

以下是創(chuàng)建任何 ASR 系統(tǒng)時存在的一些挑戰(zhàn):

高精度

低延遲

計算資源分配

靈活的部署和可擴(kuò)展性

定制

監(jiān)測和跟蹤

高精度

衡量語音識別準(zhǔn)確性的一個關(guān)鍵指標(biāo)是單詞錯誤率( WER )。 WER 定義為轉(zhuǎn)錄過程中識別的不正確和缺失單詞總數(shù)與標(biāo)記轉(zhuǎn)錄本中出現(xiàn)的單詞總數(shù)之比。

有幾個原因?qū)е?ASR 模型中的轉(zhuǎn)錄錯誤,導(dǎo)致信息的誤解:

訓(xùn)練數(shù)據(jù)集的質(zhì)量

不同的方言和發(fā)音

口音和語音變化

自定義或特定領(lǐng)域的詞和首字母縮略詞

詞的語境關(guān)系

區(qū)分語音相似的句子

由于這些因素,很難建立具有低 WER 分?jǐn)?shù)的穩(wěn)健 ASR 模型。

低延遲

一個對話人工智能 應(yīng)用程序是由語音人工智能和自然語言處理( NLP )組成的端到端管道。

對于任何對話式人工智能應(yīng)用程序,響應(yīng)時間都是進(jìn)行任何自然對話的關(guān)鍵因素。如果客戶在等待 1 分鐘后才收到響應(yīng),則與機(jī)器人對話是不實際的。

據(jù)觀察,任何對話 AI 應(yīng)用程序都應(yīng): 提供小于 300 毫秒的延遲 因此,確保語音 AI 模型等待時間遠(yuǎn)低于 300 毫秒限制,以集成到實時會話 AI 應(yīng)用的端到端流水線中變得至關(guān)重要。

許多因素影響 ASR 模型的總體延遲:

Model size: 大型和復(fù)雜的模型具有更好的精度,但與較小的模型相比,需要大量的計算能力并增加延遲;即推斷成本高。

Hardware: 這種復(fù)雜模型的邊緣部署進(jìn)一步增加了延遲要求的復(fù)雜性。

Network bandwidth: 流式傳輸音頻內(nèi)容和轉(zhuǎn)錄本需要足夠的帶寬,尤其是在基于云的部署情況下。

計算資源分配

優(yōu)化 ASR 模型及其資源利用適用于所有人工智能模型,而不僅僅是 ASR 模型。然而,這是影響運(yùn)行任何人工智能應(yīng)用程序的總體延遲和計算成本的關(guān)鍵因素。

優(yōu)化模型的全部目的是在計算級別和延遲級別降低推理成本。但是,對于特定架構(gòu),在線可用的所有模型都不是平等創(chuàng)建的,并且不具有相同的代碼質(zhì)量。他們在表現(xiàn)上也有巨大的差異。

此外,并非所有這些方法都以相同的方式響應(yīng)知識提取、修剪、量化和其他優(yōu)化技術(shù),從而在不影響精度結(jié)果的情況下提高推理性能。

靈活的部署和可擴(kuò)展性

創(chuàng)建準(zhǔn)確高效的模型只是任何實時人工智能應(yīng)用程序的一小部分。所需的周邊基礎(chǔ)設(shè)施龐大而復(fù)雜。例如,部署基礎(chǔ)設(shè)施應(yīng)包括:

流式支持

資源管理處

服務(wù)基礎(chǔ)設(shè)施

分析工具支持

監(jiān)測服務(wù)

創(chuàng)建一個定制的端到端優(yōu)化部署管道,以支持任何 ASR 應(yīng)用程序所需的延遲要求,這是一個挑戰(zhàn),因為它需要在每個管道階段進(jìn)行優(yōu)化和加速。

根據(jù)給定實例必須支持的音頻流的數(shù)量,語音識別應(yīng)用程序應(yīng)該能夠自動擴(kuò)展應(yīng)用程序部署,以提供可接受的性能。

定制

讓模型開箱即用始終是我們的目標(biāo)。然而,當(dāng)前可用模型的性能取決于其訓(xùn)練階段使用的數(shù)據(jù)集。模型通常適用于它們已經(jīng)暴露的用例,但一旦在不同的域應(yīng)用程序中部署,同一模型的性能可能會下降。

具體來說,在 ASR 的情況下,模型的性能取決于口音或語言以及語音變化。您應(yīng)該能夠根據(jù)應(yīng)用程序用例定制模型。

例如,在醫(yī)療保健或金融相關(guān)應(yīng)用中部署的語音識別模型需要支持特定領(lǐng)域的詞匯表。該詞匯與 ASR 模型培訓(xùn)期間通常使用的詞匯不同。

為了支持 ASR 的區(qū)域語言,您需要一套完整的培訓(xùn)管道,以便輕松定制模型并有效地處理不同的方言。

監(jiān)測和跟蹤

實時監(jiān)控和跟蹤有助于獲得即時洞察、警報和通知,以便您及時采取糾正措施。這有助于根據(jù)傳入流量跟蹤資源消耗,從而可以自動縮放相應(yīng)的應(yīng)用程序。還可以設(shè)置配額限制,以在不影響總體吞吐量的情況下最小化基礎(chǔ)設(shè)施成本。

捕獲所有這些統(tǒng)計數(shù)據(jù)需要集成多個庫,以捕獲 ASR 管道各個階段的性能。

Riva SDK 如何應(yīng)對 ASR 挑戰(zhàn)的示例

高級 SDK 可用于方便地為應(yīng)用程序添加語音接口。在這篇文章中,我演示了如何在構(gòu)建語音識別應(yīng)用程序時使用 GPU 加速 SDK (如 Riva )來解決這些挑戰(zhàn)。

高精度和計算優(yōu)化

您可以在 NGC 中使用預(yù)訓(xùn)練的 Riva 語音模型,該模型可以使用 TAO 工具包在自定義數(shù)據(jù)集上進(jìn)行微調(diào),從而將特定領(lǐng)域的模型開發(fā)進(jìn)一步加速 10 倍。

為 GPU 部署優(yōu)化并加速了所有 NGC 模型,以實現(xiàn)更好的識別精度。 NVIDIA TensorRT 優(yōu)化也完全支持這些模型。 Riva 的高性能推理由 TensorRT 優(yōu)化提供支持,并使用 NVIDIA Triton 推理服務(wù)器來優(yōu)化整體計算需求,進(jìn)而提高服務(wù)器吞吐量

例如,以下是一些 NGC 上的 ASR 模型,它們作為 Riva 管道的一部分進(jìn)一步優(yōu)化,以獲得更好的性能:

Conformer-CTC xLarge

Citrinet 512

從模型、軟件到硬件, Riva 的整個堆棧不斷優(yōu)化,實現(xiàn)了以下目標(biāo): 12 與上一代相比的增益 。

poYBAGNE23WAPTnjAACmH65qQuU096.png

圖 1.使用 NVIDIA Riva 的 ASR 性能加速

低延遲

流式和離線配置的延遲和吞吐量測量報告在 ASR 性能 Riva 文件部分。

在“流式低延遲” Riva ASR 模型部署模式中,大多數(shù)情況下的平均延遲( ms )遠(yuǎn)小于 50 ms 。使用這樣的 ASR 模型,創(chuàng)建實時會話 AI 管道變得更容易,并且仍然達(dá)到《 300 毫秒的延遲要求。

靈活的部署和擴(kuò)展

在任何平臺上輕松部署語音識別應(yīng)用程序都需要全面支持。 Riva SDK 在每一步都提供了靈活性,從對特定領(lǐng)域數(shù)據(jù)集的模型進(jìn)行微調(diào)到定制管道。它還可以部署在云、本地、邊緣和嵌入式設(shè)備中。

為了支持?jǐn)U展, Riva 是完全容器化的,可以擴(kuò)展到成百上千個并行流。 Riva 也包含在 NGC Helm 倉庫 ,這是一個設(shè)計用于自動按下按鈕的圖表 部署到 Kubernetes 集群 。

定制

pYYBAGNE23aAfHHzAAIc6i0goes988.png

Figure 2. 定制技術(shù)包括從單詞提升到微調(diào)標(biāo)點和大寫模型

定制技術(shù) 當(dāng)開箱即用 Riva 模型無法處理訓(xùn)練數(shù)據(jù)中未出現(xiàn)的挑戰(zhàn)性場景時,這是有用的。這可能包括識別窄域術(shù)語、新口音或嘈雜環(huán)境。

類似 Riva 的 SDK 支持 定制 ,從單詞增強(qiáng)級別開始,并為最終用戶提供定制訓(xùn)練其聲學(xué)模型。

Riva 語音技能還提供了跨多種語言的高質(zhì)量、預(yù)訓(xùn)練模型。有關(guān)支持的語言的所有模型的更多信息,請參閱 語言支持 部分。

監(jiān)測和跟蹤

在 Riva,基礎(chǔ) Triton 推理服務(wù)器度量 基于自定義和儀表板創(chuàng)建,可供最終用戶使用。這些指標(biāo)僅通過訪問端點可用。

NVIDIA Triton 提供普羅米修斯指標(biāo),以及指示 GPU 和請求統(tǒng)計。這有助于監(jiān)控和跟蹤生產(chǎn)部署設(shè)置。

關(guān)鍵要點

這篇文章為您提供了開發(fā)具有 ASR 功能的 AI 應(yīng)用程序時出現(xiàn)的常見痛點的高級概述。了解影響 ASR 應(yīng)用程序整體性能的因素有助于簡化和改進(jìn)端到端開發(fā)過程。

Sunil Kumar Jang Bahadur 是 NVIDIA Inception 團(tuán)隊的高級解決方案架構(gòu)師,專注于印度的人工智能初創(chuàng)企業(yè)。他在各種工業(yè)部門的軟件開發(fā)和技術(shù)解決方案方面擁有 12 年以上的經(jīng)驗。他喜歡教機(jī)器,讓它們更人性化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4935

    瀏覽量

    102811
  • 語音識別
    +關(guān)注

    關(guān)注

    38

    文章

    1721

    瀏覽量

    112541
收藏 人收藏

    評論

    相關(guān)推薦

    語音識別技術(shù)的應(yīng)用及發(fā)展

    語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機(jī)器自動識別和理解人類口述的語言。
    發(fā)表于 12-16 11:11 ?2332次閱讀

    會物體識別語音識別的nao機(jī)器人

    ` nao機(jī)器人可識別大量物體和自動語音識別,并可通過Choregraphe軟件保存物體信息和語音。此后,當(dāng)它再次看到已保存的物體時或需要與
    發(fā)表于 02-13 14:09

    手機(jī)語音識別應(yīng)用中DSP該怎么選擇?

      隨著DSP技術(shù)的進(jìn)步,計算能力更強(qiáng)、功耗更低和體積更小的DSP已經(jīng)出現(xiàn),使3G手機(jī)上植入更精確更復(fù)雜的自動語音識別(ASR)功能成為可能。目前,基本ASR應(yīng)用可以分成三大類:1. 語音
    發(fā)表于 09-02 07:03

    語音識別】你知道什么是離線語音識別和在線語音識別嗎?

    很多都會問:我測X大訊飛的識別效果很好呀,為什么你們的不能達(dá)到這個效果呢?原因很簡單,因為你所測試的是X大訊飛在線的語音識別模塊,而我們的是離線的語音
    發(fā)表于 04-01 17:11

    自動語音識別的原理是什么?

    自動語音識別的原理是什么?如何利用WaveNet實現(xiàn)自動語音識別
    發(fā)表于 06-15 09:14

    離線語音識別及控制是怎樣的技術(shù)?

    信號轉(zhuǎn)化為文本或語義結(jié)果。  與傳統(tǒng)的云端語音識別相比,離線語音識別的工作原理是將語音識別技術(shù)算
    發(fā)表于 11-24 17:41

    語音識別技術(shù)原理簡介

    語音識別技術(shù)原理簡介         自動語音識別技術(shù)(Auto
    發(fā)表于 03-06 10:38 ?1.1w次閱讀

    語音識別技術(shù),語音識別技術(shù)是什么意思

    語音識別技術(shù),語音識別技術(shù)是什么意思  語音識別技術(shù),也被稱為
    發(fā)表于 03-06 11:16 ?2831次閱讀

    語音識別,什么是語音識別

    語音識別,什么是語音識別 語音識別  與機(jī)器進(jìn)行語音
    發(fā)表于 03-06 11:19 ?2600次閱讀

    語音識別技術(shù)是什么_語音識別技術(shù)應(yīng)用領(lǐng)域介紹

    語音識別技術(shù),也被稱為自動語音識別(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的
    發(fā)表于 01-02 18:36 ?1.7w次閱讀

    英偉達(dá)最新推出部署邊緣設(shè)備的語音識別技術(shù)

    英偉達(dá)近日一篇論文為語音識別技術(shù)在邊緣設(shè)備上的部署帶來了福音,其新提出的解碼器方法即使在邊緣嵌入式 GPU 上也能高效高速地執(zhí)行。
    發(fā)表于 10-28 10:54 ?726次閱讀

    自動語音識別的原理是什么,它的作用是什么

    Siri 、Alexa 等虛擬助手的出現(xiàn),讓自動語音識別系統(tǒng)得到了更廣泛的運(yùn)用與發(fā)展。
    發(fā)表于 03-20 10:34 ?2133次閱讀

    語音識別系統(tǒng)的結(jié)構(gòu)

    技術(shù)中,使得語音識別的性能得到了顯著提升,也使得語音識別技術(shù)的普及成為了現(xiàn)實。 語音識別技術(shù)
    的頭像 發(fā)表于 11-09 16:19 ?6830次閱讀

    語音識別技術(shù)概述

    語音識別技術(shù),也被稱為自動語音識別AutomaTIc Speech RecogniTIon,(ASR),其目標(biāo)是將人類的
    的頭像 發(fā)表于 04-11 11:28 ?2w次閱讀

    在本地與云端部署語音識別

      嵌入式揚(yáng)聲器驗證也被更頻繁地部署,并且通常被合并到喚醒觸發(fā)器中,以降低其他人喚醒您的設(shè)備的可能性。對于語音識別和說話人驗證,總是需要在錯誤接受(接受錯誤的用戶)和錯誤拒絕(拒絕正確的用戶)之間進(jìn)行權(quán)衡。
    的頭像 發(fā)表于 07-09 07:31 ?1203次閱讀