精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對(duì)于谷歌應(yīng)用傳統(tǒng)的自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)的解析

zhKF_jqr_AI ? 2017-12-31 01:22 ? 次閱讀

目前,谷歌的各種語(yǔ)音搜索應(yīng)用還在使用傳統(tǒng)的自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng),它包括一個(gè)包括聲學(xué)模型(AM )、一個(gè)發(fā)音模型(PM)和一個(gè)語(yǔ)言模型(LM),它們都是彼此獨(dú)立訓(xùn)練的,而且需要研究人員在不同數(shù)據(jù)集上進(jìn)行手動(dòng)調(diào)試。例如,當(dāng)聲學(xué)模型采集到一些聲波特征,它會(huì)參考上下文中的音素,有時(shí)甚至是一些無(wú)關(guān)的音素來(lái)生成一系列subword單元預(yù)測(cè)。之后,發(fā)音模型會(huì)在手工設(shè)計(jì)的詞典中為預(yù)測(cè)音素映射序列,最后再由語(yǔ)言模型根據(jù)序列概率分配單詞。

和聯(lián)合訓(xùn)練所有組件相比,這種對(duì)各模型進(jìn)行獨(dú)立訓(xùn)練其實(shí)是一種次優(yōu)的選擇,它會(huì)使整個(gè)過(guò)程更復(fù)雜。在過(guò)去幾年中,端對(duì)端系統(tǒng)開(kāi)發(fā)越來(lái)越受歡迎,它們的思路是把這些獨(dú)立的組件組合成一個(gè)單一系統(tǒng)共同學(xué)習(xí),但一個(gè)不可忽視的事實(shí)是,雖然端對(duì)端模型在論文中表現(xiàn)出了一定的希望,但沒(méi)人真正確定它們比傳統(tǒng)的做法效果更優(yōu)。

為了驗(yàn)證這一點(diǎn),近日,谷歌推薦了一篇由Google Brain Team發(fā)表的新論文:State-of-the-art Speech Recognition With Sequence-to-Sequence Models,介紹了一種新的、在性能上超越傳統(tǒng)做法的端對(duì)端語(yǔ)音識(shí)別模型。論文顯示,相較于現(xiàn)在最先進(jìn)的語(yǔ)音識(shí)別工具,谷歌新模型的字錯(cuò)誤率(WER)只有5.6%,比前者的6.7%提升了16%。此外,在沒(méi)有任何預(yù)測(cè)評(píng)分的前提下,用于輸出初始字假設(shè)的端對(duì)端模型在體量上是傳統(tǒng)工具的十八分之一,因?yàn)樗话?dú)立的語(yǔ)言模型和發(fā)音模型。

這個(gè)新模型的系統(tǒng)建立在Listen-Attend-Spell(LAS)端到端體系結(jié)構(gòu)上,該結(jié)構(gòu)由3部分組成,其中Listen組件的編碼器和標(biāo)準(zhǔn)聲學(xué)模型類(lèi)似,把時(shí)頻語(yǔ)音信號(hào)x作為輸入,并用一組神經(jīng)網(wǎng)絡(luò)層將輸入映射為一個(gè)高水平的表征henc。Attend接收前者編碼器的輸出,并用henc來(lái)學(xué)習(xí)輸入x和預(yù)測(cè)subword單元{yn, … y0}之間的對(duì)齊。其中每個(gè)subword單元通常是字形或詞形。組合,Attend組件將輸出傳輸給Spell組件(解碼器),它類(lèi)似語(yǔ)言模型,能產(chǎn)生一組預(yù)測(cè)字詞的概率分布。

01254K933-0.png

不同于傳統(tǒng)的獨(dú)立訓(xùn)練,LAS的所有組件都在一個(gè)單一的端到端神經(jīng)網(wǎng)絡(luò)中聯(lián)合訓(xùn)練,這意味著它更簡(jiǎn)單方便。此外,由于LAS是一個(gè)徹底的神經(jīng)網(wǎng)絡(luò),所以它不需要外部增設(shè)手工組件,例如有窮狀態(tài)轉(zhuǎn)移機(jī)、lexicon或TN模型。最后,LAS不需要像傳統(tǒng)模型一樣用單獨(dú)系統(tǒng)生成的決策樹(shù)或time alignment來(lái)做Bootstrap,它可以在給定文本轉(zhuǎn)錄和相對(duì)應(yīng)音頻資料的情況下直接訓(xùn)練。

在論文中,谷歌大腦團(tuán)隊(duì)還介紹他們?cè)贚AS中引入各類(lèi)新穎的結(jié)構(gòu)對(duì)神經(jīng)網(wǎng)絡(luò)做了調(diào)整,包括改進(jìn)傳遞給解碼器的attention vector,以及用更長(zhǎng)的subword單元對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練(如wordpiece)。他們也用了大量?jī)?yōu)化訓(xùn)練方法,其中就有使用最低錯(cuò)詞率進(jìn)行訓(xùn)練。這些創(chuàng)新都是端到端模型較傳統(tǒng)性能提升16%的原因。

這項(xiàng)研究另一個(gè)值得興奮的點(diǎn)是多方言和多語(yǔ)言系統(tǒng),這可能開(kāi)啟一些潛在應(yīng)用,由于它是一個(gè)經(jīng)優(yōu)化的單個(gè)神經(jīng)網(wǎng)絡(luò),模型的簡(jiǎn)單性使它獨(dú)具吸引力。在LAS中,研究人員可以將所有方言、語(yǔ)言數(shù)據(jù)整合在一起進(jìn)行訓(xùn)練,而無(wú)需針對(duì)各個(gè)類(lèi)別單獨(dú)設(shè)置AM、PM和LM。據(jù)論文介紹,經(jīng)測(cè)試,谷歌的這個(gè)模型在7種英語(yǔ)方言、9種印度語(yǔ)言上表現(xiàn)良好,并超越了對(duì)照組的單獨(dú)訓(xùn)練模型。

雖然這個(gè)數(shù)據(jù)結(jié)果令人興奮,但這暫時(shí)還不是一個(gè)真正成熟的工作,因?yàn)樗€不能實(shí)時(shí)處理語(yǔ)音,而這是它被用于語(yǔ)音搜索的一個(gè)重大前提。此外,這些模型生成的數(shù)據(jù)和實(shí)際數(shù)據(jù)仍存在不小的差距,它們只學(xué)習(xí)了22000個(gè)音頻文本對(duì)話,在語(yǔ)料庫(kù)數(shù)據(jù)積累上遠(yuǎn)比不上傳統(tǒng)方法。當(dāng)面對(duì)一些罕見(jiàn)的詞匯時(shí),比如一些人工設(shè)計(jì)的專(zhuān)業(yè)名詞、專(zhuān)有名詞,端到端模型還不能正確編寫(xiě)。因此,為了讓它們能更實(shí)用、適用,谷歌大腦的科學(xué)家們未來(lái)仍將面臨諸多問(wèn)題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6142

    瀏覽量

    105116
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1725

    瀏覽量

    112567
  • 語(yǔ)音搜索
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    7815

原文標(biāo)題:谷歌大腦發(fā)力語(yǔ)音搜索:一個(gè)用于語(yǔ)音識(shí)別的端到端模型

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    手機(jī)語(yǔ)音識(shí)別應(yīng)用中DSP該怎么選擇?

      隨著DSP技術(shù)的進(jìn)步,計(jì)算能力更強(qiáng)、功耗更低和體積更小的DSP已經(jīng)出現(xiàn),使3G手機(jī)上植入更精確更復(fù)雜的自動(dòng)語(yǔ)音識(shí)別(ASR)功能成為可能。目前,基本
    發(fā)表于 09-02 07:03

    TWEN-ASR ONE 語(yǔ)音識(shí)別系列教程(1)——運(yùn)行第一個(gè)語(yǔ)音程序

    文章目錄前言一、TWEN-ASR開(kāi)發(fā)板介紹二、程序編寫(xiě)、下載、調(diào)試三、運(yùn)行測(cè)試四、總結(jié)前言????語(yǔ)音識(shí)別這個(gè)詞,相信大家都不陌生,現(xiàn)在流行的智能音箱基本都有語(yǔ)音
    發(fā)表于 06-16 18:10

    HarmonyOS開(kāi)發(fā)-語(yǔ)音識(shí)別

    1. 在使用語(yǔ)音識(shí)別API時(shí),將實(shí)現(xiàn)ASR的相關(guān)的類(lèi)添加至工程。// 提供ASR引擎執(zhí)行時(shí)所需要傳入的參數(shù)類(lèi)import ohos.ai.asr
    發(fā)表于 03-22 09:54

    語(yǔ)音識(shí)別技術(shù)原理簡(jiǎn)介

    語(yǔ)音識(shí)別技術(shù)原理簡(jiǎn)介         自動(dòng)語(yǔ)音識(shí)別技術(shù)(Auto
    發(fā)表于 03-06 10:38 ?1.1w次閱讀

    語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)是什么意思

    語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)是什么意思  語(yǔ)音識(shí)別技術(shù),也被稱為
    發(fā)表于 03-06 11:16 ?2832次閱讀

    ASR語(yǔ)音識(shí)別技術(shù)的介紹應(yīng)用和優(yōu)勢(shì)及實(shí)際案例分析

    ASR(Automatic Speech Recognition) 自動(dòng)語(yǔ)音識(shí)別技術(shù)是基于關(guān)鍵詞語(yǔ)列表識(shí)別的技術(shù)。每次
    發(fā)表于 10-17 08:00 ?30次下載

    ASR語(yǔ)音技術(shù)的原理以及未來(lái)發(fā)展趨勢(shì)分析

    自動(dòng)語(yǔ)音識(shí)別(ASR)是一種將口語(yǔ)轉(zhuǎn)換為文本的過(guò)程。該技術(shù)正在不斷應(yīng)用于即時(shí)通訊應(yīng)用程序、搜索引擎、車(chē)載系統(tǒng)和家庭
    發(fā)表于 03-21 10:35 ?4094次閱讀

    LU-ASR01語(yǔ)音識(shí)別模塊使用說(shuō)明

    模塊語(yǔ)音識(shí)別LU-ASR01智能控制聲控圖形編程零基開(kāi)發(fā)板使用說(shuō)明。
    發(fā)表于 04-13 09:10 ?222次下載

    探索自動(dòng)語(yǔ)音識(shí)別技術(shù)的獨(dú)特應(yīng)用

      自動(dòng)語(yǔ)音識(shí)別ASR )正在成為日常生活的一部分,從與數(shù)字助理交互到聽(tīng)寫(xiě)文本信息。由于以下方面的最新進(jìn)展, ASR 研究繼續(xù)取得進(jìn)展:
    的頭像 發(fā)表于 10-11 09:55 ?887次閱讀

    解決自動(dòng)語(yǔ)音識(shí)別部署難題

    成功部署自動(dòng)語(yǔ)音識(shí)別ASR )應(yīng)用程序可能是令人沮喪的體驗(yàn)。例如,考慮到存在許多不同的方言和發(fā)音, ASR
    的頭像 發(fā)表于 10-11 10:56 ?959次閱讀
    解決<b class='flag-5'>自動(dòng)</b><b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>部署難題

    什么是自動(dòng)語(yǔ)音識(shí)別ASR)?如何使用深度學(xué)習(xí)和GPU加速ASR

    ASR 是自然語(yǔ)言中一項(xiàng)頗具挑戰(zhàn)性的任務(wù),它由語(yǔ)音分割、聲學(xué)建模和語(yǔ)言建模等一系列子任務(wù)組成,根據(jù)噪聲和未分割的輸入數(shù)據(jù)形成預(yù)測(cè)(標(biāo)簽序列)。
    發(fā)表于 02-28 15:01 ?4974次閱讀
    什么是<b class='flag-5'>自動(dòng)</b><b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>(<b class='flag-5'>ASR</b>)?如何使用深度學(xué)習(xí)和GPU加速<b class='flag-5'>ASR</b>

    ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

    語(yǔ)音識(shí)別技術(shù)應(yīng)用的分析: 一、ASR語(yǔ)音識(shí)別技術(shù)原理 ASR
    的頭像 發(fā)表于 11-18 15:12 ?346次閱讀

    ASR在智能家居中的應(yīng)用

    隨著科技的飛速發(fā)展,人工智能技術(shù)(AI)已經(jīng)滲透到我們生活的方方面面,其中自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,簡(jiǎn)稱ASR)技術(shù)在智能家居領(lǐng)域的應(yīng)用尤
    的頭像 發(fā)表于 11-18 15:15 ?345次閱讀

    ASR和機(jī)器學(xué)習(xí)的關(guān)系

    自動(dòng)語(yǔ)音識(shí)別ASR)技術(shù)的發(fā)展一直是人工智能領(lǐng)域的一個(gè)重要分支,它使得機(jī)器能夠理解和處理人類(lèi)語(yǔ)言。隨著機(jī)器學(xué)習(xí)(ML)技術(shù)的迅猛發(fā)展,ASR
    的頭像 發(fā)表于 11-18 15:16 ?232次閱讀

    ASR傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別

    ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)與傳統(tǒng)語(yǔ)音
    的頭像 發(fā)表于 11-18 15:22 ?329次閱讀