精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語音識別的技術原理是什么?

九芯電子語音芯片 ? 2022-05-10 16:40 ? 次閱讀

自動語音辨認技術(ASR,Automatic Speech Recognition)是一種經過讓機器經過辨認和了解的過程,把人類的語音信號轉變為相應文本的技術。我們先來看看語音辨認的歷史,其實早在計算機創造之前,有關ASR技術的理念就曾經降生了,而早期的聲碼器就能夠被視為是語音辨認及合成的雛形。而1920年代消費的"Radio Rex"玩具狗,可能是早的語音辨認器,當這只狗的名字被召喚的時分,它可以從底座上彈出來。這么看來論輩分它是阿爾法狗的爺爺……但毫無疑問60年代計算機的開展推進了語音辨認技術技術,這其中重要的一個里程碑就是動態規劃技術(DP)和線性預測剖析技術(LP),后者又開展出了更成熟的動態時間歸正技術(DTW),包括矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。但這些還都只是單調又晦澀的算法,換句話說,工程師看到這些玩意也一頭霧水,基本沒方法疾速在應用到理論里。所以在80年代時,著名的AT&T Bell實驗室經過努力,把本來深奧無比的HMM純數學模型工程化,為應用開發打下了重要的基石。到90年代時,深度神經網絡技術的打破性開展,終于把語音辨認技術本來的難關攻破了。所以在我們會發現,從21世紀后語音辨認技術的開展就疾速加快了。其實看起來高大上的語音辨認技術,原理并沒有多么復雜。不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri,還是國內一些獨立做語音辨認的比方訊飛、Rokid,在原理在實質上沒有幾差別:就是語音輸入后,停止特征提取,將提取的特征值放進模型庫里,再不時地停止鍛煉和匹配,終解碼得到結果。

假如要細說的話就比擬復雜了,比方模型庫中又分為聲學模型和言語模型。其中言語模型是依據不同品種的言語,對詞串停止統計建模,目前普遍采用的是基于(n-1)階馬爾可夫鏈統計的n元語法模型。這里細致說下聲學建模吧。首先經過前端特征提取取得聲學特征,再進一步對聲學特征停止統計建模。建模運用到的貝葉斯統計建模框架,也就是大后驗概率決策原則。這里算法這種深奧的東西就不說了,除非深度開發,否則直接套用就行了,我本人也是博古通今,還是念書的時分學的。說說提取聲學特征該如何完成:當語音輸入之后,首先停止模電轉換,將模仿信號轉變為數字信號,再停止靜音切除去掉無關噪音,然后停止分幀。將此時的信號分紅一幀一幀之后(每一幀并不是獨立存在的而是相互關聯的),還要停止一系列的信號處置,包括預加重、加窗之后,再停止FFT變換之后,再經過Mel參數的濾波和取對數、離散余弦變換等一系列算法處置后,能夠停止用梅爾頻率倒譜系數(MFCC)停止特征提取,得到聲學特征。覺得越說越復雜了……后面簡單點說吧。前面說了言語模型,而聲學模型就是將聲學特征統計建模后得到的。得到了模型庫之后就能夠停止模型鍛煉和形式匹配了。所謂模型鍛煉就是指依照一定的原則,從大量已知語音形式中獲取一個具特征的模型參數。而形式匹配則相反,是依據一定原則,將未知語音形式與模型庫中的某一個模型取得佳匹配后的解碼過程又能夠分紅動態解碼網絡和靜態解碼網絡兩種:動態網絡會編譯一個狀態網絡并構成搜索空間,把單詞轉換成一個個的音素后將其依照語序拆分紅狀態序列,再依據音素上下文分歧性準繩將狀態序列停止銜接。而靜態網絡普通是針對一些特殊詞(孤立詞)的辨認網絡,它的構造就簡單多了:先將每條特殊詞擴展成HMM狀態序列,然后再計算得分,選擇得分大的作為辨認輸出結果。由于靜態網絡是依據聲學概率計算權重,不需求查詢言語模型概率,因而解碼速度很快。 這樣的一個流程大致上就是語音辨認技術的主要原理。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1721

    瀏覽量

    112547
收藏 人收藏

    評論

    相關推薦

    基于語音識別技術的智能家居控制系統

    語音識別的智能控制系統是智能家居的重要組成部分,相比傳統的遙控或觸控方式,基于語音識別控制的智能家居系統通過人機語音交互的方式,實現對家居
    的頭像 發表于 11-19 17:25 ?318次閱讀
    基于<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術</b>的智能家居控制系統

    ASR與傳統語音識別的區別

    識別技術。 構建更深更復雜的神經網絡模型,利用大量數據進行訓練。 提高了語音識別的準確率和穩定性。 傳統語音
    的頭像 發表于 11-18 15:22 ?311次閱讀

    ASR語音識別技術應用

    ASR(Automatic Speech Recognition)語音識別技術,是計算機科學與人工智能領域的重要突破,能將人類語音轉換為文本,廣泛應用于智能家居、醫療、交通等多個領域。
    的頭像 發表于 11-18 15:12 ?300次閱讀

    什么是離線語音識別芯片?與在線語音識別的區別

    離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應快,無需聯網。在線語音識別功能更廣泛、識別準確率高,但依賴穩定網絡。
    的頭像 發表于 07-22 11:33 ?369次閱讀

    如何設計人臉識別的神經網絡

    人臉識別技術是一種基于人臉特征信息進行身份識別的技術,廣泛應用于安全監控、身份認證、智能門禁等領域。神經網絡是實現人臉識別的關鍵
    的頭像 發表于 07-04 09:20 ?570次閱讀

    語音識別的技術歷程及工作原理

    語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
    的頭像 發表于 03-22 16:58 ?2824次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別的</b><b class='flag-5'>技術</b>歷程及工作原理

    車內語音識別技術在智能駕駛中的應用與前景

    一、引言 隨著智能駕駛技術的快速發展,車內語音識別技術逐漸成為智能駕駛領域的研究熱點。語音識別
    的頭像 發表于 02-19 11:46 ?753次閱讀

    語音數據集:智能駕駛中車內語音識別技術的基石

    一、引言 在智能駕駛中,車內語音識別技術發揮著越來越重要的作用。語音數據集作為這一技術的基石,其質量和規模對
    的頭像 發表于 01-31 16:07 ?494次閱讀

    語音數據集:AI語音技術的靈魂

    提升語音識別和生成能力:語音數據集為AI模型提供了豐富的語音樣本,通過訓練和學習這些數據,AI可以更好地理解和模擬人類的語音特征,從而提高
    的頭像 發表于 12-14 14:33 ?979次閱讀

    離線語音識別與在線語音識別有什么不一樣?

    離線語音識別與在線語音識別有什么不一樣? 離線語音識別和在線
    的頭像 發表于 12-12 14:36 ?1158次閱讀

    情感語音識別的挑戰與未來趨勢

    一、引言 情感語音識別是一種通過分析和理解人類語音中的情感信息來實現智能交互的技術。盡管近年來取得了顯著的進步,但情感語音
    的頭像 發表于 11-30 11:24 ?508次閱讀

    情感語音識別的應用與挑戰

    一、引言 情感語音識別是一種通過分析人類語音中的情感信息實現智能化和個性化人機交互的技術。本文將探討情感語音
    的頭像 發表于 11-30 10:40 ?619次閱讀

    情感語音識別技術前沿與未來趨勢

    一、引言 情感語音識別是當前人工智能領域的前沿技術,它通過分析人類語音中的情感信息,實現更加智能化和個性化的人機交互。本文將探討情感語音
    的頭像 發表于 11-28 18:35 ?566次閱讀

    情感語音識別技術發展與挑戰

    一、引言 情感語音識別是人工智能領域的重要研究方向,它通過分析人類語音中的情感信息,實現人機之間的情感交互。本文將探討情感語音識別
    的頭像 發表于 11-28 18:26 ?622次閱讀

    情感語音識別的現狀與未來趨勢

    情感語音識別是一種涉及多個學科領域的前沿技術,包括心理學、語言學、計算機科學等。它通過分析人類語音中的情感信息,實現更加智能化和個性化的人機交互。本文將探討情感
    的頭像 發表于 11-28 17:22 ?754次閱讀