“因為啥子不可以辦銀行卡?”
——語音識別結果:“為啥不能辦理銀行卡?”
隨著科技的發展,語音識別技術不斷迭代,逐漸由普通話識別向多語種、方言以及混合語言識別的方向發展,語音識別效果顯著提升,滿足了多樣化的場景需求。
目前業界普遍采用的語音識別系統的核心主要由聲學模型、語言模型、解碼器三部分構成。語音識別的效果,離不開語音廠商對聲學模型、語言模型的不斷更新優化。
“千語千訓”是一套融合算法技術與工程服務創新的語音識別自動優化系統,可以將原本由算法工程師承擔的工作以自動化執行的方式完成,一方面可以將算法人員從重復性的工作中解放出來,另一方面,可提高語音識別效果、降低模型更新周期和成本。
思必馳依托于“千語千訓”系統,可以實現算法人員0人工介入,自動更新模型,實現語音識別系統更新頻率從周級到天級的提升。
自動化更新,三大法寶助力語音識別技術升級
影響語音識別效果的外部因素主要為說話人、周圍環境和收音設備,內在因素則是前端的信號處理、特征提取、聲學模型、語言模型,語音識別探索之路上,離不開對聲音模型、語言模型等模塊的訓練優化。
1)主動學習技術,有效篩選數據
目前,語音識別建模的主流方法是基于深度學習的有監督數據建模,這需要大量帶標注的數據供模型進行學習。
隨著海量訓練數據的應用,語音識別系統已經能夠較準確的識別常見語音。但對于“元宇宙”“數字藏品”“栓Q”等新興領域以及復雜環境下的語音,準確率尚待進一步提高。目前,業內常用的優化方法是及時將這類識別準確率不高的語音進行標注用以訓練模型,那么,該如何在海量的線上數據中尋找此類具有訓練價值的數據呢?
思必馳采用基于主動學習數據篩選的方法來解決上述問題。通過自監督學習、置信度和神經網絡預測等技術結合的方法,快速定位更具價值的數據,經專家標注后用于模型的優化迭代。這種方法既減少了優化模型所需的數據量,降低了成本,又提升了語音識別效果。
2)混合監督語音識別模型,低成本、高效益
語音識別模型準確率的提高,需要大量的有監督數據對模型進行優化訓練,但獲取此類有準確標注結果的數據費用較高,周期較長,一定程度上提高了優化語音識別系統的成本。
近年來,半監督訓練、自監督訓練等技術取得了良好的研究和應用成果,特別是在低資源識別場景中,能夠較為明顯的提升語音識別優化效果。思必馳融合了有監督、半監督、自監督等方法,提出混合監督優化方案,充分挖掘數據價值,持續優化語音識別模型,獲得更好的語音識別效果。
3)一站式自動化,語音識別系統高頻迭代
傳統上,語音識別系統中只有熱詞和定制語言模型部分可以通過自動化手段以較高頻率進行優化,而聲學模型等其它系統關鍵模塊則因為需要算法專家介入,難以高頻更新。
思必馳最新推出的“千語千訓”自動優化系統,是一款融合了基于主動學習的數據篩選、自動送標、混合監督聲學和語言模型訓練、自動化測試和上線發布等功能模塊的集成自動化方案。
“千語千訓”自動優化系統,全流程只有部分數據標注環節需要人員參與,其余流程均可以自動化完成,實現語音識別模型更新頻率從周級到天級的提升,及時優化時效熱點話術和難點場景,保證模型與時俱進。
穩扎穩打,語音識別技術碩果累累
在語音識別技術上,思必馳獲得業內多項肯定。
錢彥旻團隊的成果“魯棒語音信號模式分析與識別的深度結構化建模理論與方法”摘得吳文俊人工智能自然科學獎一等獎;思必馳-上海交大聯合團隊榮獲IWSLT 2022英中同聲傳譯冠軍;思必馳語音識別準確率高達98%(中國信息通信研究院檢測,報告編號:V21Y000005),并具有反饋速度快、快速定制、強魯棒性等優勢。
目前,思必馳語音識別技術除可以支持中文普通話外,還可以支持川、粵等十余種方言,以及英語等多種外語,廣泛落地于車載、家居、金融、辦公等領域。此外,思必馳推出DUI標注訓練一體化平臺,賦能客戶自主優化應用場景中的識別體驗。
時間的書頁不斷被掀開,AI發展日新月異。思必馳語音識別技術不斷邁向更準確、更豐富、更智能的道路。未來,思必馳將不斷優化語音識別鏈路策略,進一步縮短通用語音識別模型更新周期,滿足不斷發展的業務需要,支持更多場景領域。
審核編輯 黃昊宇
-
語音識別
+關注
關注
38文章
1721瀏覽量
112547 -
思必馳
+關注
關注
4文章
278瀏覽量
14269
發布評論請先 登錄
相關推薦
評論