語音識別技術的發展
與機器進行語音交流,讓它聽明白你在說什么。語音識別技術將人類這一曾經的夢想變成了現實。語音識別就好比“機器的聽覺系統”,該技術讓機器通過識別和理解,把語音信號轉變為相應的文本或命令。
在1952年的貝爾研究所,Davis等人研制了世界上第一個能識別10個英文數字發音的實驗系統。1960年英國的Denes等人研制了第一個計算機語音識別系統。
大規模的語音識別研究始于上世紀70年代以后,并在小詞匯量、孤立詞的識別方面取得了實質性的進展。上世紀80年代以后,語音識別研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。
同時,語音識別在研究思路上也發生了重大變化,由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型的技術思路。此外,業內有專家再次提出了將神經網絡技術引入語音識別問題的技術思路。
上世紀90年代以后,在語音識別的系統框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。比如,DARPA是在上世界70年代由美國國防部遠景研究計劃局資助的一項計劃,旨在支持語言理解系統的研究開發工作。進入上世紀90年代,DARPA計劃仍在持續進行中,其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。
我國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發展的階段。直至1973年,中國科學院聲學所開始了計算機語音識別。
進入上世紀80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數字信號技術的進一步發展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經過了多年的沉寂之后重又成為研究的熱點。在這種形式下,國內許多單位紛紛投入到這項研究工作中去。
1986年,語音識別作為智能計算機系統研究的一個重要組成部分而被專門列為研究課題。在“863”計劃的支持下,中國開始組織語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。自此,我國語音識別技術進入了一個新的發展階段。
自2009年以來,借助機器學習領域深度學習研究的發展以及大數據語料的積累,語音識別技術得到突飛猛進的發展。
將機器學習領域深度學習研究引入到語音識別聲學模型訓練,使用帶RBM預訓練的多層神經網絡,提高了聲學模型的準確率。在此方面,微軟公司的研究人員率先取得了突破性進展,他們使用深層神經網絡模型(DNN)后,語音識別錯誤率降低了30%,是近20年來語音識別技術方面最快的進步。
2009年前后,大多主流的語音識別解碼器已經采用基于有限狀態機(WFST)的解碼網絡,該解碼網絡可以把語言模型、詞典和聲學共享音字集統一集成為一個大的解碼網絡,提高了解碼的速度,為語音識別的實時應用提供了基礎。
隨著互聯網的快速發展,以及手機等移動終端的普及應用,可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規模語言模型和聲學模型成為可能。
在語音識別中,訓練數據的匹配和豐富性是推動系統性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數據時代的來臨,大規模語料資源的積累將提到戰略高度。
現如今,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯網公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。(雨田整理) 相關產品 siri
Siri技術來源于美國國防部高級研究規劃局所公布的CALO計劃:一個讓軍方簡化處理一些繁復庶務,并具學習、組織以及認知能力的數字助理,其所衍生出來的民用版軟件Siri虛擬個人助理。
Siri成立于2007年,最初是以文字聊天服務為主,隨后通過與語音識別廠商Nuance合作,Siri實現了語音識別功能。2010年,Siri被蘋果以2億美金收購。
Siri成為蘋果公司在其產品iPhone和iPad Air上應用的一項語音控制功能。Siri可以令iPhone和iPad Air變身為一臺智能化機器人。Siri支持自然語言輸入,并且可以調用系統自帶的天氣預報、日程安排、搜索資料等應用,還能夠不斷學習新的聲音和語調,提供對話式的應答。
Google Now
Google Now是谷歌隨安卓4.1系統同時推出的一款應用,它可以了解用戶的各種習慣和正在進行的動作,并利用所了解的資料來為用戶提供相關信息。
今年3月24日,谷歌宣布Google Now語音服務正式登陸Windows和Mac桌面版Chrome瀏覽器。
Google Now的應用會更加方便用戶收取電子郵件,當你接收到新郵件時,它就會自動彈出以便你查看。Google Now還推出了步行和行車里程記錄功能,這個計步器功能可通過Android設備的傳感器來統計用戶每月行駛的里程,包括步行和騎自行車的路程。
此外,Google Now增加了一些旅游和娛樂特色功能,包括:汽車租賃、演唱會門票和通勤共享方面的卡片;公共交通和電視節目的卡片進行改善,這些卡片現在可以聽音識別音樂和節目信息;用戶可以為新媒體節目的開播設定搜索提醒,同時還可以接收實時NCAA(美國大學體育協會)橄欖球比分。
百度語音
百度語音一般指百度語音搜索,是百度公司為廣大互聯網用戶提供的一種基于語音的搜索服務,用戶可以使用多種客戶端發起語音搜索,服務器端根據用戶的發出的語音請求,進行語音識別然后將檢索結果反饋給用戶。
百度語音搜索不僅提供一般的通用語音搜索服務,還有針對地圖用戶制定的特色搜索服務,后續還會有更多的個性化搜索和識別服務出現。
目前百度語音搜索以移動客戶端為主要平臺,內嵌于百度的其他產品中,比如掌上百度,百度手機地圖等,用戶可以在使用這些客戶端產品的同時體驗語音搜索,支持全部主流的手機操作系統。
微軟Cortana
Cortana是Windows Phone平臺下的虛擬語音助手,由游戲《光暈》中Cortana的聲優Jen Taylor配音,Cortana中文版又名“微軟小娜”。
微軟對Cortana的描述為“你手機上的私人助手,為你提供設置日歷項、建議、進程等更多幫助”,它能夠和你之間進行交互,并且盡可能的模擬人的說話語氣和思考方式跟你進行交流。此外圓形的圖標按鈕會隨著你手機的主題進行調整,如果說你設置了綠色的主題,那么Cortana就是綠色的圖標。
此外,你能夠通過開始屏幕或者設備上的搜索按鈕來呼出Cortana,Cortana采用一問一答的方式,它只有在你咨詢它的時候才會顯示足夠多的信息。
語音識別技術難點
語音識別成為爭奪焦點
據悉,全球范圍人工智能公司多專攻深度學習方向,而我國人工智能方向的200家左右的創業公司有超過70%的公司主攻圖像或語音識別這兩個分類。全球都有哪些公司在布局語音識別?他們的發展情況又如何?
其實,早在計算機發明之前,自動語音識別的設想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。最早的基于電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法概率加入語音識別中。
1960年代,人工神經網絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear PredicTIve Coding(LPC),及動態時間規整Dynamic TIme Warp技術。語音識別技術最重大的突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數學推理,經過Rabiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統Sphinx。
蘋果Siri
許多人認識語音識別可能還得歸功于蘋果鼎鼎大名的語音助手Siri。2011年蘋果將語音識別技術融入到iPhone 4S中并發布了Siri語音助理,不過Siri并不是蘋果研發的技術,而是收購成立于2007年的Siri Inc.這家公司獲得的技術。在iPhone4s發布以后,Siri的體驗并不理想,遭到了吐槽。因此,2013年蘋果又收購了Novauris Technologies。Novauris是一種可識別整個短語的語音識別技術,這種技術并非簡單識別單個詞句,而是試圖利用超過2.45億個短語的識別輔助理解上下文,這讓Siri的功能進一步完善。
不過Siri并沒有因為收購Novauris變得完美,2016年蘋果又收購了開發的人工智能軟件,能夠幫助計算機與用戶進行更為自然的對話英國語音技術初創公司VocalIQ。隨后,蘋果還收購了美國圣地牙哥AI技術公司EmoTIent,接收其臉部表情分析與情緒辨別技術。據悉,EmoTIent開發的情緒引擎可讀取人們的面部表情并且預測其情緒狀態。
谷歌Google Now
與蘋果Siri類似,谷歌的Google Now知名度也比較高。不過相比蘋果谷歌在語音識別領域的動作稍顯遲緩。2011年谷歌才出手收購語音通信公司SayNow和語音合成公司Phonetic Arts。SayNow可以把語音通信、點對點對話、以及群組通話和Facebook、Twitter、MySpace、Android和iPhone等等應用等整合在一起,而Phonetic Arts可以把錄制的語音對話轉化成語音庫,然后把這些聲音結合到一起,從而生成聽上去非常逼真的人聲對話。
2012年的Google I/O開發者大會上,Google Now第一次亮相。
2013年谷歌又以超過3000萬美元收購了新聞閱讀應用開發商Wavii。Wavii擅長“自然語言處理”技術,可以通過掃描互聯網發現新聞,并直接給出一句話摘要及鏈接。之后,谷歌又收購了SR Tech Group的多項語音識別相關的專利,這些技術和專利谷歌也很快應用到市場,比如YouTube已提供標題自動語音轉錄支持,Google Glass使用了語音控制技術,Android也整合了語音識別技術等等,Google Now更是擁有了完整的語音識別引擎。
谷歌可能出于戰略布局方面的考慮,2015年入資了中國的出門問問,這是一款以語音導航為主的公司,最近也發布了智能手表,出門問問也有國內著名聲學器件廠商歌爾聲學的背景。
微軟Cortana小冰
微軟語音識別最吸引眼球的就是Cortana和小冰。Cortana是微軟在機器學習和人工智能領域方面的嘗試,Cortana可以記錄用戶的行為和使用習慣,利用云計算、搜索引擎和“非結構化數據”分析,讀取和學習包括手機中的圖片、視頻、電子郵件等數據理解用戶的語義和語境,從而實現人機交互。
微軟小冰是微軟亞洲研究院2014年發布的人工智能機器人,微軟小冰除了智能對話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點評等實用技能。
除了Cortana和微軟小冰,Skype Translator,可以為英語、西班牙語、漢語、意大利語用戶提供實時翻譯服務。
Amazon的語音技術起步于2011年收購語音識別公司Yap,Yap成立于2006年,主要提供語音轉換文本的服務。2012年Amazon又收購了語音技術公司Evi,繼續加強語音識別在商品搜索方面的應用,Evi也曾經應用過Nuance的語音識別技術。2013年,Amazon繼續收購Ivona Software,Ivona是一家波蘭公司,主要做文本語音轉換,其技術已被應用在Kindle Fire的文本至語音轉換功能、語音命令和Explore by Touch應用之中,Amazon智能音箱Echo也是利用了這項技術。
Facebook在2013年收購了創業型語音識別公司Mobile Technologies,其產品Jibbigo允許用戶在25種語言中進行選擇,使用其中一種語言進行語音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,同時根據選擇的語言大聲朗讀出來。這一技術使得Jibbigo成為出國旅游的常用工具,很好地代替了常用語手冊。
之后,Facebook繼續收購了語音交互解決方案服務商Wit.ai。Wit.ai的解決方案允許用戶直接通過語音來控制移動應用程序、穿戴設備和機器人,以及幾乎任何智能設備。Facebook的希望將這種技術應用到定向廣告之中,將技術和自己的商業模式緊密結合在一起。
傳統語音識別行業貴族Nuance
除了以上介紹的大家熟知的科技巨頭的語音識別發展情況,傳統語音識別行業貴族Nuance也值得了解。Nuance曾經在語音領域一統江湖,世界上有超過80%的語音識別都用過Nuance識別引擎技術,其語音產品可以支持超過50種語言,在全球擁有超過20億用戶,幾乎壟斷了金融和電信行業。現在,Nuance依舊是全球最大的語音技術公司,掌握著全球最多的語音技術專利。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心,剛開始都是采用他們的語音識別引擎技術。
不過由于Nuance有點過于自大,現在的Nuance已經不如當年了。
國外其他語音識別公司
2013年英特爾收購了西班牙的語音識別技術公司Indisys,同年雅虎收購了自然語言處理技術初創公司SkyPhrase。而美國最大的有線電視公司Comcast也開始推出自己的語音識別交互系統。Comcast希望利用語音識別技術讓用戶通過語音就可以更自由控制電視,并完成一些遙控器無法完成的事情。
國內語音識別廠商
科大訊飛
科大訊飛成立于1999年底,依靠中科大的語音處理技術以及國家的大力扶持,很快就走上了正軌。科大訊飛2008年掛牌上市,目前市值接近500億,根據2014年語音產業聯盟的數據調查顯示,科大訊飛占據了超過60%的市場份額,絕對是語音技術的國內龍頭企業。
提到科大訊飛,大家可能想到的都是語音識別,但其實它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啟明科技等,對教育市場形成了壟斷,經過一系列的收購后,目前所有省份的口語評測用的都是科大訊飛的引擎,由于其占據了考試的制高點,所有的學校及家長都愿意為其買單。
百度語音
百度語音很早就被確立為戰略方向,2010年與中科院聲學所合作研發語音識別技術,但是市場發展相對緩慢。直到2014年,百度重新梳理了戰略,請來了人工智能領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術,由于有百度強大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場份額,其技術實力已經可以和擁有十多年技術與經驗積累的科大訊飛相提并論。
捷通和信利
捷通華聲憑借的是清華技術,成立初期力邀中科院聲學所的呂士楠老先生加入,奠定了語音合成的基礎。中科信利則完全依托于中科院聲學所,其成立初期技術實力極為雄厚,不僅為國內語音識別行業培養了大量人才,而且也在行業領域,特別是軍工領域發揮著至關重要的作用。
中科院聲學所培養的這些人才,對于國內語音識別行業的發展極為重要,姑且稱之為聲學系,但是相對于市場來說,這兩家公司已經落后了科大訊飛一大段距離。中科信利由于還有行業市場背景,目前基本上不再參與市場運作,而捷通華聲最近也因為南大電子“嬌嬌”機器人的造假事件被推上了風口浪尖,著實是一個非常負面的影響。
思必馳
2009年前后,DNN被用于語音識別領域,語音識別率得到大幅提升,識別率突破90%,達到商用標準,這極大的推動了語音識別領域的發展,這幾年內又先后成立許多語音識別相關的創業公司。
思必馳2007年成立,創始人大部分來源于劍橋團隊,其技術有一定的國外基礎,當時公司主要側重于語音評測,也就是教育,但經過多年的發展,雖然占有了一些市場,但在科大訊飛把持著考試制高點的情況下,也很難得到突破。
于是在2014年的時候,思必馳痛下決心將負責教育行業的部門剝離,以9000萬賣給了網龍,自己則把精力收縮專注智能硬件和移動互聯網,最近更是集中精力聚焦車載語音助手,推出了“蘿卜”,可市場反響非常一般。
云知聲
借著2011年蘋果Siri的宣傳勢頭,2012年云知聲成立。云知聲團隊主要來源于盛大研究院,湊巧的是CEO和CTO也是中科大畢業,與科大訊飛可以說是師兄弟。但語音識別技術則更多的源于中科院自動化所,其語音識別技術有一定的獨到之處,有一小段時期內語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達到3億,主要瞄準智能家居市場。但至今已經成立了3年多,聽到的更多是宣傳,市場發展較為緩慢,B2B市場始終不見起色,B2C市場也很少聽到實際應用,估計目前還處在燒錢階段。
出門問問
出門問問成立于2012年,其CEO曾經在谷歌工作,在拿到紅杉資本和真格基金的天使投資之后,從谷歌辭職創辦了上海羽扇智信息科技有限公司,并立志打造下一代移動語音搜索產品————“出門問問”。
出門問問的成功之處便是蘋果APP的榜單排名,但是筆者不知道有那么多內置地圖的情況下,為啥還要下載這個軟件,顯然有時候比直接查找地圖還要麻煩。出門問問同樣也具有較強的融資能力,2015年拿到了Google的C輪融資,融資額累計已經7500萬美元。出門問問主要瞄準可穿戴市場,最近自己也推出了智能手表等產品,但也是雷聲大,雨點小,沒見得其智能手表的銷量如何。
國內其他的語音識別公司
語音識別的門檻并不高,因此國內各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎,但很快就搭建起自己的語音識別引擎,主要應用于搜狗輸入法,效果也還可以。
騰訊當然不會落后,微信也建立了自己語音識別引擎,用于將語音轉換為文字,但這個做的還是有點差距。
阿里,愛奇藝,360,樂視等等也都在搭建自己的語音識別引擎,但這些大公司更多的是自研自用,基本上技術上泛善可陳,業界也沒有什么影響力。
當然,除了以上介紹的產業界的語音識別公司,學術界Cambridge的HTK工具對學術界研究推動巨大,還有CMU、SRI、MIT、RWTH、ATR等同樣推動語音識別技術的發展。
-
百度
+關注
關注
9文章
2258瀏覽量
90270 -
智能語音
+關注
關注
10文章
781瀏覽量
48714 -
科大訊飛
+關注
關注
19文章
789瀏覽量
61195 -
Siri
+關注
關注
4文章
206瀏覽量
37004
發布評論請先 登錄
相關推薦
評論