在當下的汽車業(yè),語音基于其交互的自然性,被認為是未來人與車交互的主要入口路徑,以致業(yè)內(nèi)普遍認為,“以語音為入口連接各種服務(wù),構(gòu)建車聯(lián)網(wǎng)生態(tài)”。
作為人工智能應(yīng)用最成熟的技術(shù)之一,目前語音交互的核心環(huán)節(jié)也取得重大突破,語音識別環(huán)節(jié)突破了單點能力,從遠場識別,到語音分析和語義理解有了重大突破,呈現(xiàn)一種整體的交互方案。
不過,雖然大多數(shù)新車可以用語音開啟車載導(dǎo)航,設(shè)置行車路線,進行信息查詢,實現(xiàn)一些諸如空調(diào)、天窗等功能控制,但距離“以語音為入口連接各種服務(wù),構(gòu)建車聯(lián)網(wǎng)生態(tài)”的理想仍然較遠。
比如,在真實使用場景中,距離麥克風(fēng)的遠近、交談時是否說方言,以及噪音、斷句等,都會讓語音識別的準確率大打折扣。
目前,業(yè)內(nèi)普遍宣稱的97%識別準確率,更多的是人工測評結(jié)果,只在安靜室內(nèi)的近場識別中才能實現(xiàn)。
更難的是,在交互的過程中,機器對于語音的理解,以及人機多人的交互對話,都存在問題。
人在說話時,往往會一詞多義,人會基于已有知識儲備和上下文環(huán)境進行理解,但現(xiàn)在的智能語音技術(shù)很難做到。
它對于說話者的口誤,容錯做得也不理想。用戶往往會追求多樣性,包括使用過程中偶然狀況的多樣性以及場景的多樣性等,因此容錯技術(shù)顯得尤為重要。
顯然,目前智能語音的發(fā)展遠未成熟,有著巨大的提升空間。再加上智能語音技術(shù)的巨大市場空間,互聯(lián)網(wǎng)巨頭已經(jīng)爭相進入這一市場。
在中國,記者注意到,百度、阿里巴巴、騰訊等諸多互聯(lián)網(wǎng)巨頭已經(jīng)入局,并先后推出自己的產(chǎn)品,以搶得智能語音信息流入口先機。
隨著互聯(lián)網(wǎng)巨頭進軍智能語音領(lǐng)域,轉(zhuǎn)為全棧的語音技術(shù)創(chuàng)業(yè)公司,類似科大訊飛這樣的傳統(tǒng)智能語音技術(shù)巨頭的不可替代性也受到了不可忽視的打擊,更多這幾年新興的語音技術(shù)公司更是命運叵測。
互聯(lián)網(wǎng)巨頭雖然入場較晚,但憑借著自有的雄厚資金和互聯(lián)網(wǎng)行業(yè)的大數(shù)據(jù)資源,他們發(fā)展自家的人工智能技術(shù),迅速搶占智能語音市場。
那么,在未來的車聯(lián)網(wǎng)智能語音領(lǐng)域,誰將是主宰?
以百度為例,這家以搜索起家的互聯(lián)網(wǎng)巨頭,正在轉(zhuǎn)型為人工智能公司,并在通用技術(shù)、算法和平臺開發(fā)等領(lǐng)域發(fā)展,對話式AI操作系統(tǒng)百度DuerOS是其語音技術(shù)的重要平臺。
從2010年年開始百度就將智能語音作為戰(zhàn)略方向,如今,百度語音技術(shù)已經(jīng)形成從模型算法、開發(fā)組件、場景覆蓋到行業(yè)應(yīng)用的全鏈條。
2018年4月,北京車展上,博泰聯(lián)合開發(fā)搭載百度DuerOS的人工智能車機系統(tǒng)——東風(fēng)風(fēng)神WindLink3.0,在學(xué)習(xí)能力、計算能力和數(shù)據(jù)儲備上極具優(yōu)勢,可極快聽清并真正聽懂人復(fù)雜語言,并秒級提供用戶所需答案。
比如,只要用正常甚至很快的語速說“好熱”“幫我看看附近帶泳池和WIFI的酒店”,系統(tǒng)就可以自動調(diào)節(jié)空調(diào)溫度、搜索出對應(yīng)的結(jié)果,直接完成房間的預(yù)定,然后再導(dǎo)航到該酒店。
作為人工智能時代開放賦能的生態(tài)系統(tǒng),DuerOS通過自身三大核心技術(shù)“喚醒”你的車:讓車聽清你在說什么;讓車聽懂你想要什么;讓車滿足你所提出的需求。
互聯(lián)網(wǎng)巨頭之所以能夠在AI語音上發(fā)展如此迅速,跟其大多是市場驅(qū)動的企業(yè)有關(guān),明顯的特點就是他們有自己更好的產(chǎn)業(yè)落地環(huán)境,關(guān)注客戶,注重長期,由客戶需要驅(qū)動產(chǎn)品發(fā)展。
這正是傳統(tǒng)語音技術(shù)提供商所欠缺的。
比如百度擁有百度搜索,騰訊擁有微信、QQ及游戲等龐大的產(chǎn)業(yè)落地環(huán)境,而阿里擁有淘寶及其線下的零售店,所以在AI語音產(chǎn)業(yè)落地上,互聯(lián)網(wǎng)巨頭會更有優(yōu)勢。
而像科大訊飛這樣傳統(tǒng)語音技術(shù)提供商是由技術(shù)推動業(yè)務(wù)發(fā)展的企業(yè),產(chǎn)品開發(fā)期間并不知道最終用戶是否會使用,相對市場驅(qū)動來說具有較高風(fēng)險。
它以B to B模式和B to G模式為主,對全產(chǎn)業(yè)提供語音技術(shù),主要聚集在教育、司法、醫(yī)療、智慧城市等行業(yè)領(lǐng)域布局。2017年這些業(yè)務(wù)占公司營收的比例約為80%。
雖然車聯(lián)網(wǎng)也是科大訊飛發(fā)展方向之一,也取得了不小的成就,但未來要往前再走一步并不容易,需要它在語義識別方面的人工智能技術(shù)方面進一步突破。
人工智能本身是高度的資本密集型、知識密集型產(chǎn)業(yè)和數(shù)據(jù)密集型企業(yè),投入金額巨大,沒有足夠的數(shù)據(jù)、人員和資金,根本無法在核心賽道上堅持下來。
百度宣布語音技術(shù)全系列永久免費,包括近場語音識別、長語音識別、遠場語音識別、語音合成、語音喚醒等百度語音核心功能等,并且支持IOS、Android等多平臺接入。
這些百度人工智能開放平臺的核心基礎(chǔ)技術(shù),都是需要長年的純投入,不計回報,只有擁有其他大規(guī)模的獲利途徑,才能支撐這樣的研發(fā)投入和人才梯隊。
百度選擇了將平臺級技術(shù)開放出來之后,令整個行業(yè)都在加速,同時也終結(jié)了國內(nèi)基礎(chǔ)技術(shù)的重復(fù)投入。
類似于開源軟件,開放是一種戰(zhàn)略選擇,是領(lǐng)先者對于后來者的規(guī)范制定。行業(yè)后來者,必須與百度接軌,融入百度生態(tài)。
隨著互聯(lián)網(wǎng)巨頭在智能語音上面大范圍布局,如今在智能語音技術(shù)上它們都是使用自家的語音產(chǎn)品——阿里用自己的阿里YunOS語音識別技術(shù),騰訊的騰訊云也有自己的東西。
大客戶轉(zhuǎn)身成為競爭對手,而且他們有自身的現(xiàn)金流業(yè)務(wù)、場景、數(shù)據(jù)和用戶,他們會更有競爭優(yōu)勢,最終可能會在車聯(lián)網(wǎng)語音領(lǐng)域形成寡頭格局。如此,傳統(tǒng)智能語音技術(shù)企業(yè)可能被收編,也可能被消滅。
正是因為擔(dān)心這樣的結(jié)局發(fā)生,記者注意到,2017年11月,科大訊飛比較在意地宣傳騰訊的小Q機器人采用的是自己的語音識別技術(shù)。
或許在這方面,騰訊目前還并不強大,但趨勢已經(jīng)十分明顯。5月23日,騰訊董事會主席兼CEO馬化騰公開表示,為了抓住萬物互聯(lián)時代的機遇,騰訊近年來在語音識別、語義理解、計算機視覺等AI技術(shù)上投入大量的精力。
-
語音識別
+關(guān)注
關(guān)注
38文章
1725瀏覽量
112560 -
智能語音
+關(guān)注
關(guān)注
10文章
781瀏覽量
48713 -
科大訊飛
+關(guān)注
關(guān)注
19文章
789瀏覽量
61193
原文標題:語音識別蛋糕還在,科大訊飛懸了?
文章出處:【微信號:robot-1hjqr,微信公眾號:1號機器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論