人工智能行業(yè)產(chǎn)業(yè)鏈情況及市場規(guī)模
人工智能產(chǎn)業(yè)鏈包括基礎(chǔ)層、技術(shù)層、應(yīng)用層。基礎(chǔ)層是人工智能產(chǎn)業(yè)的基礎(chǔ),主要有AI芯片、傳感器、云計算平臺等,為人工智能提供算力與數(shù)據(jù)的支持;技術(shù)層包括感知層、認知層、平臺層,感知層以算法模擬人的感知來構(gòu)建技術(shù)路徑,可分類為計算機視覺、語音、觸感和味覺等,認知層以算法模擬人的認知,使機器具備理解、學(xué)習(xí)、推理以及思考的能力,平臺層主要為技術(shù)開放平臺與基礎(chǔ)開源框架,為人工智能技術(shù)提供平臺支持;應(yīng)用層將人工智能技術(shù)落地到具體的應(yīng)用場景,根據(jù)不同需求形成具體的軟硬件產(chǎn)品與解決方案。
? ? ? ? ?
從技術(shù)應(yīng)用看,根據(jù)中國新一代人工智能發(fā)展戰(zhàn)略研究院2021年的研究,中國2205家人工智能企業(yè)中,涉及基礎(chǔ)層和技術(shù)層的人工智能企業(yè)共有382家。其中,智能芯片、語音識別和自然語言處理、圖形圖像識別、機器學(xué)習(xí)和推薦、工業(yè)機器人、硬件的企業(yè)數(shù)占比相對較高,依次為8.90%、8.64%、7.59%、5.76%、4.97%和3.66%。
從應(yīng)用場景看,根據(jù)艾瑞咨詢的研究,2020年中國人工智能市場的主要應(yīng)用場景為政府城市冶理和運營(公安、交警、司法、城市運營、政務(wù)、交運管理、國土資源、監(jiān)所、環(huán)保等)、互聯(lián)網(wǎng)、金融,合計占比達到79%。而隨著人工智能行業(yè)核心技術(shù)的增速不同,不同下游行業(yè)對人工智能技術(shù)和產(chǎn)品的應(yīng)用節(jié)奏不同,未來行業(yè)格局將會發(fā)生一定變化。
2020年,中國提出加快包括大數(shù)據(jù)中心、人工智能等在內(nèi)的新型基礎(chǔ)設(shè)施建設(shè),推動產(chǎn)業(yè)信息化、數(shù)字化、智能化轉(zhuǎn)型發(fā)展。由于非接觸式交互逐漸興起,人工智能融合應(yīng)用速度顯著加快。根據(jù)艾瑞咨詢預(yù)測,2025年,人工智能核心產(chǎn)業(yè)規(guī)模預(yù)計達到4,532.6億元;2025年,人工智能帶動產(chǎn)業(yè)規(guī)模預(yù)計達到16,648.3億元。
人工智能語音語言行業(yè)基本概述
1)定義
人工智能語音語言技術(shù)即實現(xiàn)人與機器以語言為紐帶的信息處理技術(shù),人機對話通過對聲音信號的音頻采集與信號處理將語音轉(zhuǎn)化為文字供機器處理,在機器進行語音識別與語義理解后、再進行對話管理、自然語言生成并通過語音合成技術(shù)將文本語言轉(zhuǎn)化為聲音進行輸出,最終形成完整的人機語音語言交互。
2)發(fā)展歷程
1952年,AT&T貝爾實驗室成功研究出世界上第一個語音識別系統(tǒng)Audry,標志著智能語音語言技術(shù)發(fā)展的開始。至今智能語音語言技術(shù)已經(jīng)歷經(jīng)了近70年的發(fā)展,經(jīng)歷了技術(shù)萌芽期、起步期、變革式發(fā)展期、落地可用期共四個發(fā)展階段。
技術(shù)萌芽期(1950s-1970s):Audry作為第一個語音識別系統(tǒng),可以識別10個英文數(shù)字發(fā)音,該系統(tǒng)基于簡單的模板匹配方法識別個體說出的孤立數(shù)字,在此之后,連續(xù)語音識別系統(tǒng)開始出現(xiàn)。語音合成的參數(shù)合成法能生成比較自然的語音。同一時代,以有限自動機和正則匹配理論為基礎(chǔ)的文字處理技術(shù)出現(xiàn)。以喬姆斯基的文法和句法結(jié)構(gòu)為代表的理性主義方法,和以香農(nóng)信息論為代表的經(jīng)驗主義方法都發(fā)展起來。出現(xiàn)了一些極為簡單的翻譯、問答和聊天系統(tǒng),但都無法實用。
起步期(1980s-2011):在此階段初期,隨著算法模型以及微電子技術(shù)的發(fā)展,語音識別領(lǐng)域取得了突破性進展。隱馬爾科夫模型(HMM)逐漸成熟和不斷完善,開始成為語音識別的主流方法,語音識別轉(zhuǎn)向基于概率統(tǒng)計建模的方法,同時神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究興起。此后語音識別技術(shù)逐漸走向?qū)嵱没S多具有代表性的產(chǎn)品問世,例如IBM研發(fā)的ViaVoice系統(tǒng),Dragon公司研發(fā)的DragonDictate系統(tǒng),都具有更好的自適應(yīng)性,能夠在使用過程中不斷提高識別準確率。2009年,Hinton將深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用于語音的聲學(xué)建模,取得了在語音識別方面的重大突破,使語音識別的準確性得到顯著改善。與語音技術(shù)基本同步,這一時期的自然語言處理技術(shù)的發(fā)展,也出現(xiàn)了數(shù)據(jù)驅(qū)動的統(tǒng)計模型逐漸占據(jù)主流地位的趨勢。從概率模型到支持向量機,從線性分類器到神經(jīng)網(wǎng)絡(luò),大量數(shù)據(jù)驅(qū)動的技術(shù)被應(yīng)用到自然語言處理領(lǐng)域,產(chǎn)生了一系列重大成果。這一階段中,理解、翻譯、問答、對話系統(tǒng)等都在限定的范圍內(nèi)逐步實用化。
變革式發(fā)展期(2011-2016):2011年,微軟研究院又將DNN技術(shù)應(yīng)用在大詞匯量連續(xù)語音識別任務(wù)上,極大地降低了語音識別錯誤率。2016年,微軟AI團隊在產(chǎn)業(yè)標準Switchboard語音識別任務(wù)上,取得了當(dāng)時產(chǎn)業(yè)中最低的5.9%的詞錯率(WER),5.9%的詞錯率等同于專業(yè)速錄員速記同樣一段對話的水平,這代表著機器的語音識別準確率第一次達到人類水平,智能語音語言技術(shù)開始逐步落地。這一時期中,以連續(xù)詞向量、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型為代表的一系列深度學(xué)習(xí)技術(shù),進一步大幅推動了自然語言處理技術(shù)的發(fā)展,復(fù)雜場景下的自然語言處理的性能顯著改善。
落地可用期(2016-至今):端到端的語音識別開始廣泛應(yīng)用,準確率進一步提升,且針對遠場的語音識別和喚醒得到進一步發(fā)展,全雙工語音交互開始出現(xiàn)。此階段語音識別的準確率可達98%以上,且能根據(jù)實際應(yīng)用痛點針對性優(yōu)化。大數(shù)據(jù)驅(qū)動的預(yù)訓(xùn)練語言模型的出現(xiàn),使得自然語言處理技術(shù)在這一階段又上了一個臺階,眾多小數(shù)據(jù)、跨領(lǐng)域的遷移學(xué)習(xí)技術(shù)也應(yīng)運而生,自然語言處理的技術(shù)覆蓋范圍進一步加強,在產(chǎn)業(yè)中得到廣泛深入使用。
人工智能語音語言市場產(chǎn)業(yè)鏈情況
人工智能語音語言市場的產(chǎn)業(yè)鏈可依據(jù)關(guān)鍵技術(shù)拆分為六大環(huán)節(jié),各個環(huán)節(jié)又可以進一步歸集為聲學(xué)、語音感知、語言認知三大模塊。音頻采集與信號處理環(huán)節(jié)是智能語音語言交互的起點,當(dāng)前的核心在于回聲消除、噪聲消除、聲源分離、提升遠場和復(fù)雜聲學(xué)環(huán)境下語音喚醒和識別的準確率等關(guān)鍵技術(shù);語音識別是把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或音頻類別的過程,當(dāng)前的核心在于聲紋技術(shù)、口音適應(yīng)能力、情緒識別能力、端到端識別、低功耗識別等;語義理解是通過自然語言處理等方式使機器理解語言的過程,當(dāng)前的核心在于口語語義理解問題、對話關(guān)鍵信息抽取、知識提取及結(jié)構(gòu)化等;而對話管理是以多輪交互為核心的一系列自然語言認知技術(shù)的綜合,是人機對話系統(tǒng)中的理解、決策和知識中樞,當(dāng)前的核心在于實現(xiàn)多模態(tài)、全雙工交互,增強機器在多任務(wù)、全場景、全領(lǐng)域的靈活對話能力;知識圖譜是現(xiàn)實世界知識的一種表達方式,當(dāng)前的核心在于知識圖譜構(gòu)建、問答推理等;語音合成即從文本到語音,讓機器具備“說話”的能力,當(dāng)前的核心在于使機器能夠?qū)崿F(xiàn)自然聲音、高表現(xiàn)力、小數(shù)據(jù)復(fù)刻轉(zhuǎn)換,以及方言及多語種的語音表達。
人工智能語音語言行業(yè)內(nèi)的大部分公司只專注于產(chǎn)業(yè)鏈的單個或部分環(huán)節(jié),少有公司能擁有覆蓋產(chǎn)業(yè)鏈各環(huán)節(jié)的技術(shù)、產(chǎn)品與服務(wù),當(dāng)前國內(nèi)人工智能語音語言行業(yè)的公司大約有400余家,僅有極少數(shù)可以實現(xiàn)全產(chǎn)業(yè)鏈覆蓋。
行業(yè)結(jié)構(gòu)
據(jù)德勤2021年的研究,在大環(huán)境需求的催化下,各行業(yè)智能化應(yīng)用迎來需求拐點,進入需求爆發(fā)期。預(yù)計2030年消費級應(yīng)用場景總的發(fā)展空間將超過700億元。智能家居、智慧駕駛、智能辦公等企業(yè)級場景加速發(fā)展,市場需求不斷擴大,發(fā)展空間預(yù)計即將達到千億規(guī)模。
智能語音語言技術(shù)使得人類的生產(chǎn)及生活方式逐步改變,基于智能語音語言技術(shù)的人機交互產(chǎn)品在接收用戶的聲音等信息后,能將用戶意圖轉(zhuǎn)換為機器可以理解和進一步處理的內(nèi)容,從而幫助用戶解決問題或完成特定任務(wù)。其中,對話式機器人可以降低人力成本,減輕人工工作量,提高工作效率,解決用戶客服、營銷、質(zhì)檢、呼入、呼出等需求;搭載人機對話交互功能的消費級智能硬件,例如智能家電、智能車載、智能可穿戴設(shè)備等,能夠通過語音語言交互的方式,提供更豐富的設(shè)備交互功能,提升設(shè)備操控便捷性。根據(jù)德勤2021年末發(fā)布的《中國智能語音市場分析》,2021年中國智能語音市場規(guī)模將達到285億元,較2020年的217億元增長31.34%,預(yù)計在2030年市場規(guī)模將達到1,452億元。
除智能語音市場外,發(fā)行人產(chǎn)品下游市場還包括智能家居、智能汽車、消費電子、企業(yè)服務(wù)和智慧城市等多個領(lǐng)域,相關(guān)領(lǐng)域的市場空間具體如下:智能家居是智能語音應(yīng)用的主要領(lǐng)域之一,隨著物聯(lián)網(wǎng)、人工智能等技術(shù)的快速發(fā)展,智能語音在家居領(lǐng)域的應(yīng)用將進一步提速。2017-2021年中國智能家居市場規(guī)模不斷增長,2021年預(yù)估突破5,800億元,2022年將超過6,500億元,將帶動智能語音市場的持續(xù)提升。
2020年我國智能語音在消費電子領(lǐng)域的應(yīng)用市場規(guī)模達到43.6億元,占比近1/3。未來消費電子仍然是智能語音占比最高的行業(yè)領(lǐng)域,2021年智能語音在消費電子行業(yè)的市場規(guī)模達到約56.5億元,增長率約為30%。
2021年我國智能硬件的AI語音助手算法的產(chǎn)值已達到34億元,預(yù)計2026年相關(guān)產(chǎn)值規(guī)模將達到155億元,2021年至2026年的CAGR為35.4%。
2020年中國智能網(wǎng)聯(lián)車市場滲透率已經(jīng)達到49%,根據(jù)IHSMarkit的預(yù)測,2025年中國智能網(wǎng)聯(lián)車滲透率將超過75%,進一步推動智能語音在汽車領(lǐng)域的應(yīng)用。
2020年中國智能客服行業(yè)市場規(guī)模約為30.1億元,伴隨智能化價值深化,2025年中國智能客服市場規(guī)模預(yù)計將突破100億元,5年CAGR達35.8%,行業(yè)呈現(xiàn)快速增長態(tài)勢。
智能語音語言行業(yè)在新技術(shù)方面的發(fā)展情況和未來發(fā)展趨勢
近年來,行業(yè)內(nèi)智能語音語言算法不斷更新迭代,基礎(chǔ)性能持續(xù)增強,通用識別準確率等已不再是智能語音語言行業(yè)發(fā)展的核心挑戰(zhàn),語音語言技術(shù)逐步由以語音感知為主,向綜合感知、認知、知識計算的全鏈路對話系統(tǒng)方向拓展。
關(guān)鍵基礎(chǔ)算法層面,在可控環(huán)境和簡單結(jié)構(gòu)化知識源條件下,語音及語言處理技術(shù)的性能已經(jīng)表現(xiàn)良好,達到產(chǎn)業(yè)化水平,但在復(fù)雜真實環(huán)境和自然非結(jié)構(gòu)化語言及知識處理方面,與產(chǎn)業(yè)需求仍然有不小差距。例如,在遠場、高噪聲、多人會議場景下的自由語音識別準確率還有待提升,知識型的開放問答和語義理解對話尚無通用模型。因此,在感知技術(shù)方面,業(yè)內(nèi)研究逐步轉(zhuǎn)向聚焦突破高噪聲、多干擾、端側(cè)低資源等真實復(fù)雜自然場景;在認知及知識計算方面,聚焦理解式的知識問答、對話理解及管理技術(shù),以及專業(yè)領(lǐng)域的深度知識結(jié)構(gòu)化,進一步增強面向垂直領(lǐng)域信息智能化的知識圖譜、對話問答、閱讀理解、翻譯等能力。
另一方面,個性化、場景定制化、私有化部署等需求已經(jīng)成為傳統(tǒng)產(chǎn)業(yè)進行智能化改造和數(shù)字化升級的普遍需求,比如個性化的聲音復(fù)刻、新語義領(lǐng)域的問答對話、為保護隱私的私有化識別部署等。支撐這一需求的小數(shù)據(jù)遷移學(xué)習(xí)和自主學(xué)習(xí)算法及其在語音語言處理各個領(lǐng)域的結(jié)合,也是智能語音及語言行業(yè)算法技術(shù)發(fā)展的趨勢。
1)全雙工語音出現(xiàn),人機交互朝著更自然、更順暢的方向發(fā)展
全雙工是通信學(xué)科中的一個術(shù)語,意為允許數(shù)據(jù)在兩個方向上同時傳輸,應(yīng)用在智能語音語言行業(yè),即為實時的、雙向的語音信息的交互,這是人們進行即興自由交互情境下的對話模式。目前市場上大部分產(chǎn)品只能滿足單輪交互或多輪交互,單輪交互的情景下,用戶每次都需要使用喚醒詞開啟交互,使得人機對話非常割裂;多輪交互的情景下,用戶只需一次喚醒,在機器判斷任務(wù)尚未完成時,會持續(xù)的接收用戶發(fā)出的語音信息,待到機器判斷單次任務(wù)完成后,再綜合信息進行分析并做出回應(yīng),但在多輪交互中機器仍不能做到接收信息和發(fā)出語音同步進行。區(qū)別于單輪交互與多輪交互,全雙工可以做到“邊聽、邊想、邊說”,在接收語音信息的同時進行思考,并實現(xiàn)動態(tài)的預(yù)估,進而以更快的速度進行回答,使人機交互更自然、更流暢;同時,全雙工語音還可做到節(jié)奏控制,根據(jù)用戶回答內(nèi)容的重要性,決定打斷還是繼續(xù)傾聽,是先完成上一個問題還是先回答用戶的追加問題;此外,全雙工語音還能進行場景理解,識別用戶當(dāng)前是否在與AI進行對話,并根據(jù)不同對象、不同場景進行音量、語氣等方面的調(diào)節(jié)。未來,智能語音語言的應(yīng)用場景越發(fā)多樣化,應(yīng)對的環(huán)境狀況越發(fā)復(fù)雜,全雙工語音的優(yōu)勢將會越發(fā)凸顯,并成為智能語音語言行業(yè)的主流交互方式。
2)優(yōu)化人機交互體驗,多模態(tài)交互成為必然趨勢
人類在交互過程中并非孤立地依據(jù)聲音、表情及動作中的單項進行溝通與交流,而是綜合視覺、聽覺、觸覺甚至嗅覺來進行有效的溝通。同理,要使機器做到更加逼真的“擬人化”,就需要通過語音、視覺、文本等信息結(jié)合的方式來推動人機交互的優(yōu)化與升級。例如,在復(fù)雜聲學(xué)環(huán)境尤其是多人同時說話的時候,語音識別性能會顯著下降,此時若引入視覺信息對講話者進行唇語識別,綜合語音和視頻信息則可以大幅提升說話人跟蹤和語音識別準確率;又例如,在人機交互過程中,機器通過采集用戶的表情、說話語氣,甚至腳步的頻率和急緩程度,可以分析用戶的情緒狀態(tài),以采用不同的方式推進交互,提高人機交互的交互效率與質(zhì)量。應(yīng)對人機交互場景化應(yīng)用不斷拓展的市場需求,多模態(tài)、智能化的完整解決方案可以更好地應(yīng)對不同場景的復(fù)雜變化,多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢。
3)芯片研發(fā)日益關(guān)鍵,端側(cè)智能與云側(cè)智能雙輪驅(qū)動
AI深度應(yīng)用目前基于深度學(xué)習(xí)的智能算法通常運行于具有強大計算能力的云計算中心,而相比于云計算,邊緣計算將資源和服務(wù)下沉到網(wǎng)絡(luò)邊緣端,從而帶來更低的帶寬占用、更低的時延、更高的能效和更好的隱私保護。隨著移動終端設(shè)備的普及率越來越高,未來行業(yè)將逐步將人工智能模型全部或分布式的部署到資源受限的終端設(shè)備上,與云側(cè)智能協(xié)同。同時,結(jié)合感知硬件和計算模組的軟硬一體化解決方案,也成為人工智能軟件算法技術(shù)落地優(yōu)化的趨勢。軟硬一體化的方案將更容易提升人工智能用戶的最終體驗,更好解決AI落地的“最后一公里”問題。軟硬一體化的重要形態(tài)就是專用人工智能芯片。專用芯片往往是場景化或針對特定功能的,成本和效率大大優(yōu)于通用芯片,可以進一步提高產(chǎn)品端側(cè)的計算效率,并提升針對特定應(yīng)用場景的優(yōu)化適應(yīng)能力。未來,人工智能語音芯片的發(fā)展將進一步推動智能語音語言產(chǎn)品在各垂直行業(yè)領(lǐng)域商業(yè)化落地。
4)以對話交互為核心的認知和知識計算成為智能信息服務(wù)的重要技術(shù)趨勢
基于知識交互的認知智能是信息服務(wù)智能化的核心技術(shù),在智能客服、教育、辦公、金融、政務(wù)、醫(yī)療等各個垂直領(lǐng)域的數(shù)字化轉(zhuǎn)型中具有重要作用。在各類智能信息軟硬件爆發(fā)式增長的大背景下,對話式語言認知智能,尤其是對話理解和管理技術(shù),將成為感知與認知系統(tǒng)級融合的關(guān)鍵技術(shù),極大影響用戶體驗。另一方面,針對垂直領(lǐng)域的復(fù)雜結(jié)構(gòu)化數(shù)據(jù)庫、各類知識文檔等多種形態(tài)的原始知識源,進行知識結(jié)構(gòu)化和知識圖譜構(gòu)建,形成可控人機理解式交互的知識源,支撐知識問答和對話,支持人類決策,將是面向信息服務(wù)智能化的知識計算的發(fā)展方向。
5)系統(tǒng)級的大規(guī)模場景化柔性定制成為賦能傳統(tǒng)產(chǎn)業(yè)的關(guān)鍵
由于人工智能賦能產(chǎn)業(yè)過程中的場景化定制需求巨大,當(dāng)前智能語音語言行業(yè)的公司逐步由向硬件設(shè)備廠商提供單一技術(shù)授權(quán)或單點技術(shù)的項目制開發(fā)等商業(yè)模式,逐步轉(zhuǎn)向以最終用戶體驗為目標的輕量化需求產(chǎn)品的快速迭代、規(guī)模化定制開發(fā)和軟硬一體化,通過提供人工智能芯片及模組、智能語音及語言技術(shù)定制接口、業(yè)務(wù)級對話技能開發(fā)以及靈活的知識資源庫等智能語音語言的全鏈路柔性定制方案,增加技術(shù)輸出的厚度,擴大技術(shù)輸出的邊界,增加下游產(chǎn)業(yè)的粘性,形成生態(tài)優(yōu)勢。
智能語音語言行業(yè)在新產(chǎn)業(yè)、新業(yè)態(tài)方面的發(fā)展情況和未來發(fā)展趨勢
數(shù)字化轉(zhuǎn)型催生了兩個重要趨勢,一是智能信息硬件的大量出現(xiàn)和快速普及,二是各類生產(chǎn)、生活、治理場景的數(shù)字化過程中產(chǎn)生了海量的知識信息。語音及語言技術(shù),作為連接人與智能設(shè)備、進行知識信息服務(wù)處理的核心人工智能技術(shù),在這兩個趨勢下發(fā)展前景廣闊。近年來,人工智能語音語言技術(shù)與生產(chǎn)、生活和社會治理深度融合,不斷推動經(jīng)濟社會數(shù)字化轉(zhuǎn)型。智能語音語言技術(shù)產(chǎn)業(yè)化的程度進一步加深,應(yīng)用場景不斷擴展,在汽車、家居、金融、教育、醫(yī)療、公共衛(wèi)生、政務(wù)等領(lǐng)域均應(yīng)用廣泛,并形成了全新的產(chǎn)業(yè)鏈條。同時,隨著智能語音語言技術(shù)的各項應(yīng)用逐漸落地,用戶對產(chǎn)品的使用逐步深化,人們對智能語音語言產(chǎn)品產(chǎn)生更多的期望,未來智能語音語言行業(yè)的發(fā)展將會更加聚焦在使用體驗上,智能語音語言產(chǎn)品將朝著更加智能、更加人性化的方向發(fā)展,各類應(yīng)用從單向指標的不斷優(yōu)化過渡到重視整體商業(yè)落地性能。例如,從追求語音識別的高準確率到關(guān)注產(chǎn)業(yè)化場景應(yīng)用能力、整體運行穩(wěn)定性、響應(yīng)速率等。
1)智能硬件終端
根據(jù)艾瑞咨詢的研究,2020年在我國各類智能硬件中,以本地或云端算法形式及語音AI芯片硬件形式提供語音交互能力的市場規(guī)模達到31.4億元,到2025年將突破138億元,2019-2025年CAGR為35.2%。隨著智能物聯(lián)網(wǎng)(AIoT)產(chǎn)業(yè)發(fā)展,到2025年,65%以上的家庭將擁有智能音箱、智能機器人、智能面板等各形態(tài)的AI管家,未來搭載語音交互能力的硬件設(shè)備總量將非常可觀、潛力巨大。
語音作為人類最便捷、自然的溝通方式,是物聯(lián)網(wǎng)人機交互的最佳入口。人工智能語音語言技術(shù)與物聯(lián)網(wǎng)相結(jié)合,使用戶可以直接通過對話與物聯(lián)網(wǎng)各類終端設(shè)備交互獲得即時服務(wù),大幅提升生活質(zhì)量。例如,智能家居領(lǐng)域,由智能家電等各類硬件、智能軟件系統(tǒng)、云計算服務(wù)構(gòu)成了家居生態(tài)圈;智能汽車領(lǐng)域,語音交互成為最安全便捷的車內(nèi)信息交互方式,不再局限于簡單的問路導(dǎo)航,還可全面覆蓋車主在用車環(huán)節(jié)中所涉及的使用場景,包括對車主的畫像分析、行為感知、車后市場服務(wù)的推薦和應(yīng)用等。
2)智能信息服務(wù)
隨著大量信息被數(shù)字化和知識化,智能信息服務(wù)在生產(chǎn)、生活、社會治理的各個領(lǐng)域都日益得到廣泛重視,應(yīng)用的需求不斷增長。智能問答、對話機器人、信息及知識提取、語義分析、知識圖譜、知識及信息搜索、機器翻譯等語音及語言技術(shù)在智能信息服務(wù)相關(guān)的系統(tǒng)中都有廣泛應(yīng)用。
企業(yè)的智能客服系統(tǒng)通過自動人機對話交互和語音語言分析功能,提供信息查詢、問答服務(wù)、通知互動、服務(wù)規(guī)范化質(zhì)檢等服務(wù),減少人工成本,減輕人工工作量,減少用戶等待應(yīng)答時間,提高了企業(yè)的服務(wù)效率。醫(yī)院及健康管理方面,通過智能對話機器人的導(dǎo)診、預(yù)問診、隨訪等服務(wù),幫助病人和醫(yī)生提升問診和診后管理效率,推進普惠醫(yī)療,通過醫(yī)療信息的知識結(jié)構(gòu)化和語言處理,為醫(yī)生提供輔助診療支撐。社會治理方面,通過語音語言技術(shù),實現(xiàn)社區(qū)信息摸排智能化。如數(shù)字網(wǎng)格員機器人的語音電話排查服務(wù),大大提升了流調(diào)篩查的工作效率,做好人民群眾返鄉(xiāng)、旅游、工作的信息搜集與確認,保障了基層社區(qū)工作的高效開展。
AI技術(shù)與商業(yè)落地之間存在天然鴻溝
智能語音語言技術(shù)已逐步從純技術(shù)授權(quán)方式應(yīng)用,轉(zhuǎn)向“垂直技術(shù)+應(yīng)用行業(yè)場景”的創(chuàng)新式發(fā)展,即從單純的識別與合成的感知能力,逐步升級至“聽得懂、能反饋”的認知智能,智能語音語言技術(shù)的落地應(yīng)用需要結(jié)合行業(yè)認知和客戶需求輸出整體性、結(jié)果導(dǎo)向性的實用解決方案。在人工智能語音語言技術(shù)產(chǎn)品從研發(fā)投入到產(chǎn)業(yè)化落地的過程中,模型設(shè)計、數(shù)據(jù)準備、模型訓(xùn)練、準確度驗證、業(yè)務(wù)流程監(jiān)控以及適配開發(fā)等環(huán)節(jié)都有著巨大的挑戰(zhàn)。要將人工智能技術(shù)與行業(yè)知識、具體需求相結(jié)合,就要跨越每個環(huán)節(jié)涉及的轉(zhuǎn)換“鴻溝”,才能使得人工智能真正地促進產(chǎn)業(yè)發(fā)展和生產(chǎn)力提升。具體到智能語音語言行業(yè),相較于人工智能行業(yè)其他細分領(lǐng)域,由于其定制化程度更高,規(guī)模化速度相對較低,其商業(yè)化落地速度較慢,跨越“鴻溝”的難度相對更大。
關(guān)鍵核心技術(shù)的突破仍面臨挑戰(zhàn)
行業(yè)內(nèi)智能語音語言算法不斷更新迭代,基礎(chǔ)性能持續(xù)增強,通用識別準確率等已不再是智能語音語言行業(yè)發(fā)展的核心挑戰(zhàn)。語音語言技術(shù)逐步由以語音感知為主,向綜合感知、認知、知識計算的全鏈路對話系統(tǒng)方向拓展。
關(guān)鍵基礎(chǔ)算法層面,在可控環(huán)境和簡單結(jié)構(gòu)化知識源條件下,語音及語言處理技術(shù)的性能已經(jīng)表現(xiàn)良好,達到產(chǎn)業(yè)化水平,但在復(fù)雜真實環(huán)境和自然非結(jié)構(gòu)化語言及知識處理方面,與產(chǎn)業(yè)需求仍然有不小差距。例如,在遠場、高噪聲、多人會議場景下的自由語音識別準確率還有待提升,知識型的開放問答和語義理解對話尚無通用模型。中國語音產(chǎn)業(yè)聯(lián)盟2021年12月發(fā)布的《2020-2021中國智能語音產(chǎn)業(yè)發(fā)展白皮書》中也指出,無監(jiān)督學(xué)習(xí)、低資源模型算法等需要突破;作為算力基礎(chǔ)的AI芯片領(lǐng)域,我國與國際先進水平仍存在差距。另一方面,個性化、場景定制化、私有化部署等需求已經(jīng)成為傳統(tǒng)產(chǎn)業(yè)進行智能化改造和數(shù)字化升級的普遍需求,比如個性化的聲音復(fù)刻、新語義領(lǐng)域的問答對話、為保護隱私的私有化識別部署等。支撐這一需求的小數(shù)據(jù)遷移學(xué)習(xí)和自主學(xué)習(xí)算法及其在語音語言處理各個領(lǐng)域的結(jié)合,也是目前亟待突破的方向之一。
同時,新技術(shù)的革命性突破不能只依靠單點技術(shù)創(chuàng)新,必須要有系統(tǒng)級創(chuàng)新突破,建立在重大核心技術(shù)突破瓶頸并達到應(yīng)用門檻的基礎(chǔ)上,深度融合技術(shù)鏈條上的各項關(guān)鍵技術(shù)并針對重大社會命題進行解析和處理。只有實現(xiàn)了能夠解決社會重大問題的系統(tǒng)級創(chuàng)新,才能推廣智能語音語言技術(shù)的大規(guī)模應(yīng)用。
? ? ? ? ?
? ? ? ? ?
AI語音交互技術(shù)
全鏈路語音及語言交互技術(shù)以對話為核心的全鏈路語音語言交互技術(shù)涵蓋語音信號處理、識別、合成、語言理解、問答聊天、知識圖譜等人機信息交互閉環(huán)涉及的各個模塊級技術(shù),又包括以口語容錯、對話管理、全雙工架構(gòu)等為代表的跨模塊聯(lián)合優(yōu)化技術(shù),形成了“聽得清、能理解、有知識、會決策、善表達、反應(yīng)快”的人機智能信息交互的完整全面的技術(shù)鏈條,同時具備業(yè)界領(lǐng)先的高性能單點AI技術(shù)和面向最終用戶完整交互體驗優(yōu)化的跨模塊優(yōu)化技術(shù)和系統(tǒng)架構(gòu),從而在產(chǎn)業(yè)落地上滿足各類客戶豐富復(fù)雜的綜合場景應(yīng)用需求。
?
主要人工智能核心算法技術(shù)具體如下:
全鏈路智能對話系統(tǒng)定制開發(fā)中臺(DUI中臺)可進行從喚醒、識別、合成到語義理解、對話邏輯等的全鏈路對話系統(tǒng)定制開發(fā),自動化智能化程度高,專業(yè)技術(shù)人員和非專業(yè)業(yè)務(wù)人員均可自助定制,可快速構(gòu)建具備完整功能的、軟硬件融合的場景化人機對話系統(tǒng)。
智能家電語音語言交互解決方案
智能家電的發(fā)展旨在讓用戶實現(xiàn)更方便的控制和享受數(shù)字生活服務(wù)。隨著物聯(lián)網(wǎng)終端從弱智能化向強智能化不斷發(fā)展,智能家電產(chǎn)品的交互方式從遙控器按鍵、手機APP進化到語音操控,解放了雙手,人機交互的方式愈發(fā)簡單、便捷。一方面,智能家電終端從電視、音箱到空冰洗、開關(guān)面板,形態(tài)上不斷微型化、多樣化;另一方面,語音技術(shù)作為去中心化操控技術(shù),使得智能家電操控不再受限于固定的設(shè)備端,通過語音即可對任何終端設(shè)備進行直接操控。
智能汽車語音語言交互解決方案
近年來,智能汽車逐漸普及,汽車從“硬件為主”的工業(yè)產(chǎn)品,逐漸演變?yōu)椤败浻惨惑w化”的智能化終端,市場上主流品牌都在新車上布局AI語音系統(tǒng)。智能汽車語音語言交互解決方案,以車載場景下的人機對話交互為核心,融合智能導(dǎo)航、多媒體娛樂、車身控制、駕駛行為監(jiān)控、車況監(jiān)控等智能座艙人機交互需求,圍繞“語音交互智能+云端互聯(lián)服務(wù)”,改變了傳統(tǒng)車載設(shè)備以觸控、按鍵為核心的操控模式,極大改善了交互體驗,有效確保駕乘安全。
數(shù)字政企智能助理解決方案
數(shù)字政企智能助理解決方案,支持在電話、APP和智能終端等多渠道落地,能夠幫助客戶快速實現(xiàn)線上/線下服務(wù)運營的智能化升級,實現(xiàn)降本增效。基于數(shù)字政企智能助理解決方案,客戶可以根據(jù)需求選擇適合自己業(yè)務(wù)場景的機器人,能夠起到替代部分傳統(tǒng)人工的作用,降低人工服務(wù)成本和壓力,并擴大服務(wù)范疇,滿足終端用戶的不同需求。
AI模組可進行前端信號處理,將聲音采集、麥克風(fēng)陣列技術(shù)融合一體,進而實現(xiàn)遠場拾音、聲源定位、語音喚醒、語音增強、回聲消除、語音打斷、通話降噪等多種功能。
? ? ? ? ?
?
?
編輯:黃飛
評論
查看更多