AI人工智能語音交互技術(shù)市場分析

人工智能行業(yè)產(chǎn)業(yè)鏈情況及市場規(guī)模

人工智能產(chǎn)業(yè)鏈包括基礎(chǔ)層、技術(shù)層、應(yīng)用層。基礎(chǔ)層是人工智能產(chǎn)業(yè)的基礎(chǔ)，主要有AI 芯片、傳感器、云計算平臺等，為人工智能提供算力與數(shù)據(jù)的支持；技術(shù)層包括感知層、認知層、平臺層，感知層以算法模擬人的感知來構(gòu)建技術(shù)路徑，可分類為計算機視覺、語音、觸感和味覺等，認知層以算法模擬人的認知，使機器具備理解、學(xué)習(xí)、推理以及思考的能力，平臺層主要為技術(shù)開放平臺與基礎(chǔ)開源框架，為人工智能技術(shù)提供平臺支持；應(yīng)用層將人工智能技術(shù)落地到具體的應(yīng)用場景，根據(jù)不同需求形成具體的軟硬件產(chǎn)品與解決方案。

? ? ? ? ?

從技術(shù)應(yīng)用看，根據(jù)中國新一代人工智能發(fā)展戰(zhàn)略研究院2021年的研究，中國2205家人工智能企業(yè)中，涉及基礎(chǔ)層和技術(shù)層的人工智能企業(yè)共有382家。其中，智能芯片、語音識別和自然語言處理、圖形圖像識別、機器學(xué)習(xí)和推薦、工業(yè)機器人、硬件的企業(yè)數(shù)占比相對較高，依次為8.90%、8.64%、7.59%、5.76%、4.97%和3.66%。

從應(yīng)用場景看，根據(jù)艾瑞咨詢的研究，2020年中國人工智能市場的主要應(yīng)用場景為政府城市冶理和運營（公安、交警、司法、城市運營、政務(wù)、交運管理、國土資源、監(jiān)所、環(huán)保等）、互聯(lián)網(wǎng)、金融，合計占比達到79%。而隨著人工智能行業(yè)核心技術(shù)的增速不同，不同下游行業(yè)對人工智能技術(shù)和產(chǎn)品的應(yīng)用節(jié)奏不同，未來行業(yè)格局將會發(fā)生一定變化。

2020年，中國提出加快包括大數(shù)據(jù)中心、人工智能等在內(nèi)的新型基礎(chǔ)設(shè)施建設(shè)，推動產(chǎn)業(yè)信息化、數(shù)字化、智能化轉(zhuǎn)型發(fā)展。由于非接觸式交互逐漸興起，人工智能融合應(yīng)用速度顯著加快。根據(jù)艾瑞咨詢預(yù)測，2025年，人工智能核心產(chǎn)業(yè)規(guī)模預(yù)計達到4,532.6億元；2025年，人工智能帶動產(chǎn)業(yè)規(guī)模預(yù)計達到16,648.3億元。

人工智能語音語言行業(yè)基本概述

1）定義

人工智能語音語言技術(shù)即實現(xiàn)人與機器以語言為紐帶的信息處理技術(shù)，人機對話通過對聲音信號的音頻采集與信號處理將語音轉(zhuǎn)化為文字供機器處理，在機器進行語音識別與語義理解后、再進行對話管理、自然語言生成并通過語音合成技術(shù)將文本語言轉(zhuǎn)化為聲音進行輸出，最終形成完整的人機語音語言交互。

2）發(fā)展歷程

1952年，AT&T貝爾實驗室成功研究出世界上第一個語音識別系統(tǒng)Audry，標志著智能語音語言技術(shù)發(fā)展的開始。至今智能語音語言技術(shù)已經(jīng)歷經(jīng)了近70年的發(fā)展，經(jīng)歷了技術(shù)萌芽期、起步期、變革式發(fā)展期、落地可用期共四個發(fā)展階段。

技術(shù)萌芽期（1950s-1970s）：Audry作為第一個語音識別系統(tǒng)，可以識別10個英文數(shù)字發(fā)音，該系統(tǒng)基于簡單的模板匹配方法識別個體說出的孤立數(shù)字，在此之后，連續(xù)語音識別系統(tǒng)開始出現(xiàn)。語音合成的參數(shù)合成法能生成比較自然的語音。同一時代，以有限自動機和正則匹配理論為基礎(chǔ)的文字處理技術(shù)出現(xiàn)。以喬姆斯基的文法和句法結(jié)構(gòu)為代表的理性主義方法，和以香農(nóng)信息論為代表的經(jīng)驗主義方法都發(fā)展起來。出現(xiàn)了一些極為簡單的翻譯、問答和聊天系統(tǒng)，但都無法實用。

起步期（1980s-2011）：在此階段初期，隨著算法模型以及微電子技術(shù)的發(fā)展，語音識別領(lǐng)域取得了突破性進展。隱馬爾科夫模型（HMM）逐漸成熟和不斷完善，開始成為語音識別的主流方法，語音識別轉(zhuǎn)向基于概率統(tǒng)計建模的方法，同時神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究興起。此后語音識別技術(shù)逐漸走向?qū)嵱没S多具有代表性的產(chǎn)品問世，例如IBM研發(fā)的ViaVoice系統(tǒng)，Dragon公司研發(fā)的DragonDictate系統(tǒng)，都具有更好的自適應(yīng)性，能夠在使用過程中不斷提高識別準確率。2009年，Hinton將深度神經(jīng)網(wǎng)絡(luò)（DNN）應(yīng)用于語音的聲學(xué)建模，取得了在語音識別方面的重大突破，使語音識別的準確性得到顯著改善。與語音技術(shù)基本同步，這一時期的自然語言處理技術(shù)的發(fā)展，也出現(xiàn)了數(shù)據(jù)驅(qū)動的統(tǒng)計模型逐漸占據(jù)主流地位的趨勢。從概率模型到支持向量機，從線性分類器到神經(jīng)網(wǎng)絡(luò)，大量數(shù)據(jù)驅(qū)動的技術(shù)被應(yīng)用到自然語言處理領(lǐng)域，產(chǎn)生了一系列重大成果。這一階段中，理解、翻譯、問答、對話系統(tǒng)等都在限定的范圍內(nèi)逐步實用化。

變革式發(fā)展期（2011-2016）：2011年，微軟研究院又將DNN技術(shù)應(yīng)用在大詞匯量連續(xù)語音識別任務(wù)上，極大地降低了語音識別錯誤率。2016年，微軟AI團隊在產(chǎn)業(yè)標準Switchboard語音識別任務(wù)上，取得了當(dāng)時產(chǎn)業(yè)中最低的5.9%的詞錯率（WER），5.9%的詞錯率等同于專業(yè)速錄員速記同樣一段對話的水平，這代表著機器的語音識別準確率第一次達到人類水平，智能語音語言技術(shù)開始逐步落地。這一時期中，以連續(xù)詞向量、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型為代表的一系列深度學(xué)習(xí)技術(shù)，進一步大幅推動了自然語言處理技術(shù)的發(fā)展，復(fù)雜場景下的自然語言處理的性能顯著改善。

落地可用期（2016-至今）：端到端的語音識別開始廣泛應(yīng)用，準確率進一步提升，且針對遠場的語音識別和喚醒得到進一步發(fā)展，全雙工語音交互開始出現(xiàn)。此階段語音識別的準確率可達98%以上，且能根據(jù)實際應(yīng)用痛點針對性優(yōu)化。大數(shù)據(jù)驅(qū)動的預(yù)訓(xùn)練語言模型的出現(xiàn)，使得自然語言處理技術(shù)在這一階段又上了一個臺階，眾多小數(shù)據(jù)、跨領(lǐng)域的遷移學(xué)習(xí)技術(shù)也應(yīng)運而生，自然語言處理的技術(shù)覆蓋范圍進一步加強，在產(chǎn)業(yè)中得到廣泛深入使用。

人工智能語音語言市場產(chǎn)業(yè)鏈情況

人工智能語音語言市場的產(chǎn)業(yè)鏈可依據(jù)關(guān)鍵技術(shù)拆分為六大環(huán)節(jié)，各個環(huán)節(jié)又可以進一步歸集為聲學(xué)、語音感知、語言認知三大模塊。音頻采集與信號處理環(huán)節(jié)是智能語音語言交互的起點，當(dāng)前的核心在于回聲消除、噪聲消除、聲源分離、提升遠場和復(fù)雜聲學(xué)環(huán)境下語音喚醒和識別的準確率等關(guān)鍵技術(shù)；語音識別是把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或音頻類別的過程，當(dāng)前的核心在于聲紋技術(shù)、口音適應(yīng)能力、情緒識別能力、端到端識別、低功耗識別等；語義理解是通過自然語言處理等方式使機器理解語言的過程，當(dāng)前的核心在于口語語義理解問題、對話關(guān)鍵信息抽取、知識提取及結(jié)構(gòu)化等；而對話管理是以多輪交互為核心的一系列自然語言認知技術(shù)的綜合，是人機對話系統(tǒng)中的理解、決策和知識中樞，當(dāng)前的核心在于實現(xiàn)多模態(tài)、全雙工交互，增強機器在多任務(wù)、全場景、全領(lǐng)域的靈活對話能力；知識圖譜是現(xiàn)實世界知識的一種表達方式，當(dāng)前的核心在于知識圖譜構(gòu)建、問答推理等；語音合成即從文本到語音，讓機器具備“說話”的能力，當(dāng)前的核心在于使機器能夠?qū)崿F(xiàn)自然聲音、高表現(xiàn)力、小數(shù)據(jù)復(fù)刻轉(zhuǎn)換，以及方言及多語種的語音表達。

人工智能語音語言行業(yè)內(nèi)的大部分公司只專注于產(chǎn)業(yè)鏈的單個或部分環(huán)節(jié)，少有公司能擁有覆蓋產(chǎn)業(yè)鏈各環(huán)節(jié)的技術(shù)、產(chǎn)品與服務(wù)，當(dāng)前國內(nèi)人工智能語音語言行業(yè)的公司大約有400余家，僅有極少數(shù)可以實現(xiàn)全產(chǎn)業(yè)鏈覆蓋。

行業(yè)結(jié)構(gòu)

據(jù)德勤2021年的研究，在大環(huán)境需求的催化下，各行業(yè)智能化應(yīng)用迎來需求拐點，進入需求爆發(fā)期。預(yù)計2030年消費級應(yīng)用場景總的發(fā)展空間將超過700億元。智能家居、智慧駕駛、智能辦公等企業(yè)級場景加速發(fā)展，市場需求不斷擴大，發(fā)展空間預(yù)計即將達到千億規(guī)模。

智能語音語言技術(shù)使得人類的生產(chǎn)及生活方式逐步改變，基于智能語音語言技術(shù)的人機交互產(chǎn)品在接收用戶的聲音等信息后，能將用戶意圖轉(zhuǎn)換為機器可以理解和進一步處理的內(nèi)容，從而幫助用戶解決問題或完成特定任務(wù)。其中，對話式機器人可以降低人力成本，減輕人工工作量，提高工作效率，解決用戶客服、營銷、質(zhì)檢、呼入、呼出等需求；搭載人機對話交互功能的消費級智能硬件，例如智能家電、智能車載、智能可穿戴設(shè)備等，能夠通過語音語言交互的方式，提供更豐富的設(shè)備交互功能，提升設(shè)備操控便捷性。根據(jù)德勤2021年末發(fā)布的《中國智能語音市場分析》，2021年中國智能語音市場規(guī)模將達到285億元，較2020年的217億元增長31.34%，預(yù)計在2030年市場規(guī)模將達到1,452億元。

除智能語音市場外，發(fā)行人產(chǎn)品下游市場還包括智能家居、智能汽車、消費電子、企業(yè)服務(wù)和智慧城市等多個領(lǐng)域，相關(guān)領(lǐng)域的市場空間具體如下：智能家居是智能語音應(yīng)用的主要領(lǐng)域之一，隨著物聯(lián)網(wǎng)、人工智能等技術(shù)的快速發(fā)展，智能語音在家居領(lǐng)域的應(yīng)用將進一步提速。2017-2021年中國智能家居市場規(guī)模不斷增長，2021年預(yù)估突破5,800億元，2022年將超過6,500億元，將帶動智能語音市場的持續(xù)提升。

2020年我國智能語音在消費電子領(lǐng)域的應(yīng)用市場規(guī)模達到43.6億元，占比近1/3。未來消費電子仍然是智能語音占比最高的行業(yè)領(lǐng)域，2021年智能語音在消費電子行業(yè)的市場規(guī)模達到約56.5億元，增長率約為30%。

2021年我國智能硬件的AI語音助手算法的產(chǎn)值已達到34億元，預(yù)計2026年相關(guān)產(chǎn)值規(guī)模將達到155億元，2021年至2026年的CAGR為35.4%。

2020年中國智能網(wǎng)聯(lián)車市場滲透率已經(jīng)達到49%，根據(jù)IHSMarkit的預(yù)測，2025年中國智能網(wǎng)聯(lián)車滲透率將超過75%，進一步推動智能語音在汽車領(lǐng)域的應(yīng)用。

2020年中國智能客服行業(yè)市場規(guī)模約為30.1億元，伴隨智能化價值深化，2025年中國智能客服市場規(guī)模預(yù)計將突破100億元，5年CAGR達35.8%，行業(yè)呈現(xiàn)快速增長態(tài)勢。

智能語音語言行業(yè)在新技術(shù)方面的發(fā)展情況和未來發(fā)展趨勢

近年來，行業(yè)內(nèi)智能語音語言算法不斷更新迭代，基礎(chǔ)性能持續(xù)增強，通用識別準確率等已不再是智能語音語言行業(yè)發(fā)展的核心挑戰(zhàn)，語音語言技術(shù)逐步由以語音感知為主，向綜合感知、認知、知識計算的全鏈路對話系統(tǒng)方向拓展。

關(guān)鍵基礎(chǔ)算法層面，在可控環(huán)境和簡單結(jié)構(gòu)化知識源條件下，語音及語言處理技術(shù)的性能已經(jīng)表現(xiàn)良好，達到產(chǎn)業(yè)化水平，但在復(fù)雜真實環(huán)境和自然非結(jié)構(gòu)化語言及知識處理方面，與產(chǎn)業(yè)需求仍然有不小差距。例如，在遠場、高噪聲、多人會議場景下的自由語音識別準確率還有待提升，知識型的開放問答和語義理解對話尚無通用模型。因此，在感知技術(shù)方面，業(yè)內(nèi)研究逐步轉(zhuǎn)向聚焦突破高噪聲、多干擾、端側(cè)低資源等真實復(fù)雜自然場景；在認知及知識計算方面，聚焦理解式的知識問答、對話理解及管理技術(shù)，以及專業(yè)領(lǐng)域的深度知識結(jié)構(gòu)化，進一步增強面向垂直領(lǐng)域信息智能化的知識圖譜、對話問答、閱讀理解、翻譯等能力。

另一方面，個性化、場景定制化、私有化部署等需求已經(jīng)成為傳統(tǒng)產(chǎn)業(yè)進行智能化改造和數(shù)字化升級的普遍需求，比如個性化的聲音復(fù)刻、新語義領(lǐng)域的問答對話、為保護隱私的私有化識別部署等。支撐這一需求的小數(shù)據(jù)遷移學(xué)習(xí)和自主學(xué)習(xí)算法及其在語音語言處理各個領(lǐng)域的結(jié)合，也是智能語音及語言行業(yè)算法技術(shù)發(fā)展的趨勢。

1）全雙工語音出現(xiàn)，人機交互朝著更自然、更順暢的方向發(fā)展

全雙工是通信學(xué)科中的一個術(shù)語，意為允許數(shù)據(jù)在兩個方向上同時傳輸，應(yīng)用在智能語音語言行業(yè)，即為實時的、雙向的語音信息的交互，這是人們進行即興自由交互情境下的對話模式。目前市場上大部分產(chǎn)品只能滿足單輪交互或多輪交互，單輪交互的情景下，用戶每次都需要使用喚醒詞開啟交互，使得人機對話非常割裂；多輪交互的情景下，用戶只需一次喚醒，在機器判斷任務(wù)尚未完成時，會持續(xù)的接收用戶發(fā)出的語音信息，待到機器判斷單次任務(wù)完成后，再綜合信息進行分析并做出回應(yīng)，但在多輪交互中機器仍不能做到接收信息和發(fā)出語音同步進行。區(qū)別于單輪交互與多輪交互，全雙工可以做到“邊聽、邊想、邊說”，在接收語音信息的同時進行思考，并實現(xiàn)動態(tài)的預(yù)估，進而以更快的速度進行回答，使人機交互更自然、更流暢；同時，全雙工語音還可做到節(jié)奏控制，根據(jù)用戶回答內(nèi)容的重要性，決定打斷還是繼續(xù)傾聽，是先完成上一個問題還是先回答用戶的追加問題；此外，全雙工語音還能進行場景理解，識別用戶當(dāng)前是否在與AI進行對話，并根據(jù)不同對象、不同場景進行音量、語氣等方面的調(diào)節(jié)。未來，智能語音語言的應(yīng)用場景越發(fā)多樣化，應(yīng)對的環(huán)境狀況越發(fā)復(fù)雜，全雙工語音的優(yōu)勢將會越發(fā)凸顯，并成為智能語音語言行業(yè)的主流交互方式。

2）優(yōu)化人機交互體驗，多模態(tài)交互成為必然趨勢

人類在交互過程中并非孤立地依據(jù)聲音、表情及動作中的單項進行溝通與交流，而是綜合視覺、聽覺、觸覺甚至嗅覺來進行有效的溝通。同理，要使機器做到更加逼真的“擬人化”，就需要通過語音、視覺、文本等信息結(jié)合的方式來推動人機交互的優(yōu)化與升級。例如，在復(fù)雜聲學(xué)環(huán)境尤其是多人同時說話的時候，語音識別性能會顯著下降，此時若引入視覺信息對講話者進行唇語識別，綜合語音和視頻信息則可以大幅提升說話人跟蹤和語音識別準確率；又例如，在人機交互過程中，機器通過采集用戶的表情、說話語氣，甚至腳步的頻率和急緩程度，可以分析用戶的情緒狀態(tài)，以采用不同的方式推進交互，提高人機交互的交互效率與質(zhì)量。應(yīng)對人機交互場景化應(yīng)用不斷拓展的市場需求，多模態(tài)、智能化的完整解決方案可以更好地應(yīng)對不同場景的復(fù)雜變化，多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢。

3）芯片研發(fā)日益關(guān)鍵，端側(cè)智能與云側(cè)智能雙輪驅(qū)動

AI深度應(yīng)用目前基于深度學(xué)習(xí)的智能算法通常運行于具有強大計算能力的云計算中心，而相比于云計算，邊緣計算將資源和服務(wù)下沉到網(wǎng)絡(luò)邊緣端，從而帶來更低的帶寬占用、更低的時延、更高的能效和更好的隱私保護。隨著移動終端設(shè)備的普及率越來越高，未來行業(yè)將逐步將人工智能模型全部或分布式的部署到資源受限的終端設(shè)備上，與云側(cè)智能協(xié)同。同時，結(jié)合感知硬件和計算模組的軟硬一體化解決方案，也成為人工智能軟件算法技術(shù)落地優(yōu)化的趨勢。軟硬一體化的方案將更容易提升人工智能用戶的最終體驗，更好解決AI落地的“最后一公里”問題。軟硬一體化的重要形態(tài)就是專用人工智能芯片。專用芯片往往是場景化或針對特定功能的，成本和效率大大優(yōu)于通用芯片，可以進一步提高產(chǎn)品端側(cè)的計算效率，并提升針對特定應(yīng)用場景的優(yōu)化適應(yīng)能力。未來，人工智能語音芯片的發(fā)展將進一步推動智能語音語言產(chǎn)品在各垂直行業(yè)領(lǐng)域商業(yè)化落地。

4）以對話交互為核心的認知和知識計算成為智能信息服務(wù)的重要技術(shù)趨勢

基于知識交互的認知智能是信息服務(wù)智能化的核心技術(shù)，在智能客服、教育、辦公、金融、政務(wù)、醫(yī)療等各個垂直領(lǐng)域的數(shù)字化轉(zhuǎn)型中具有重要作用。在各類智能信息軟硬件爆發(fā)式增長的大背景下，對話式語言認知智能，尤其是對話理解和管理技術(shù)，將成為感知與認知系統(tǒng)級融合的關(guān)鍵技術(shù)，極大影響用戶體驗。另一方面，針對垂直領(lǐng)域的復(fù)雜結(jié)構(gòu)化數(shù)據(jù)庫、各類知識文檔等多種形態(tài)的原始知識源，進行知識結(jié)構(gòu)化和知識圖譜構(gòu)建，形成可控人機理解式交互的知識源，支撐知識問答和對話，支持人類決策，將是面向信息服務(wù)智能化的知識計算的發(fā)展方向。

5）系統(tǒng)級的大規(guī)模場景化柔性定制成為賦能傳統(tǒng)產(chǎn)業(yè)的關(guān)鍵

由于人工智能賦能產(chǎn)業(yè)過程中的場景化定制需求巨大，當(dāng)前智能語音語言行業(yè)的公司逐步由向硬件設(shè)備廠商提供單一技術(shù)授權(quán)或單點技術(shù)的項目制開發(fā)等商業(yè)模式，逐步轉(zhuǎn)向以最終用戶體驗為目標的輕量化需求產(chǎn)品的快速迭代、規(guī)模化定制開發(fā)和軟硬一體化，通過提供人工智能芯片及模組、智能語音及語言技術(shù)定制接口、業(yè)務(wù)級對話技能開發(fā)以及靈活的知識資源庫等智能語音語言的全鏈路柔性定制方案，增加技術(shù)輸出的厚度，擴大技術(shù)輸出的邊界，增加下游產(chǎn)業(yè)的粘性，形成生態(tài)優(yōu)勢。

智能語音語言行業(yè)在新產(chǎn)業(yè)、新業(yè)態(tài)方面的發(fā)展情況和未來發(fā)展趨勢

數(shù)字化轉(zhuǎn)型催生了兩個重要趨勢，一是智能信息硬件的大量出現(xiàn)和快速普及，二是各類生產(chǎn)、生活、治理場景的數(shù)字化過程中產(chǎn)生了海量的知識信息。語音及語言技術(shù)，作為連接人與智能設(shè)備、進行知識信息服務(wù)處理的核心人工智能技術(shù)，在這兩個趨勢下發(fā)展前景廣闊。近年來，人工智能語音語言技術(shù)與生產(chǎn)、生活和社會治理深度融合，不斷推動經(jīng)濟社會數(shù)字化轉(zhuǎn)型。智能語音語言技術(shù)產(chǎn)業(yè)化的程度進一步加深，應(yīng)用場景不斷擴展，在汽車、家居、金融、教育、醫(yī)療、公共衛(wèi)生、政務(wù)等領(lǐng)域均應(yīng)用廣泛，并形成了全新的產(chǎn)業(yè)鏈條。同時，隨著智能語音語言技術(shù)的各項應(yīng)用逐漸落地，用戶對產(chǎn)品的使用逐步深化，人們對智能語音語言產(chǎn)品產(chǎn)生更多的期望，未來智能語音語言行業(yè)的發(fā)展將會更加聚焦在使用體驗上，智能語音語言產(chǎn)品將朝著更加智能、更加人性化的方向發(fā)展，各類應(yīng)用從單向指標的不斷優(yōu)化過渡到重視整體商業(yè)落地性能。例如，從追求語音識別的高準確率到關(guān)注產(chǎn)業(yè)化場景應(yīng)用能力、整體運行穩(wěn)定性、響應(yīng)速率等。

1）智能硬件終端

根據(jù)艾瑞咨詢的研究，2020年在我國各類智能硬件中，以本地或云端算法形式及語音AI芯片硬件形式提供語音交互能力的市場規(guī)模達到31.4億元，到2025年將突破138億元，2019-2025年CAGR為35.2%。隨著智能物聯(lián)網(wǎng)（AIoT）產(chǎn)業(yè)發(fā)展，到2025年，65%以上的家庭將擁有智能音箱、智能機器人、智能面板等各形態(tài)的AI管家，未來搭載語音交互能力的硬件設(shè)備總量將非常可觀、潛力巨大。

語音作為人類最便捷、自然的溝通方式，是物聯(lián)網(wǎng)人機交互的最佳入口。人工智能語音語言技術(shù)與物聯(lián)網(wǎng)相結(jié)合，使用戶可以直接通過對話與物聯(lián)網(wǎng)各類終端設(shè)備交互獲得即時服務(wù)，大幅提升生活質(zhì)量。例如，智能家居領(lǐng)域，由智能家電等各類硬件、智能軟件系統(tǒng)、云計算服務(wù)構(gòu)成了家居生態(tài)圈；智能汽車領(lǐng)域，語音交互成為最安全便捷的車內(nèi)信息交互方式，不再局限于簡單的問路導(dǎo)航，還可全面覆蓋車主在用車環(huán)節(jié)中所涉及的使用場景，包括對車主的畫像分析、行為感知、車后市場服務(wù)的推薦和應(yīng)用等。

2）智能信息服務(wù)

隨著大量信息被數(shù)字化和知識化，智能信息服務(wù)在生產(chǎn)、生活、社會治理的各個領(lǐng)域都日益得到廣泛重視，應(yīng)用的需求不斷增長。智能問答、對話機器人、信息及知識提取、語義分析、知識圖譜、知識及信息搜索、機器翻譯等語音及語言技術(shù)在智能信息服務(wù)相關(guān)的系統(tǒng)中都有廣泛應(yīng)用。

企業(yè)的智能客服系統(tǒng)通過自動人機對話交互和語音語言分析功能，提供信息查詢、問答服務(wù)、通知互動、服務(wù)規(guī)范化質(zhì)檢等服務(wù)，減少人工成本，減輕人工工作量，減少用戶等待應(yīng)答時間，提高了企業(yè)的服務(wù)效率。醫(yī)院及健康管理方面，通過智能對話機器人的導(dǎo)診、預(yù)問診、隨訪等服務(wù)，幫助病人和醫(yī)生提升問診和診后管理效率，推進普惠醫(yī)療，通過醫(yī)療信息的知識結(jié)構(gòu)化和語言處理，為醫(yī)生提供輔助診療支撐。社會治理方面，通過語音語言技術(shù)，實現(xiàn)社區(qū)信息摸排智能化。如數(shù)字網(wǎng)格員機器人的語音電話排查服務(wù)，大大提升了流調(diào)篩查的工作效率，做好人民群眾返鄉(xiāng)、旅游、工作的信息搜集與確認，保障了基層社區(qū)工作的高效開展。

AI技術(shù)與商業(yè)落地之間存在天然鴻溝

智能語音語言技術(shù)已逐步從純技術(shù)授權(quán)方式應(yīng)用，轉(zhuǎn)向“垂直技術(shù)+應(yīng)用行業(yè)場景”的創(chuàng)新式發(fā)展，即從單純的識別與合成的感知能力，逐步升級至“聽得懂、能反饋”的認知智能，智能語音語言技術(shù)的落地應(yīng)用需要結(jié)合行業(yè)認知和客戶需求輸出整體性、結(jié)果導(dǎo)向性的實用解決方案。在人工智能語音語言技術(shù)產(chǎn)品從研發(fā)投入到產(chǎn)業(yè)化落地的過程中，模型設(shè)計、數(shù)據(jù)準備、模型訓(xùn)練、準確度驗證、業(yè)務(wù)流程監(jiān)控以及適配開發(fā)等環(huán)節(jié)都有著巨大的挑戰(zhàn)。要將人工智能技術(shù)與行業(yè)知識、具體需求相結(jié)合，就要跨越每個環(huán)節(jié)涉及的轉(zhuǎn)換“鴻溝”，才能使得人工智能真正地促進產(chǎn)業(yè)發(fā)展和生產(chǎn)力提升。具體到智能語音語言行業(yè)，相較于人工智能行業(yè)其他細分領(lǐng)域，由于其定制化程度更高，規(guī)模化速度相對較低，其商業(yè)化落地速度較慢，跨越“鴻溝”的難度相對更大。

關(guān)鍵核心技術(shù)的突破仍面臨挑戰(zhàn)

行業(yè)內(nèi)智能語音語言算法不斷更新迭代，基礎(chǔ)性能持續(xù)增強，通用識別準確率等已不再是智能語音語言行業(yè)發(fā)展的核心挑戰(zhàn)。語音語言技術(shù)逐步由以語音感知為主，向綜合感知、認知、知識計算的全鏈路對話系統(tǒng)方向拓展。

關(guān)鍵基礎(chǔ)算法層面，在可控環(huán)境和簡單結(jié)構(gòu)化知識源條件下，語音及語言處理技術(shù)的性能已經(jīng)表現(xiàn)良好，達到產(chǎn)業(yè)化水平，但在復(fù)雜真實環(huán)境和自然非結(jié)構(gòu)化語言及知識處理方面，與產(chǎn)業(yè)需求仍然有不小差距。例如，在遠場、高噪聲、多人會議場景下的自由語音識別準確率還有待提升，知識型的開放問答和語義理解對話尚無通用模型。中國語音產(chǎn)業(yè)聯(lián)盟2021年12月發(fā)布的《2020-2021中國智能語音產(chǎn)業(yè)發(fā)展白皮書》中也指出，無監(jiān)督學(xué)習(xí)、低資源模型算法等需要突破；作為算力基礎(chǔ)的AI芯片領(lǐng)域，我國與國際先進水平仍存在差距。另一方面，個性化、場景定制化、私有化部署等需求已經(jīng)成為傳統(tǒng)產(chǎn)業(yè)進行智能化改造和數(shù)字化升級的普遍需求，比如個性化的聲音復(fù)刻、新語義領(lǐng)域的問答對話、為保護隱私的私有化識別部署等。支撐這一需求的小數(shù)據(jù)遷移學(xué)習(xí)和自主學(xué)習(xí)算法及其在語音語言處理各個領(lǐng)域的結(jié)合，也是目前亟待突破的方向之一。

同時，新技術(shù)的革命性突破不能只依靠單點技術(shù)創(chuàng)新，必須要有系統(tǒng)級創(chuàng)新突破，建立在重大核心技術(shù)突破瓶頸并達到應(yīng)用門檻的基礎(chǔ)上，深度融合技術(shù)鏈條上的各項關(guān)鍵技術(shù)并針對重大社會命題進行解析和處理。只有實現(xiàn)了能夠解決社會重大問題的系統(tǒng)級創(chuàng)新，才能推廣智能語音語言技術(shù)的大規(guī)模應(yīng)用。

? ? ? ? ?

AI語音交互技術(shù)

全鏈路語音及語言交互技術(shù)以對話為核心的全鏈路語音語言交互技術(shù)涵蓋語音信號處理、識別、合成、語言理解、問答聊天、知識圖譜等人機信息交互閉環(huán)涉及的各個模塊級技術(shù)，又包括以口語容錯、對話管理、全雙工架構(gòu)等為代表的跨模塊聯(lián)合優(yōu)化技術(shù)，形成了“聽得清、能理解、有知識、會決策、善表達、反應(yīng)快”的人機智能信息交互的完整全面的技術(shù)鏈條，同時具備業(yè)界領(lǐng)先的高性能單點AI技術(shù)和面向最終用戶完整交互體驗優(yōu)化的跨模塊優(yōu)化技術(shù)和系統(tǒng)架構(gòu)，從而在產(chǎn)業(yè)落地上滿足各類客戶豐富復(fù)雜的綜合場景應(yīng)用需求。

主要人工智能核心算法技術(shù)具體如下：

全鏈路智能對話系統(tǒng)定制開發(fā)中臺（DUI中臺）可進行從喚醒、識別、合成到語義理解、對話邏輯等的全鏈路對話系統(tǒng)定制開發(fā)，自動化智能化程度高，專業(yè)技術(shù)人員和非專業(yè)業(yè)務(wù)人員均可自助定制，可快速構(gòu)建具備完整功能的、軟硬件融合的場景化人機對話系統(tǒng)。

智能家電語音語言交互解決方案

智能家電的發(fā)展旨在讓用戶實現(xiàn)更方便的控制和享受數(shù)字生活服務(wù)。隨著物聯(lián)網(wǎng)終端從弱智能化向強智能化不斷發(fā)展，智能家電產(chǎn)品的交互方式從遙控器按鍵、手機APP進化到語音操控，解放了雙手，人機交互的方式愈發(fā)簡單、便捷。一方面，智能家電終端從電視、音箱到空冰洗、開關(guān)面板，形態(tài)上不斷微型化、多樣化；另一方面，語音技術(shù)作為去中心化操控技術(shù)，使得智能家電操控不再受限于固定的設(shè)備端，通過語音即可對任何終端設(shè)備進行直接操控。

智能汽車語音語言交互解決方案

近年來，智能汽車逐漸普及，汽車從“硬件為主”的工業(yè)產(chǎn)品，逐漸演變?yōu)椤败浻惨惑w化”的智能化終端，市場上主流品牌都在新車上布局AI語音系統(tǒng)。智能汽車語音語言交互解決方案，以車載場景下的人機對話交互為核心，融合智能導(dǎo)航、多媒體娛樂、車身控制、駕駛行為監(jiān)控、車況監(jiān)控等智能座艙人機交互需求，圍繞“語音交互智能+云端互聯(lián)服務(wù)”，改變了傳統(tǒng)車載設(shè)備以觸控、按鍵為核心的操控模式，極大改善了交互體驗，有效確保駕乘安全。

數(shù)字政企智能助理解決方案

數(shù)字政企智能助理解決方案，支持在電話、APP和智能終端等多渠道落地，能夠幫助客戶快速實現(xiàn)線上/線下服務(wù)運營的智能化升級，實現(xiàn)降本增效。基于數(shù)字政企智能助理解決方案，客戶可以根據(jù)需求選擇適合自己業(yè)務(wù)場景的機器人，能夠起到替代部分傳統(tǒng)人工的作用，降低人工服務(wù)成本和壓力，并擴大服務(wù)范疇，滿足終端用戶的不同需求。