動(dòng)機(jī)
出于學(xué)習(xí)-總結(jié)的目的,在我從什么是智能座艙、智能座艙的發(fā)展驅(qū)動(dòng)因素、智能座艙的構(gòu)成要素三個(gè)方面梳理我對(duì)智能座艙的基礎(chǔ)認(rèn)識(shí)之后,為了加深“智能座艙產(chǎn)品入門”課程中語(yǔ)音交互部分知識(shí)的理解,我從什么是語(yǔ)音交互、語(yǔ)音交互的底層技術(shù)、智能座艙的語(yǔ)音交互等方面,對(duì)智能座艙語(yǔ)音交互系統(tǒng)相關(guān)的知識(shí)進(jìn)行了梳理與總結(jié)。
一.什么是語(yǔ)音交互
語(yǔ)音交互:語(yǔ)音是方式,交互的對(duì)象是任何的智能設(shè)備,顧名思義,即通過(guò)語(yǔ)音的方式完成人與機(jī)的交互。
在現(xiàn)今的各種智能化場(chǎng)景中,語(yǔ)音交互已成為一種非常關(guān)鍵的人機(jī)交互方式。從用戶的角度來(lái)看,語(yǔ)音交互的核心價(jià)值主要體現(xiàn)在釋放用戶的雙手,使得人與機(jī)之間的交互變的更高效便捷。
然而,從用戶發(fā)出語(yǔ)音指令到實(shí)現(xiàn)與智能設(shè)備的交互,其過(guò)程并不像其名詞描述的那么簡(jiǎn)單,要實(shí)現(xiàn)通過(guò)語(yǔ)音來(lái)完成人機(jī)交互,要解決解決三個(gè)關(guān)鍵問(wèn)題,如何讓機(jī)器聽清用戶的語(yǔ)音內(nèi)容?如何機(jī)器理解用戶的意圖?如何讓機(jī)器執(zhí)行用戶的意圖?,解決這些問(wèn)題的的過(guò)程是復(fù)雜的,其背后涉及到多個(gè)復(fù)雜的技術(shù)環(huán)節(jié),如語(yǔ)音識(shí)別、自然語(yǔ)言理解、對(duì)話管理、自然語(yǔ)言生成、語(yǔ)音合成等。
二.語(yǔ)音交互的底層技術(shù)
(一).語(yǔ)音識(shí)別
在語(yǔ)音交互系統(tǒng)中,用戶的語(yǔ)音信號(hào)需要經(jīng)過(guò)多個(gè)處理階段才能得出正確的結(jié)果,而語(yǔ)音識(shí)別是實(shí)現(xiàn)語(yǔ)音交互的第一步,其在語(yǔ)音交互系統(tǒng)中負(fù)責(zé)對(duì)用戶的語(yǔ)音信號(hào)進(jìn)行前置處理,通過(guò)對(duì)用戶語(yǔ)音信息的預(yù)處理、解碼等關(guān)鍵任務(wù),最終得到語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容,從而實(shí)現(xiàn)機(jī)器聽清的用戶的語(yǔ)音內(nèi)容。
1.語(yǔ)音輸入:用戶通過(guò)麥克風(fēng)輸入內(nèi)容語(yǔ)音,例如:打開空調(diào)
?2.預(yù)處理:預(yù)處理是語(yǔ)音識(shí)別過(guò)程中的一個(gè)基礎(chǔ)性步驟,它的意義在于對(duì)錄音文件進(jìn)行分幀、去除噪音、語(yǔ)音增強(qiáng)、加窗等預(yù)處理,提取出有效的聲音特征,用于后續(xù)的語(yǔ)音內(nèi)容分析處理。
去除噪音:由于用戶環(huán)境因素影響,MIC設(shè)備錄制的聲音,除了人聲,可能還會(huì)包各種噪音,那么為了語(yǔ)音識(shí)別的準(zhǔn)確性,在識(shí)別前就需要先處理掉原始音頻中的噪音部分。去除噪音的實(shí)現(xiàn)過(guò)程大體可以理解為:首先提取原始音頻中聲音的頻率、時(shí)域、能量等特征,通過(guò)對(duì)這些特征的對(duì)比分析區(qū)分原始音頻中的人聲和其他聲音,然后通過(guò)濾波、降噪算法(基于頻域的傅里葉變換、小波變換,或者基于時(shí)域的信號(hào)平滑法)等手段,實(shí)現(xiàn)去除噪聲的目標(biāo)。
預(yù)加重:在語(yǔ)音輸入的過(guò)程中,由于環(huán)境和距離等影響因素,MIC錄制聲音可能會(huì)出現(xiàn)高頻衰減和低頻增益等失真現(xiàn)象,這將會(huì)影響后續(xù)語(yǔ)音識(shí)別的結(jié)果。?
例如:用戶的語(yǔ)音內(nèi)容為“apple”,由于高頻信號(hào)被衰減掉,錄制的聲音中可能只留下了“p”和“l(fā)”的較強(qiáng)信號(hào),這將導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)誤認(rèn)為說(shuō)的是“pl”而不是“apple”。?針對(duì)這種現(xiàn)象,預(yù)加重通過(guò)加強(qiáng)高頻成分的能量和減少低頻成分的能量,讓不同頻率的音頻信號(hào)能夠在信號(hào)處理過(guò)程中均衡化,從而提高語(yǔ)音識(shí)別的準(zhǔn)確性。
為了更形象的理解“預(yù)加重”,可以將其類比于在圖像中的“銳化”,使得邊緣更為清晰。
分幀:原始語(yǔ)音信號(hào)是一個(gè)連續(xù)的波形,是一種時(shí)間和頻率上都變化較快的信號(hào),在語(yǔ)音識(shí)別的過(guò)程中,如直接對(duì)連續(xù)且長(zhǎng)的語(yǔ)音進(jìn)行計(jì)算處理,會(huì)增加計(jì)算的難度降低識(shí)別的準(zhǔn)確性。因此,為了提高語(yǔ)言識(shí)別結(jié)果的準(zhǔn)備性,需要將連續(xù)且長(zhǎng)的語(yǔ)音信號(hào)分為若干個(gè)固定長(zhǎng)度的幀,分幀后每幀內(nèi)的信號(hào)的頻譜變化就會(huì)較為緩慢、穩(wěn)定。
例如:以“打開空調(diào)”為例,假設(shè)錄制的語(yǔ)音時(shí)長(zhǎng)為2秒,采樣率為16000Hz,那么原始語(yǔ)音信號(hào)就是一個(gè)長(zhǎng)度為32000的一維向量,如果直接對(duì)這個(gè)聲音信息進(jìn)行語(yǔ)音識(shí)別,計(jì)算量會(huì)非常大,而且由于語(yǔ)音信號(hào)的頻率和幅度變化非常快,很難進(jìn)行有效的特征提取。
特征提取:完成去噪、預(yù)加重、分幀等前端處理后的語(yǔ)音信號(hào),不能直接用于識(shí)別,還需要將其變換到頻域,然后利用線性預(yù)測(cè)倒譜系數(shù)(LPCC)和 Mel 倒譜系數(shù)(MFCC)等方法,從語(yǔ)音信號(hào)中提取用來(lái)描述語(yǔ)音信號(hào)的各種特征,以便識(shí)別模型能夠更好地對(duì)其進(jìn)行分析和區(qū)分,這些特征包括:幀能量、音調(diào)(調(diào)子、語(yǔ)氣等)、基音頻率、音周期、共振峰、諧波結(jié)構(gòu)、聲道特性等。
為了更加形象的理解“特征提取”,可以將其類比為制作抖音電影解說(shuō)短視頻,在制作的過(guò)程中,你需要從完整的電影中篩選出最精彩、最有代表性的片段,需要對(duì)整部電影進(jìn)行剪輯,然后把這些片段組成一部短視頻,以便于快速地展現(xiàn)電影的精華和主題。
其他:原始音頻的預(yù)處理,除了去除噪音、預(yù)加重、分幀,還有加窗、語(yǔ)音信號(hào)能量歸一化、頻率濾波、動(dòng)態(tài)特征等,具體可以參考專業(yè)資料。
3.解碼:在完成原始音頻信號(hào)的預(yù)處理與特征提取之后,需要將提取到的特征輸入語(yǔ)音識(shí)別模型中通過(guò)聲學(xué)模型、詞典、語(yǔ)音模型的協(xié)同計(jì)算來(lái)得到最終的識(shí)別結(jié)果。
聲學(xué)模型:聲學(xué)模型負(fù)責(zé)對(duì)語(yǔ)音信號(hào)進(jìn)行特征提取和處理,生成一系列特征向量,然后使用這些特征向量來(lái)計(jì)算每個(gè)可能的音素的得分,并根據(jù)得分選出最可能的音素序列。
詞典:在生活中,我們有認(rèn)識(shí)的字的時(shí)候,可能會(huì)通過(guò)網(wǎng)絡(luò)搜索或查字典的方式去尋找答案。在語(yǔ)音識(shí)別系統(tǒng)中,也有需要一個(gè)詞典,用于識(shí)別音素對(duì)應(yīng)的漢字(詞)或者單詞。語(yǔ)音識(shí)別系統(tǒng)中的詞典包括了一系列的詞語(yǔ)和它們對(duì)應(yīng)的音素序列,這些音素序列反映了詞語(yǔ)在語(yǔ)音信號(hào)中的語(yǔ)音學(xué)特征和發(fā)音方式,通過(guò)將語(yǔ)音信號(hào)的實(shí)際發(fā)音與詞典中存儲(chǔ)的發(fā)音進(jìn)行匹配,語(yǔ)音識(shí)別系統(tǒng)可以推算出說(shuō)話人所說(shuō)的詞語(yǔ)。
語(yǔ)言模型:在通過(guò)聲學(xué)模型與詞典,得到一組候選詞語(yǔ)或句子的情況下,最后需要通過(guò)語(yǔ)言模型得到符合用戶表達(dá)內(nèi)容的結(jié)果。語(yǔ)音模型的作用就是通過(guò)統(tǒng)計(jì)文本中詞與詞之間的關(guān)系和概率,預(yù)測(cè)一個(gè)詞語(yǔ)或句子出現(xiàn)的概率大小,從而對(duì)識(shí)別出的多個(gè)文本候選結(jié)果進(jìn)行打分、排序和篩選,最終,得分最高的結(jié)果就是系統(tǒng)認(rèn)為最符合用戶表達(dá)內(nèi)容的結(jié)果。
舉個(gè)例子,如果用戶說(shuō)的是“我想要一杯咖啡”,在語(yǔ)音識(shí)別的過(guò)程中,可能會(huì)產(chǎn)生如下多個(gè)候選句子:我向要一杯咖啡我想要一輩咖啡我想要一杯可菲我向要一杯咖啡色菲語(yǔ)言模型通過(guò)預(yù)測(cè)每個(gè)識(shí)別候選結(jié)果的概率大小,就可以計(jì)算出每個(gè)候選結(jié)果的得分,從而篩選出最符合用戶表達(dá)內(nèi)容的最終結(jié)果,“我想要一杯咖啡”。?
4.輸出結(jié)果:指最終輸出識(shí)別結(jié)果,即轉(zhuǎn)換后的文本或指令等形式的結(jié)果。
(二)自然語(yǔ)言處理
1.自然語(yǔ)言理解
在完成用于語(yǔ)音內(nèi)容的識(shí)別之后,要讓設(shè)備能順利執(zhí)行用戶的意圖,還需要自然語(yǔ)言處理(NLP)算法模型對(duì)計(jì)算機(jī)可識(shí)別的文本進(jìn)行分析和處理,以理解用戶語(yǔ)言的含義和意圖,并根據(jù)需要進(jìn)行相應(yīng)的回答或操作,一般情況下,NLP算法模型對(duì)文本的處理過(guò)程包括 包括詞法分析、句法分析、語(yǔ)義分析等多個(gè)環(huán)節(jié)。
預(yù)處理:為了降低文本處理的復(fù)雜度,提高算法的精度和效率,文本本輸入自然語(yǔ)言理解模型前,需要先進(jìn)行預(yù)處理,如去掉句子中的特殊字符、停用詞、將所有字母變成小寫等。?
例如:停用詞是指一些在自然語(yǔ)言中使用比較頻繁但實(shí)際上并不具有實(shí)際含義,對(duì)于句子的語(yǔ)義理解貢獻(xiàn)較小的一些詞語(yǔ),比如一些代詞、介詞、連詞等等(如“的”、“和”、“就”、“在”、“用”等),這些停用詞雖然常常出現(xiàn)在文本中,但是對(duì)于計(jì)算機(jī)理解句子的真實(shí)含義并沒(méi)有太大幫助,只會(huì)增加文本處理的復(fù)雜度,降低算法的精度和效率。
分詞:自然語(yǔ)言理解模型,在理解在自然語(yǔ)言文本時(shí),不是整句直接分析的,而時(shí)通過(guò)對(duì)自然語(yǔ)言文本的每個(gè)組成部分(如單詞、短語(yǔ)等)的含義進(jìn)行深入的分析和理解,進(jìn)而確定整個(gè)文本的含義。因此,在對(duì)文本進(jìn)行預(yù)處理之后,需要對(duì)文本進(jìn)行分詞操作,將文本按照一定的規(guī)則切分成一個(gè)個(gè)詞語(yǔ),它的目的是將文本轉(zhuǎn)化為計(jì)算機(jī)可以處理的離散的詞語(yǔ)序列。舉個(gè)例子:以“導(dǎo)航去寶安機(jī)場(chǎng)”為例,通過(guò)分詞,可以得到以下詞語(yǔ)序列:導(dǎo)航 / 去 / 寶安機(jī)場(chǎng)。
詞性標(biāo)注:對(duì)每個(gè)詞語(yǔ)進(jìn)行詞性標(biāo)注,即確定每個(gè)詞語(yǔ)在句子中的詞性,通過(guò)對(duì)每個(gè)詞語(yǔ)進(jìn)行詞性標(biāo)注,可以確定詞在句子中的語(yǔ)法角色和含義,從而更準(zhǔn)確地進(jìn)行語(yǔ)義分析、句法分析等任務(wù)。常見的詞性包括名詞、動(dòng)詞、形容詞、副詞、介詞、連詞、代詞、數(shù)詞、量詞、助詞、嘆詞等。?
?舉個(gè)例子:以”導(dǎo)航去寶安機(jī)場(chǎng)“為例,”導(dǎo)航”:名詞、“去”:動(dòng)詞,“寶安”:名詞,“機(jī)場(chǎng)”:名詞,通過(guò)這樣的詞性標(biāo)注,可以分析出“導(dǎo)航”為主語(yǔ),“去”為動(dòng)詞,表示導(dǎo)航的動(dòng)作,“寶安”、“機(jī)場(chǎng)”由于都是名詞,可以確定它們是導(dǎo)航的目的地。
實(shí)體識(shí)別:指從文本中識(shí)別特定實(shí)體,例如如人名、地名、組織機(jī)構(gòu)名等,通過(guò)實(shí)體識(shí)別,計(jì)算機(jī)可以更準(zhǔn)確地理解文本中的內(nèi)容。
?舉個(gè)例子:以”導(dǎo)航去寶安機(jī)場(chǎng)“為例,實(shí)體識(shí)別可以識(shí)別出“寶安機(jī)場(chǎng)”是一個(gè)地名實(shí)體,通過(guò)這一步得到的結(jié)果,計(jì)算機(jī)可以更好地理解用戶的意圖。
句法分析:對(duì)句子的語(yǔ)法結(jié)構(gòu)進(jìn)行分析,確定句子中各個(gè)詞語(yǔ)之間的關(guān)系,其意義在于理清句子中的語(yǔ)法結(jié)構(gòu)和詞語(yǔ)關(guān)系以便于計(jì)算機(jī)進(jìn)一步理解語(yǔ)音交互中的用戶意圖。舉個(gè)例子:以“導(dǎo)航去寶安機(jī)場(chǎng)”為例,句法分析可以將這個(gè)句子分析為“導(dǎo)航 去 寶安機(jī)場(chǎng)”,從中獲取到“導(dǎo)航”是動(dòng)作, “去”是一個(gè)方向,“寶安機(jī)場(chǎng)”是具體的地點(diǎn)信息,這些信息對(duì)于計(jì)算機(jī)進(jìn)行后續(xù)處理是非常重要的。
語(yǔ)義分析:在完成預(yù)處理、分詞、詞性標(biāo)注、實(shí)體識(shí)別、句法分析等前置任務(wù)之后,接下來(lái)就需要進(jìn)行最后的語(yǔ)義分析,例如:情感分析、主體提取、語(yǔ)義聯(lián)想、語(yǔ)義角色標(biāo)注、槽位信息等,其主要意義是更全面地理解用戶輸入的意圖,幫助計(jì)算機(jī)能夠更好地理解用戶輸入的內(nèi)容,從而根據(jù)用戶意圖執(zhí)行相應(yīng)的操作。
舉個(gè)例子:以“導(dǎo)航去寶安機(jī)場(chǎng)”為例,經(jīng)過(guò)語(yǔ)義分析后,計(jì)算機(jī)可以清晰地理解用戶的意圖,即需要進(jìn)行導(dǎo)航操作,并且目的地是寶安機(jī)場(chǎng)。
結(jié)果輸出:將經(jīng)過(guò)預(yù)處理、分詞、詞性標(biāo)注、實(shí)體識(shí)別、句法分析、語(yǔ)義分析處理后的結(jié)果,按結(jié)構(gòu)輸出給自然語(yǔ)言處理中的對(duì)話管理模塊,進(jìn)行進(jìn)一步處理。舉個(gè)例子:以“導(dǎo)航去寶安機(jī)場(chǎng)”為例,自然語(yǔ)言理解最終輸出的結(jié)果為“動(dòng)作-導(dǎo)航,目的地-寶安機(jī)場(chǎng),起點(diǎn)-當(dāng)前位置。”
2.對(duì)話管理
在自然語(yǔ)言理解對(duì)語(yǔ)音識(shí)別的文本進(jìn)行分析處理之后,需要對(duì)話管理系統(tǒng)進(jìn)行意圖識(shí)別,確定用戶想要做什么,并且根據(jù)所處的對(duì)話狀態(tài)進(jìn)行狀態(tài)跟蹤,決定下一步需要執(zhí)行的操作或回復(fù)用戶的方式,這個(gè)過(guò)程包括根據(jù)用戶輸入的信息選擇相應(yīng)的策略、控制多輪對(duì)話流程、解決歧義等。對(duì)話管理系統(tǒng)是基于一個(gè)預(yù)先定義好的對(duì)話模型工作,對(duì)話模型中定義了對(duì)話流程、對(duì)話狀態(tài)、對(duì)話策略等,在對(duì)話管理過(guò)程中,系統(tǒng)會(huì)使用這個(gè)對(duì)話模型來(lái)處理用戶的請(qǐng)求。
意圖識(shí)別:在通過(guò)自然語(yǔ)言理解對(duì)文本的分析處理,得到用戶意圖的關(guān)鍵詞之后,對(duì)話管理系統(tǒng)負(fù)責(zé)將用戶意圖的關(guān)鍵詞與預(yù)設(shè)的意圖庫(kù)(或指令庫(kù))進(jìn)行對(duì)比來(lái)確定用戶的意圖,并進(jìn)一步?jīng)Q定下一步的操作。舉個(gè)例子:以“打開空調(diào)”為例,語(yǔ)音助手接收到語(yǔ)音信號(hào)后,會(huì)先進(jìn)行語(yǔ)音識(shí)別,將語(yǔ)音信號(hào)轉(zhuǎn)化為文本,然后,自然語(yǔ)言理解系統(tǒng)會(huì)對(duì)轉(zhuǎn)化后的文本進(jìn)行解析,提取其中的關(guān)鍵詞和語(yǔ)義信息,比如“打開空調(diào)”,理解用戶的意圖,接下來(lái),對(duì)話管理系統(tǒng)會(huì)根據(jù)用戶的意圖進(jìn)行響應(yīng)。
?
對(duì)話狀態(tài)跟蹤:指的是記錄和維護(hù)整個(gè)對(duì)話過(guò)程中的各個(gè)狀態(tài)信息,以便在后續(xù)的對(duì)話中進(jìn)行參考、分析和處理,狀態(tài)信息包括上下文、用戶意圖、技能選擇等等。
舉個(gè)例子:當(dāng)用戶詢問(wèn)“今天下雨嗎?”,對(duì)話管理系統(tǒng)可以通過(guò)狀態(tài)跟蹤,結(jié)合當(dāng)前的用戶意圖和上下文信息,快速準(zhǔn)確地回答用戶問(wèn)題。
3.自然語(yǔ)言生成
在語(yǔ)音交互系統(tǒng)中,當(dāng)對(duì)話管理系統(tǒng)確定要繼續(xù)與用戶對(duì)話或反饋執(zhí)行結(jié)果的時(shí)候,此時(shí)需要自然語(yǔ)言生成模塊根據(jù)對(duì)話管理系統(tǒng)的指令,從相關(guān)的知識(shí)庫(kù)或語(yǔ)料庫(kù)中提取信息,以及根據(jù)語(yǔ)境和上下文信息,將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為自然、邏輯連貫的文本,以人類語(yǔ)言回答用戶的問(wèn)題、提供建議或執(zhí)行任務(wù),其生成自然語(yǔ)言的過(guò)程一般包括:句法分析、語(yǔ)義分析、語(yǔ)法分析、信息抽取、輸出文本等步驟。
舉個(gè)例子,當(dāng)用戶詢問(wèn)“明天的天氣如何?”時(shí),自然語(yǔ)言生成模塊可能會(huì)根據(jù)當(dāng)前的時(shí)間和位置信息,生成類似于“明天的天氣為晴天,最高氣溫27℃,最低氣溫18℃”的文本回復(fù)內(nèi)容。
(三).語(yǔ)音合成
在通過(guò)語(yǔ)音識(shí)別、自然語(yǔ)言理解、對(duì)話管理、自然語(yǔ)言生成對(duì)用戶的語(yǔ)音信息進(jìn)行分析處理之后,最后想要機(jī)器開口與人交流,則需要語(yǔ)音合成系統(tǒng)將自然語(yǔ)言文本轉(zhuǎn)化為語(yǔ)音并通過(guò)輸出設(shè)備輸出給用戶。
語(yǔ)音合成系統(tǒng)既是語(yǔ)音交互的終點(diǎn)也是起點(diǎn),是語(yǔ)音交互系統(tǒng)的的重要底層技術(shù)之一,它基于語(yǔ)言模型、聲學(xué)模型、音頻處理等技術(shù),通過(guò)文本前置處理、聲學(xué)特征生成和音頻合成等關(guān)鍵步驟,將自然語(yǔ)言文本合成為高質(zhì)量、自然流暢的人類語(yǔ)音。
1.文本前置處理:在計(jì)算機(jī)獲得一段文本之后,要讓計(jì)算機(jī)像人類一樣開口講這段文本講出來(lái),首先需要讓機(jī)器知道文本中字、詞如何發(fā)音和文本要表達(dá)的意思與文本里蘊(yùn)含的情緒。因此,在語(yǔ)音合成系統(tǒng)中,第一個(gè)關(guān)鍵任務(wù)對(duì)文本的前置處理,具體包括:分詞、詞性標(biāo)注、句法分析、韻律預(yù)測(cè)、字形轉(zhuǎn)音素、對(duì)音字與變調(diào)分析等。舉個(gè)例子:舉個(gè)例子,比如輸入一段文本:“明天下雨,出門記得帶傘。”在文本前置處理的過(guò)程中,可能需要經(jīng)過(guò)分詞、音素標(biāo)注和添加天氣標(biāo)簽的處理,變成:“明天/t 下雨/v ,出門/v 記得/v 帶/v 傘/n ,天氣/t 標(biāo)簽/rainy。”
2.聲學(xué)特征生成:要想讓機(jī)器像人類一樣將自然語(yǔ)言文本內(nèi)容有韻律、頓挫、情感地說(shuō)出來(lái),就需要讓機(jī)器知道自然語(yǔ)言文本中每個(gè)音素的聲學(xué)特征,包括基頻、時(shí)長(zhǎng)、頻譜形態(tài)等,這些聲學(xué)特征是語(yǔ)音信號(hào)的特征,用于描述和控制語(yǔ)音信號(hào)的音色、音高、節(jié)奏等方面。因此,在完成文本預(yù)處理后,要將自然語(yǔ)言文本內(nèi)容合成為最近人類表達(dá)的語(yǔ)音內(nèi)容,就需要先將自然語(yǔ)言文本轉(zhuǎn)換成發(fā)音單元(音素),然后利用特定的算法將音素序列轉(zhuǎn)化為對(duì)應(yīng)的聲學(xué)特征。
3.音頻合成:這一步是將前面處理好的聲學(xué)特征和文本信息進(jìn)行結(jié)合,最終合成音頻文件,作為語(yǔ)音合成系統(tǒng)的輸出。具體來(lái)說(shuō),關(guān)鍵任務(wù)包括:波形合成、合成后處理等。
小結(jié):以上我從產(chǎn)品的視角,基于課程內(nèi)容、專業(yè)資料結(jié)合自身的理解,梳理的我對(duì)語(yǔ)音交互系統(tǒng)底層關(guān)鍵技術(shù)的理解,目的不在于學(xué)習(xí)語(yǔ)言交互相關(guān)的具體技術(shù)知識(shí),而是知其大概原理。如存在歧義,歡迎交流,并建議參考相關(guān)的專業(yè)書籍與資料。
三.智能座艙的語(yǔ)音交互
(一).語(yǔ)音交互對(duì)智能座艙的意義
在傳統(tǒng)的汽車座艙內(nèi),存在著大量的傳統(tǒng)機(jī)械和電子設(shè)備,駕乘人員在執(zhí)行駕駛?cè)蝿?wù)或使用汽車功能時(shí),需要不斷地操作各種控制器和按鈕,以控制車輛的速度、方向、功能等,這些操作可能同時(shí)占用駕乘人員的雙手、手眼、雙腳,不僅繁瑣和復(fù)雜,還容易導(dǎo)致駕駛疲勞和注意力不集中,從而增加駕駛安全的風(fēng)險(xiǎn)。
因此,為了提高汽車駕駛的安全性和舒適性,語(yǔ)音交互系統(tǒng)被應(yīng)用在汽車智能座艙中。語(yǔ)音交互系統(tǒng)通過(guò)語(yǔ)音交互的方式來(lái)代替部分駕駛操作,從而可以讓駕乘人員的雙手、手眼、雙腳更多地用于安全駕駛和應(yīng)急操作。例如,駕乘人員可以使用語(yǔ)音指令來(lái)操控空調(diào)、導(dǎo)航系統(tǒng)、音樂(lè)播放器等,而不需要手動(dòng)操作控制面板,減少了駕駛員的分心和疲勞,在一定程度上提高了駕駛安全性和方便性。
從消費(fèi)者的角度來(lái)看,語(yǔ)音交互系統(tǒng)不僅可以通過(guò)被動(dòng)的接收用戶的指令,幫用戶高效地完成人與車交互,而且可以為通過(guò)主動(dòng)式的交互為用戶帶來(lái)更智能化、情感化的人車交互體驗(yàn)。在當(dāng)前“人機(jī)共駕”階段,語(yǔ)音交互是座艙內(nèi)最直接、最人性化、最完全的交互方式。
從廠商的角度來(lái)看,由于語(yǔ)音交互系統(tǒng)具備較大個(gè)性化、自定義空間,廠商可以基于結(jié)合品牌定位與用戶需求,為用戶打造具有差異化特征語(yǔ)言交互系統(tǒng),在品牌差異化發(fā)展中發(fā)揮著重要的作用。另外,基于用戶的個(gè)性化需求,在基礎(chǔ)語(yǔ)音服務(wù)的基礎(chǔ)上衍生除很多付費(fèi)服務(wù)場(chǎng)景,例如,在samrt精靈1號(hào)上,付費(fèi)的語(yǔ)音助手形象,付費(fèi)的音助手裝扮。
(二).智能座艙語(yǔ)音交互場(chǎng)景
基于用戶、場(chǎng)景、需求,以語(yǔ)音交互系統(tǒng)為起點(diǎn),我們可以將智能座艙語(yǔ)音交互的場(chǎng)景抽象的分為主動(dòng)交互場(chǎng)景和被動(dòng)交互場(chǎng)景。
1.被動(dòng)交互場(chǎng)景:當(dāng)我們?cè)谟懻摗叭藱C(jī)交互”時(shí),大部分情況討論的是“被動(dòng)式交互”,它的實(shí)現(xiàn)邏輯很簡(jiǎn)單,即由人給機(jī)器發(fā)號(hào)施令,機(jī)器執(zhí)行并輸出結(jié)果反饋給人。如,傳統(tǒng)的被動(dòng)式語(yǔ)音交互,是由用戶主動(dòng)向機(jī)器輸入語(yǔ)音指令,然后由機(jī)器對(duì)用戶的音指令進(jìn)行分析、處里并執(zhí)行,以實(shí)現(xiàn)特定的功能,其能為用戶提供的最大價(jià)值僅僅是“君子動(dòng)口不動(dòng)手”。? ?
在人與車的交互場(chǎng)景中,被動(dòng)式的語(yǔ)音交互,僅能實(shí)現(xiàn)的是“不動(dòng)手”地去實(shí)現(xiàn)車身功能、信息娛樂(lè)的功能的控制。這種被動(dòng)式的交互,在某些情況下還是會(huì)分散用戶的注意力,從而造成安全隱患,例如:用戶在發(fā)起語(yǔ)言指令的時(shí)候,視線和注意力可能會(huì)從駕駛?cè)蝿?wù)上轉(zhuǎn)移。
2.主動(dòng)交互場(chǎng)景:不同于被動(dòng)式交互,主動(dòng)式交互以機(jī)器為起點(diǎn),機(jī)器可以自己主動(dòng)地輸入信息,主動(dòng)輸出執(zhí)行結(jié)果或建議給用戶。
在人與車的交互場(chǎng)景中,語(yǔ)音交互系統(tǒng)可以與其他模態(tài)交互融合,基于人、車狀態(tài)和內(nèi)外部環(huán)境,通過(guò)傳感器、攝像頭等設(shè)備主動(dòng)輸入信息進(jìn)行決策判斷,為用戶提供主動(dòng)的服務(wù),例如:主動(dòng)關(guān)懷服務(wù)、提醒服務(wù)、推薦服務(wù)等,主動(dòng)式的語(yǔ)音交互,在一步提高人車交互效率的同時(shí),還可以為用戶提供更加智能化、情感化的人交互體驗(yàn)。
(三).智能座艙語(yǔ)音交互系統(tǒng)基礎(chǔ)框架
智能座艙的語(yǔ)音交互系統(tǒng)是一個(gè)高度復(fù)雜的綜合系統(tǒng),它不僅需要精密的硬件與軟件協(xié)同配合,同時(shí)需要專業(yè)的運(yùn)營(yíng)管理來(lái)保障其可靠性和穩(wěn)定性。總的來(lái)看,整個(gè)系統(tǒng)可以分為硬件層、服務(wù)層、應(yīng)用層和運(yùn)營(yíng)管理平臺(tái)四個(gè)組成部分。
1.硬件層:在語(yǔ)音交互系統(tǒng)中,硬件層是智能座艙語(yǔ)音交互系統(tǒng)的物理基礎(chǔ),關(guān)鍵的硬件設(shè)備包括輸入/輸出設(shè)備和音頻處理芯片,其中輸入/輸出設(shè)備負(fù)責(zé)采集用戶的語(yǔ)音指令和反饋信息,主要包括:麥克風(fēng)陣列、揚(yáng)聲器、攝像頭、傳感器、燈光等,芯片部分主要負(fù)責(zé)音頻信號(hào)的處理與分析,主要包括數(shù)字信號(hào)處理器(DSP)、音頻解碼器、音頻放大器等。
2.服務(wù)層:服務(wù)層是智能座艙語(yǔ)音交互系統(tǒng)的核心,它承擔(dān)著語(yǔ)音、圖像等信息的處理和解析,并提供必要反饋和響應(yīng)的重要任務(wù)。主要包括自然語(yǔ)言處理(NLP)引擎、語(yǔ)音識(shí)別引擎、語(yǔ)音合成引擎、聲紋識(shí)別、云端服務(wù)、API服務(wù)、業(yè)務(wù)邏輯處理服務(wù)等模塊。
3.應(yīng)用層:應(yīng)用層是指基于服務(wù)層提供的核心能力與用戶的實(shí)際需求相結(jié)合,為用戶提供的具體應(yīng)用程序,以幫助用戶通過(guò)語(yǔ)音交互實(shí)現(xiàn)具體的功能控制。例如,車身控制模塊中的空調(diào)控制、座椅控制、車窗控制等應(yīng)用,以及信息娛樂(lè)模塊中娛樂(lè)、通訊、導(dǎo)航等應(yīng)用。
4.運(yùn)營(yíng)管理平臺(tái):用戶在使用語(yǔ)音交互系統(tǒng)的過(guò)程中,會(huì)產(chǎn)生大量的用戶行為數(shù)據(jù)與音頻、文本、圖像數(shù)據(jù),運(yùn)營(yíng)管理平臺(tái)通過(guò)對(duì)這些數(shù)據(jù)的統(tǒng)計(jì)分析,為語(yǔ)音交互系統(tǒng)與各種AI模型的持續(xù)優(yōu)化提供數(shù)據(jù)支持。從業(yè)務(wù)角度分類,運(yùn)營(yíng)管理平臺(tái)主要分為兩大核心模塊:用戶數(shù)據(jù)統(tǒng)計(jì)分析和模型數(shù)據(jù)運(yùn)營(yíng)。
用戶數(shù)據(jù)統(tǒng)計(jì)分析模塊,可以對(duì)實(shí)車用戶使用語(yǔ)音交互系統(tǒng)的行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析,從而生成不同維度、不同粒度的分析報(bào)表。這些報(bào)表可以幫助我們深入了解用戶使用習(xí)慣和偏好,及時(shí)發(fā)現(xiàn)并解決系統(tǒng)存在的問(wèn)題,為語(yǔ)音交互系統(tǒng)的優(yōu)化提供數(shù)據(jù)依據(jù)。
模型數(shù)據(jù)運(yùn)營(yíng)模塊,可以通過(guò)對(duì)用戶在使用語(yǔ)音交互系統(tǒng)過(guò)程中產(chǎn)生的大量音頻、文本、圖像數(shù)據(jù)的定期回收與采集、標(biāo)注,生產(chǎn)出各個(gè)AI模型需要的數(shù)據(jù),為模型訓(xùn)練提供數(shù)據(jù)支持。
編輯:黃飛
?
評(píng)論
查看更多