機器學習以及自然語言處理技術的進步,開啟了人與人工智能進行語音交互的可能,人們透過對話的方式獲取信息、與機器進行交互,將不再只是存在科幻情結當中。語音交互是未來的方向,而智能音箱則是語音交互落地的第一代產品。
1語音交互流程簡介
AI 語音所需要的技術模塊有 4 個部分,分別為:
·自動語音識別(Automatic Speech Recognition, ASR)
·自然語言理解(Natural Language Understanding, NLU)
·自然語言生成(Natural Language Generation, NLG)
·文字轉語音(Text to Speech, TTS)
以叮咚開發(fā)文檔中的語音交互流程圖來看Ai 對話技術的主要路徑:
從上圖中可以看到,用戶與設備之間的交互,主要是采用語音方式處理和完成的。
2語音交互流程設計
一次完整的語音交互流程,成功的語音對話,通常是有以下幾個階段。
1.交互流程的核心—意圖
所謂意圖,表示用戶在使用應用時所做的動作(譬如:問一個問題或發(fā)送一條指令),這些意圖代表了應用的核心功能。
如果應用成功地識別了用戶意圖,則需要在完成業(yè)務動作后,將結果反饋給用戶;如果應用無法識別用戶意圖,則需要給用戶友好的提示,指導用戶使用。
用戶:七星彩的開獎時間是什么時候?Ai:體育彩票七星彩每周二、周四和周日開獎。
2. 如何識別意圖—語義解析
對語音識別結果進行分析理解,簡單來說就是將用戶語音輸入映射到機器指令。它可能定義了一組包含指定的單詞或短語的語法結構,用戶通過說出滿足這種結構的語句,來調用意圖。
用戶:我要{聽} {周杰倫}的{稻香}Ai:稻香.mp3
3.如何處理意圖—云端交互
調用意圖的結構化請求,向服務器請求處理后做出反饋響應。通俗來講該流程主要處理用戶的請求,解決用戶問題的答案。
4、語言合成模塊 – 組織語言
根據解析模塊得到的內部表示,在對話管理機制的作用下生成自然語言句子。同時將生成模塊生成的句子轉換成語音輸出。(把回答的機器語言再轉換成 口語語言)
3中文自然語言處理的關鍵技術
1、詞法分析
詞法分析包括詞形和詞匯兩個方面。一般來講,詞形主要表現在對單詞的前綴、后綴等的分析,而詞匯則表現在對整個詞匯系統(tǒng)的控制。在中文全文檢索系統(tǒng)中,詞法分析主要表現在對漢語信息進行詞語切分,即漢語自動分詞技術。通過這種技術能夠比較準確的分析用戶輸入信息的特征,從而完成準確的搜索過程。它是中文全文檢索技術的重要發(fā)展方向。
2、句法分析
句法分析是對用戶輸入的自然語言進行詞匯短語的分析,目的是識別句子的句法結構,實現自動句法分析過程。其基本方法有線圖分析法、短語結構分析、完全句法分析、局部句法分析、依存句法分析等。
3、語義分析
語義分析是基于自然語言語義信息的一種分析方法,其不僅僅是詞法分析和句法分析這樣語法水平上的分析,而是涉及到了單詞、詞組、句子、段落所包含的意義。其目的是從句子的語義結構表示言語的結構。中文語義分析方法是基于語義網絡的一種分析方法。語義網絡則是一種結構化的,靈活、明確、簡潔的表達方式。
4、語境分析
語境分析主要是指對原查詢語篇以外的大量“空隙”進行分析從而更為正確地解釋所要查詢語言的技術。這些“空隙”包括一般的知識,特定領域的知識以及查詢用戶的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯(lián)系起來,補充完善了詞法、語義、語用分析的不足。
4Ai對話目前存在的問題
人機對話過程中,用戶難免會出現表達失誤的情況,導致機器對用戶語言理解出現偏差,在這時, 糾錯機制對機器而言則非常重要,如缺少這個機制,用戶需要花費相當長的時間將其意圖解釋清楚,相應的用戶體驗也會十分糟糕。另一方面,雖然可以很好的識別語音,但是卻不能理解你的對話目的,語義理解上有偏差。
當前,包括Alexa在內的國內外智能音箱之所以沒有表現的那么智能,出現了“人工智障”的嘲笑也是因為在以上兩方面沒有處理太好。
因此語音交互最終需要解決的關鍵問題是 歧義消解問題,和未知語言現象的處理問題。
-
人工智能
+關注
關注
1791文章
46859瀏覽量
237566 -
語音技術
+關注
關注
2文章
226瀏覽量
21266 -
自然語言處理
+關注
關注
1文章
612瀏覽量
13504
原文標題:四大方面解析AI語音技術,你不了解的人工智能語音識別
文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論