對話系統可以說是NLP領域目前已知最扎實的落地場景了,整個流程都脫離不了NLP的核心作用,而且整個流程涉及NLP的大量任務,因此大量的研究都圍繞著對話系統來開展,也因此產生了很多很有意義的新方法。而檢索式對話作為對話系統最原始的實現方式,又蘊涵著什么有意思的東西,我們來看看。
什么是對話系統
對話從來就不是一個簡單的任務,這是一個涉及理解、生成、交互等多個方向技術的綜合實體。
理解:需要理解對方輸出的內容,只有這樣才能給與正確的回應。
生成:基于理解的內容,給出合適的結果。
交互:在多輪對話上,需要記錄跟蹤整個對話過程中涉及的內容。
要同時完成這么多任務,相必是非常復雜的,同時場景上的復雜性,客服、語音助手、閑聊等,也造就了對話系統的復雜性,最終成為了NLP里面一個重要的研究抓手和目標。
檢索式對話
檢索式對話按照個人理解應該是最為經典的解決方案,把一個對話問題抽象為一個搜索問題,大量早期的對話系統都是用這種解決方案來實現的,甚至在現在,一些簡單的對話任務,都可以用它來簡單實現,可以說是工業界最喜歡的一種實現方式了。簡單地說,整個檢索式對話的流程可以用這個流程來表示:
query理解->檢索召回->相似度排序
沒錯,看著就是搜索的流程,對句子進行理解,理解后到數據庫里面進行召回,召回以后再進行相似度排序找到最佳答案。既然流程被拆解,那我們來看看每一步里面都會做什么東西。
query理解
簡單的說,其實就是去理解用戶輸入的內容說的是啥,一般的自然語言理解主要關心的是這么幾個技術細節:
意圖和話題。即用戶談論的是哪個領域的事情,從而剖析用戶期待對話系統返回的是什么。這個問題常被當成分類問題來處理,用分類規則或者是方法來進行意圖識別。一旦抽象成分類問題大家就應該大概理解了,就是fastext、textcnn之類的玩意了。
槽位和實體。我們需要知道用戶需要什么,需要抽取用戶的具體實體,這個經常被抽象為序列標注問題,此時CRF、BILSTM-CRF之類的方法就是基操了。
當然,也有一些工程上會把它抽象化,只是轉化為向量或者矩陣,下游用矩陣進行搜索。
總之,query理解這塊,主要是為了解析用戶說的內容,去理解他的語義,這樣我們才能為用戶找到合適的答案。
檢索召回
召回這塊,按照搜索的操作,就是拿著我們提取的槽位和實體,甚至是我們解析的向量和矩陣,根據意圖和話題放到搜索引擎里面去檢索,搜索引擎中有倒排索引,直接拿著關鍵詞就能找到對應的內容。
然而,問題其實不在怎么檢索召回,而是在于召回的內容怎么來。相比搜索引擎,對話系統的內容可能更加不結構化,同時可得性由于特定需求其實并不好得,例如淘寶的客服,每家店的商品性質各不相同,很難需要召回的結果,有正確答案的就更難了,所以,常用的方式有這幾種:
對高頻問題進行編輯,然后統一維護管理。數白了就是人編。
基于一些模板進行組裝生成。
利用文本生成的方式進行處理。
相似度排序
一般地,根據用戶最簡單的query,往往能召回很多可能比較好的答案,此時我們要選擇最優的給用戶。衡量最優的標準之一就是相似度,語義相似度就是最為經典或者說基本的相似度衡量方式,當然搜索領域的ctr(不是點擊率)、cqr、BM25等,這些非常基本的元素。
對經典的語義相似度,就要說2013年的DSSM了,這個模型可謂是開了語義相似度雙塔結構的先河。
優缺點和應用場景
說完了具體的流程,然后再說說檢索式對話的優點和應用場景。
先談談優點吧。
應該是這么多種對話實現方式中對樣本依賴最低的。
實現成本低,初版本實現速度快,后續拓展
三段處理,可控性強。
因為這些優點,檢索式對話在工程上被廣泛應用。
客服機器人。尤其是淘寶的場景,這里有非常專業的內容,例如用戶會問浴缸的長寬高,會問電腦的配置等等,這些用檢索式非常方便。
問答類對話。例如小猿搜題之類的,還有一些百科類的問答,雖然不知道具體公司的操作,但是用檢索式的確會非常方便。
對話系統初版本。即使是很多開放域,第一版本的構造都會嘗試檢索式對話的架構。
當然了,檢索式對話這套實現方案還是有很大的局限性,因此才會有很多項目嘗試做一些別的做法,先聊聊缺點:
答案相對固定,靈活性不足,在一些閑聊場景,會非常困難。如,用戶問一句,你好,后面有很多答案都是合理的。
任務型的對話,在各種語音助手,小度、siri之類的很常見,一些引導用戶完成任務的工作,對話機器人是需要做一個主動帶節奏的角色,檢索式基本辦不到。
多輪對話。在檢索式對話基礎上,單輪對話升級為多輪對話其實是存在明顯的天花板,成本也比較高,雖然已經有一些相關的操作,如Multi-view、SMN之類的,但是實現的難度還是會有些高。
小結
小結一下,檢索式對話作為對話系統一個經典的技術,非常有必要學習和探究,今天大概講了一些流程和概述,也希望大家有所收獲。
責任編輯:xj
原文標題:【對話】對話系統經典:檢索式對話
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
nlp
+關注
關注
1文章
487瀏覽量
22011 -
對話系統
+關注
關注
0文章
7瀏覽量
2180
原文標題:【對話】對話系統經典:檢索式對話
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論