什么是 NLP
自然語言處理(NLP)是人工智能(AI)的一個分支,其目標是讓計算機能夠像人類一樣理解、處理和生成自然語言。自然語言,又稱人類語言,一般以文字或文本的形式存在于計算機中,從而在某些地方,也被通俗的稱為文本智能處理。與自然語言相對的是形式語言(比如 Python 等編程語言),計算機可以精確地處理。自然語言往往因為在使用中省略背景,模糊而不精確、多義、引申、晦澀,甚至由于各種原因而故意使用曲折的表達,而使計算機處理自然語言時困難重重,成為人工智能發展中最大的難點之一。
NLP 技術誕生于1950年代,其分支也枝繁葉茂。有基于語法和規則的方法,也有基于統計學習的方法,從21世紀初以來蓬勃發展的深度學習、深度強化學習和遷移學習的方法在 NLP 領域也被廣泛地使用。微觀層面,在學術界一般將 NLP 劃分為四個層級:即詞法(Lexicon)、句法(Syntax)、語義(Semantics)和語用(Pragmatics)。面向普通大眾,也通常使用偏向應用層面的直接的劃分方法,即字詞級、句段級和篇章級。
NLP 技術在宏觀層面通常又劃分為劃分為自然語言理解(NLU)和自然語言生成(NLG)兩部分。通俗的講,自然語言理解就是我們常說的“閱讀”,即讓計算機讀懂語言文字的技術。而自然語言生成則是“寫作”,即讓計算機能夠像人類一樣寫句子和文章的技術。除此之外,光學字符識別(OCR)和語音技術(包括識別與合成),也會在某些場景下被歸為自然語言處理的一部分,但本文不涉及這兩塊內容。
NLP 是實現認知智能的關鍵
人工智能(AI)通常被分為三大塊:計算智能,感知智能和認知智能。計算智能方面,以 AlphaGo 打敗了人類圍棋最頂尖選手李世石和柯潔為標志,已將人類遠遠拋在后面。感知智能則以語音和圖像技術為代表,對應于人類的視覺和聽覺,經過近十幾年深度學習、遷移學習等技術的發展,也在非常多領域超越了人類。人工智能在近些年不斷的在計算智能和感知智能上發展,一方面是技術迅猛發展的原因,另外一方面也是人類并不擅長這兩種。然而,在認知智能上,目前還有待技術層面的進一步突破,而這里面的關鍵就是 NLP 技術。
一般認為,認知智能是以語言為基礎,實現推理、思考、決策和想象。語言,是人類區別于動物的標志性能力,而讓機器擁有語言能力的關鍵技術就是自然語言處理技術。當前計算機在認知智能上還處于非常初級的階段,特別是在中文上。今年遍地開花的各類智能音箱,隨便與之對話幾句便能夠感受到強烈的“智障”氣息。因此,為了達到更強的認知智能,急需 NLP 技術的進一步發展。當前學術界的熱點也在往 NLP 領域遷徙,投向 NLP 方面的資本也在增加。
遷移學習和預訓練模型在 NLP 領域出現了突破
以 ImageNet 為代表的預訓練模型以及相應的遷移學習技術,促使了感知智能的極大發展。為了提升認知智能的水平,必須在 NLP 技術上有所突破。在深度學習出現以后,對于有大量標注數據的場景,比如中文和英文之間的機器翻譯,通過深度學習和 NLP 技術的結合能夠達到不錯的效果。然而對于缺乏標注數據的絕大多數場景,則依賴于好的預訓練模型以及遷移學習技術的發展。此前,這個在圖像領域已經被證明了的范式,在 NLP 領域一直發展得不溫不火。大概是量變引起質變,從 Word2Vec 出現以來,NLP 領域的預訓練模型在 5 年內的積累,以及深度網絡在 NLP 領域的應用,使得今年出現了突破。這里面最耀眼的當屬 Google 剛剛提出的 BERT 預訓練模型以及基于 BERT 的遷移學習。
NLP領域的預訓練模型的發展歷史(配圖:達觀數據)
早在 2013 年 Google 提出了 Word2Vec 之后,NLP 領域的深度學習就開始使用預訓練模型,而后斯坦福大學提出的 GloVe 和 Facebook 提出的 Fasttext 則是進一步發展。然而在今年之前,這方面的嘗試大都局限于使用淺層網絡,在詞的層面上進行建模。針對具體的應用場景,要達到較好的效果依然需要非常大量的標注語料。預訓練深層模型以及之上的遷移學習在圖像領域的成功,引領著 NLP 領域專家們也在思考如何實現同樣的范式。多年的努力與探索,終于在今年迎來了豐收。
首先是年初發表于 NAACL-HIT 2018 的 ELMo 預訓練模型,用正向和反向兩個 LSTM 語言模型(BiLM)在通用語料上進行訓練,將得到的預訓練好的模型(即 ELMo)用于深度網絡的輸入上,在多個任務上能夠明顯改善已有的模型的效果。
此后,FastAI 基于三層 AWD-LSTM 構建出的語言模型,使用大規模通用語料預訓練出 ULMFiT 模型。將該模型應用于特定領域,只要使用非常少量的標注數據就可以達到普通模型需要大量標注數據的效果。這個模型的成功,使得大家看到了遷移學習在 NLP 領域上的曙光。
緊接著,OpenAI 使用 Transformer 和無監督結合的方法在大規模通用語料上進行訓練,得到預訓練好的 GPT 模型。針對特定的場景,在預訓練好的 GPT 模型基礎上,用小得多的數據集進行有監督學習,獲得了當時最好的成績。
2018 年10月,Google 在 GPT 的基礎上進一步改進,提出了基于 Transofrmer 的 BERT 模型。在訓練 BERT 的過程中,Google 構造出 MLM(Masked Language Model)語言模型,這是一個“真”雙向語言模型。并在通用的大規模語料 BooksCorpus(800Mwords)加上英文維基百科(2,500M words)上進行無監督訓練,得到預訓練模型 BERT。論文中,使用預訓練的模型 BERT 在 11 個任務上進行有監督的微調(遷移學習),其效果全部達到當前最優。特別地,在斯坦福問答評測數據集(SQuAD 1.1)上超越了人類專家的評測結果。
BERT、OpenAI GPT 和 ELMo 三個模型的示意圖
BERT 的出現及其在多個任務上進行遷移學習所達到非常好的效果,證明了預訓練模型和遷移學習的范式在NLP領域同樣有效。這將在接下來的一段時間中,極大地促進 NLP 的發展。這是因為絕大多數場景都缺乏大量的標注語料,BERT 的成功使得人們看到了曙光。春江水暖鴨先知,也許可以說,NLP 的春天來了。
除了前面提到的遷移學習,其他遷移學習的方法也取得一些進展。比如對風格遷移的研究,多語言和跨語言的遷移學習等。除此之外,在知識圖譜領域中,應用于實體、關系和事件抽取的遷移技術也有一定的進展。
NLP各個方向的進展多姿多彩
在 NLP 上的遷移學習之外,深度強化學習(Deep Reinforcement Learning, DRL)技術在 NLP 上的應用也表現出色。深度強化學習最耀眼的表現莫過于 Google 的 AlphaZero,通過完全舍棄人類經驗,僅根據圍棋規則構建深度強化學習模型,通過超級計算力進行學習,并最終打敗了當前圍棋界公認的最頂尖的大師柯潔。這證明了強化學習技術的能力非凡,多個團隊將其在NLP領域進行了嘗試。這些嘗試包括使用 DRL 進行機器翻譯,摘要生成、信息抽取、問答系統等,并都取得了非常不錯的效果。
生成對抗網絡(GAN)也是當前最熱門的技術之一,今年在圖像生成方面非進展非常大。特別值得一提的是,Deepmind 發布了 BigGAN 模型,該模型生成的圖片非常的逼真,在 ImageNet 的評測集上從之前的最高分 52.52 提升到 66.3,效果的提升簡直慘無人道。然而,GAN 在 NLP 領域所取的成績則遜色很多。部分研究者使用 GAN 在信息抽取上獲得不錯的效果,在自然語言生成 NLG(包括摘要生成等)上有所進展,并且在機器翻譯、詞性標注等方面進行了一些嘗試。
行業應用出現系統化和集約化
另外,同樣重要的一方面是如何將這些成果應用于工業界,幫助企事業單位和科研研所等提升效率。而這也決定了資本是否能夠持續投入,從而促使 AI 走向更強的認知智能。可喜的是,各行各業對 NLP 的接受越來越高,也越來越希望使用 NLP 技術幫助他們實現精耕細作和提升效率。
系統化體現在需要運用 NLP 方方面面的技術,甚至結合其他人工智能技術來實現業務的需求。從 NLP 傳統應用領域—搜索說起。幾乎可以說,現代 NLP 技術是伴隨著搜索引擎的發展一起成長的。然而,此前,搜索系統上用到的 NLP 技術更多的是在字詞層面上,而今年開始,專業的搜索幾乎都要求句段以及篇章級別的搜索。
招聘領域是一個典型的場景,以往的搜索引擎都是根據 HR 提供的關鍵詞進行簡歷搜索,而今年,達觀智慧招聘提供的人崗匹配功能則是直接根據 JD(職位描述)來自動的從簡歷庫里面搜索簡歷,實現篇章級的搜索功能,并在多個 10 萬員工級別的企業實施,效果非常好。與此類似的場景還包括根據專利搜索相似專利,根據文檔(比如 doc,pdf 等)搜索相似文檔等等。除此之外,時至今年,問答式搜索幾乎已經成為垂直搜索引擎的標配;與知識圖譜結合實現推理性搜索也在部分領域(如金融、大型企業的信息管理、科研機構等)嘗試中,未來可期。
與此同時,信息抽取技術也取得了極大的發展。像 DRL(深度強化學習)和 GAN(對抗生成網絡)等技術被應用到實體和關系的抽取環節中,從而對知識圖譜的構建起到較大的促進作用。目前工業界在行業知識圖譜的構建中,基于規則的算法和基于模板的算法依然占據大多數,期待接下來能夠促進這些技術進展在知識圖譜中的廣泛使用,實現知識工程的自動化,為認知智能的實現添磚加瓦。
文本的自動化審核,也開始逐步被市場接受。文檔審核涉及多方面技術,是 AI 和 NLP 技術在工業界系統化應用的直接體現。其技術包括基于語言模型的錯別字審核、通過信息抽取技術進行關鍵要素的精準抽取、基于領域詞表或實體抽取審核要素完整性和一致性,以及基于前述信息之上構建布爾邏輯的審核。文本自動化審核應用非常廣泛,像法務合同、金融類文檔(如財報、股票發行說明書等)、新聞和公文等等。
文檔審閱系統(配圖:達觀數據)
前面提到的大多是從 NLP 的“讀”(即 NLU)的層面的應用,與之相應的 NLG 方面則剛剛出現萌芽,大面積的應用還未出現,期待在接下里的一年里技術上能夠有所突破,從而使得AI寫作方面在工業界的應用能夠全面開花。
目前,NLG 部分的應用主要體現在幾個方面:部分公司在嘗試使用 NLG 技術來進行新聞寫作,從而實現部分新聞(如股市收評,體育快報等)的實時推送;部分技術領先的智能客服企業會使用NLG技術來生成問題的回答,從而實現更接近人的交互。今年 5 月份的 GoogleAssistant 的演示表現出來的驚艷的一幕,也有 NLG 的一份功勞。
除了應用多種技術來實現系統化的應用之外,集約化也是今年 NLP 領域的主題之一。“集約”原意是指農業上在同一土地面積上投入較多的生產資料和勞動,進行精耕細作,以提高單位面積產量從而來增加產品總量。這里是指將 NLP 技術應用于某個特定領域,從而提高生成效率。首先是司法方面,嘗試使用 NLP 技術來幫助法院法官的審判。司法智能所要求能夠深入理解長篇文檔的內容,而這涉及到對大規模語料的訓練以及將結果遷移到專業領域。而遷移學習在文本上的應用恰好在今年實現了突破,故而司法智能這類的領域應用則是水到渠成的。同樣的應用還有科技情報、企業內部的知識管理,以及金融領域的監管智能等等。
從NLP邁向認知智能
今年 NLP 技術的突破可喜可賀,行業應用也全面開花。然而,NLP 的核心問題依然存在,主要體現在幾個方面:
NLU 有待進一步突破,提高機器理解文字的能力,與人類進行更好地交互。
標注語料的積累;由于 NLP 的特點,與圖像、語音領域相比,即便專家也很難做好語料標注,質與量的積累都是關鍵因素。
能效比有待提升;目前雖然很多模型效果不錯,但其訓練和預測過程所需時間很長,對計算力的要求非常高。
遷移學習研究與應用的還需更大的發展;可以更低成本地實現從通用到領域、從領域到通用的知識遷移;
亟待 NLG 技術的進一步發展;目前 NLG 方面的突破還乏善可陳。
期待知識工程和知識圖譜領域的新進展與突破;如何自動、持續地構建更加全面的知識庫是一個極大的挑戰。
總的來說,從科研界到工業界再到資本市場的積極投入,人才也不斷地積累,NLP 技術在未來幾年會更加蓬勃發展,相信上面提到的這些問題在接下來的幾年內會被逐步的解決。特別地,延續今年的突破,明年遷移學習在 NLP 的應用還會上一個臺階;NLG 方面今年已見曙光,期待明年在此方向有所突破。標注語料庫、知識工程和知識圖譜等概念已經深入產業的人心,這方面會持續積累,也許未來 3 到 5 年會實現量變到質變的變化。而這里面最難的當屬能效比,可能需要從基礎科學到芯片到 NLP 等各方面專家的努力,期待的是在未來 5 年能有所發展。
當這些問題在被逐步解決的時候,也是機器逐步實現認知智能的時候,從而實現在大部分場景下幫助人類解決文字處理相關的工作,讓人類不用再加班,與機器的交互更加自然和諧,使得我們的生活更加美好。而 NLP 人工作的點點滴滴,最終都會匯聚在這條美好的生活的大江中。“合抱之木,生于毫末”,對于 NLP 來說,我們不斷在成長,蒼天大樹即將長成,認知智能咫尺可期。
-
人工智能
+關注
關注
1791文章
46863瀏覽量
237587 -
nlp
+關注
關注
1文章
487瀏覽量
22012
原文標題:幫AI擺脫“智障”之名,NLP這條路還有多遠?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論