比爾·蓋茨曾說過,「語言理解是人工智能皇冠上的明珠」。自然語言處理的進步將會推動人工智能整體進展。NLP 的歷史幾乎跟計算機和人工智能的歷史一樣長。自計算機誕生,就開始有了對人工智能的研究,而人工智能領(lǐng)域最早的研究就是機器翻譯以及自然語言理解。
隨著大數(shù)據(jù)和技術(shù)設(shè)施的完善,人工智能技術(shù)在近年來迎來了井噴式的發(fā)展。在產(chǎn)業(yè)方面,不少專注于計算機視覺的公司也獲得了長足發(fā)展。其中比較具有代表性的是估值已經(jīng)超過 20 億美元的商湯科技,在經(jīng)歷了數(shù)輪大額融資之后,其隱隱有從獨角獸變成巨頭的趨勢。
不過,人工智能另一個相關(guān)領(lǐng)域自然語言處理似乎沒有達到這種高度。在技術(shù)方面,這一領(lǐng)域的技術(shù)準確率遠遠沒有達到計算機視覺和語音識別的水平,技術(shù)產(chǎn)品也因為較高的錯誤率,缺少實際價值。那么 NLP 技術(shù)到底有哪些難點呢?
什么是 NLP?
在人工智能出現(xiàn)之前,計算機只能處理結(jié)構(gòu)化的數(shù)據(jù),就比如我們平時用的表格里的數(shù)據(jù),但是網(wǎng)絡(luò)中大部分的數(shù)據(jù)都是非結(jié)構(gòu)化的,比如我們看到的文章、圖片、視頻等等。在這些數(shù)據(jù)中,文本數(shù)據(jù)又往往是最多的,為了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術(shù),讓機器理解這些文本信息,并加以利用。
人類可以通過語言來交流,而為了讓計算機之間互相交流,人們讓所有計算機都遵守一些規(guī)則,計算機的這些規(guī)則就是計算機之間的語言。自然語言處理(NLP)就是在機器語言和人類語言之間溝通的橋梁,以實現(xiàn)人機交流的目的。
NLP 的兩個部分:NLU 和 NLG
自然語言理解(NLU) 則是 NLP 的一部分,這幾年深度學習技術(shù)的發(fā)展使 NLU 能在一些場景中落地。自然語言理解就是希望機器像人一樣,具備正常人的語言理解能力,由于自然語言在理解上有很多難點 (下面詳細說明),所以 NLU 是至今還遠不如人類的表現(xiàn)。
NLU 目前應用的領(lǐng)域主要集中在機器翻譯、機器客服、智能音箱等領(lǐng)域,但由于需要大量的數(shù)據(jù)訓練和 NLU 本身存在的一些語言語義上的難點,其實機器還不是非常智能。
自然語言生成(NLG)是 NLP 的重要組成部分,NLU 負責理解內(nèi)容,NLG 負責生成內(nèi)容。他的主要目的是降低人類和機器之間的溝通鴻溝,將非語言格式的數(shù)據(jù)轉(zhuǎn)換成人類可以理解的語言格式。
自然語言生成 – NLG 有 2 種方式:
text – to – text:文本到語言的生成
data – to – text :數(shù)據(jù)到語言的生成
NLP 的難點
對于機器來說,難點主要分為 5 類問題:
語言的多樣性,我們?nèi)粘K玫恼Z言是沒有規(guī)律的,不同的組合可以表達出很多的含義。
語言的歧義性,如果不聯(lián)系上下文,缺少環(huán)境的約束,語言有很大的歧義性
語言是一個開放集合,我們可以任意的發(fā)明創(chuàng)造一些新的表達方式。
語言需要知識依賴,需要聯(lián)系到實踐知識。
語言的上下文
應用場景復雜,很難出現(xiàn)“獨角獸”
總的來說,NLP 技術(shù)領(lǐng)域之所以沒有出現(xiàn)如計算機視覺領(lǐng)域那些獨角獸公司,是因為自然語言處理的技術(shù)難度太大,和應用場景太復雜。一個公司的成立發(fā)展都是由需求驅(qū)動的,自然語言應用主要是機器翻譯,雖然機器翻譯的需求長期存在,但機器翻譯的水平一直未取得突破性的進展,即使到今天,機器也很難翻譯有背景的復雜句子。
另外,自然語言處理的應用太依賴于UI了。圖像識別基本不需要 UI,直接在系統(tǒng)內(nèi)部集成一些技術(shù)就行。一些公司做翻譯軟件,如果UI做得不行,用戶體驗不行,人們就不會愿意使用。
技術(shù)產(chǎn)業(yè)化最重要的是商業(yè)模式,也就是怎么讓技術(shù)掙錢。圖像識別公司的掙錢模式已經(jīng)成立了,但翻譯付費就難多了。所以自然語言是從研究到技術(shù)到落地到商業(yè)化,面臨一系列的挑戰(zhàn)。目前的現(xiàn)狀是,自然語言處理技術(shù)更多的是作為公司內(nèi)部技術(shù),比如內(nèi)部的商業(yè)情報或人機接口功能。
NLP 技術(shù)發(fā)展,未來可期
從今年的 ACL 大會可以看出 NLP 技術(shù)的火爆。會議共收到了 2900 余篇提交的論文,投稿規(guī)模相較于 2018 年增長了 75%!自然語言處理領(lǐng)域?qū)嵲谑侵耸挚蔁幔瑢W術(shù)界和工業(yè)界的熱情都創(chuàng)下了歷史新高。
從商業(yè)層面來講也涌現(xiàn)出了微軟小冰、小米小愛等比較成熟的機器人產(chǎn)品,相信在未來的不久 NLP 技術(shù)一定會給我們帶來更多的驚喜。
大咖現(xiàn)場分享 NLP 技術(shù)干貨
王斌博士,是小米人工智能實驗室主任,NLP 首席科學家。中國中文信息學會理事,計算語言學、信息檢索、社會媒體處理、語言與知識計算等專委會委員及《中文信息學報》編委,中國計算機學會中文信息處理專業(yè)委員會委員。
加入小米之前,他在中科院計算所、信工所從事自然語言處理和信息檢索相關(guān)的科研工作。在AICon 全球人工智能與機器學習大會現(xiàn)場,他將會帶來 NLP 技術(shù)方面的相關(guān)演講,各位感興趣的小伙伴歡迎來現(xiàn)場聽他分享。
AICon 全球人工智能與機器學習技術(shù)大會,將于 11 月 21-22 日在北京國際會議中心舉行。顏水成、賈揚清、崔寶秋等 AI 技術(shù)大咖屆時也會來現(xiàn)場,跟大家聊一聊今年在 AI 商業(yè)化場景落地的大背景下,又涌現(xiàn)出了哪些新技術(shù)。本次大會我們設(shè)立了機器學習、計算機視覺、NLP、AI芯片、搜索推薦、產(chǎn)業(yè)互聯(lián)網(wǎng)、硅谷 AI 技術(shù)實踐等 13+ 技術(shù)專場,細分到 AI 技術(shù)的各個領(lǐng)域,為大家全方位的展示 AI 技術(shù)在國內(nèi)目前發(fā)展的現(xiàn)狀。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46896瀏覽量
237669 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1696瀏覽量
45930 -
nlp
+關(guān)注
關(guān)注
1文章
487瀏覽量
22015
原文標題:為何NLP領(lǐng)域難以出現(xiàn)“獨角獸”?丨AICon
文章出處:【微信號:infoqchina,微信公眾號:InfoQ】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論