精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP如何幫AI擺脫智障之名 突破還乏善可陳

電子工程師 ? 來源:未知 ? 作者:胡薇 ? 2018-11-06 08:29 ? 次閱讀

什么是 NLP

自然語言處理(NLP)是人工智能AI)的一個分支,其目標是讓計算機能夠像人類一樣理解、處理和生成自然語言。自然語言,又稱人類語言,一般以文字或文本的形式存在于計算機中,從而在某些地方,也被通俗的稱為文本智能處理。與自然語言相對的是形式語言(比如 Python編程語言),計算機可以精確地處理。自然語言往往因為在使用中省略背景,模糊而不精確、多義、引申、晦澀,甚至由于各種原因而故意使用曲折的表達,而使計算機處理自然語言時困難重重,成為人工智能發展中最大的難點之一。

NLP 技術誕生于1950年代,其分支也枝繁葉茂。有基于語法和規則的方法,也有基于統計學習的方法,從21世紀初以來蓬勃發展的深度學習、深度強化學習和遷移學習的方法在 NLP 領域也被廣泛地使用。微觀層面,在學術界一般將 NLP 劃分為四個層級:即詞法(Lexicon)、句法(Syntax)、語義(Semantics)和語用(Pragmatics)。面向普通大眾,也通常使用偏向應用層面的直接的劃分方法,即字詞級、句段級和篇章級。

NLP 技術在宏觀層面通常又劃分為劃分為自然語言理解(NLU)和自然語言生成(NLG)兩部分。通俗的講,自然語言理解就是我們常說的“閱讀”,即讓計算機讀懂語言文字的技術。而自然語言生成則是“寫作”,即讓計算機能夠像人類一樣寫句子和文章的技術。除此之外,光學字符識別(OCR)和語音技術(包括識別與合成),也會在某些場景下被歸為自然語言處理的一部分,但本文不涉及這兩塊內容。

NLP 是實現認知智能的關鍵

人工智能(AI)通常被分為三大塊:計算智能,感知智能和認知智能。計算智能方面,以 AlphaGo 打敗了人類圍棋最頂尖選手李世石和柯潔為標志,已將人類遠遠拋在后面。感知智能則以語音和圖像技術為代表,對應于人類的視覺和聽覺,經過近十幾年深度學習、遷移學習等技術的發展,也在非常多領域超越了人類。人工智能在近些年不斷的在計算智能和感知智能上發展,一方面是技術迅猛發展的原因,另外一方面也是人類并不擅長這兩種。然而,在認知智能上,目前還有待技術層面的進一步突破,而這里面的關鍵就是 NLP 技術。

一般認為,認知智能是以語言為基礎,實現推理、思考、決策和想象。語言,是人類區別于動物的標志性能力,而讓機器擁有語言能力的關鍵技術就是自然語言處理技術。當前計算機在認知智能上還處于非常初級的階段,特別是在中文上。今年遍地開花的各類智能音箱,隨便與之對話幾句便能夠感受到強烈的“智障”氣息。因此,為了達到更強的認知智能,急需 NLP 技術的進一步發展。當前學術界的熱點也在往 NLP 領域遷徙,投向 NLP 方面的資本也在增加。

遷移學習和預訓練模型在 NLP 領域出現了突破

以 ImageNet 為代表的預訓練模型以及相應的遷移學習技術,促使了感知智能的極大發展。為了提升認知智能的水平,必須在 NLP 技術上有所突破。在深度學習出現以后,對于有大量標注數據的場景,比如中文和英文之間的機器翻譯,通過深度學習和 NLP 技術的結合能夠達到不錯的效果。然而對于缺乏標注數據的絕大多數場景,則依賴于好的預訓練模型以及遷移學習技術的發展。此前,這個在圖像領域已經被證明了的范式,在 NLP 領域一直發展得不溫不火。大概是量變引起質變,從 Word2Vec 出現以來,NLP 領域的預訓練模型在 5 年內的積累,以及深度網絡在 NLP 領域的應用,使得今年出現了突破。這里面最耀眼的當屬 Google 剛剛提出的 BERT 預訓練模型以及基于 BERT 的遷移學習。

NLP領域的預訓練模型的發展歷史(配圖:達觀數據)

早在 2013 年 Google 提出了 Word2Vec 之后,NLP 領域的深度學習就開始使用預訓練模型,而后斯坦福大學提出的 GloVe 和 Facebook 提出的 Fasttext 則是進一步發展。然而在今年之前,這方面的嘗試大都局限于使用淺層網絡,在詞的層面上進行建模。針對具體的應用場景,要達到較好的效果依然需要非常大量的標注語料。預訓練深層模型以及之上的遷移學習在圖像領域的成功,引領著 NLP 領域專家們也在思考如何實現同樣的范式。多年的努力與探索,終于在今年迎來了豐收。

首先是年初發表于 NAACL-HIT 2018 的 ELMo 預訓練模型,用正向和反向兩個 LSTM 語言模型(BiLM)在通用語料上進行訓練,將得到的預訓練好的模型(即 ELMo)用于深度網絡的輸入上,在多個任務上能夠明顯改善已有的模型的效果。

此后,FastAI 基于三層 AWD-LSTM 構建出的語言模型,使用大規模通用語料預訓練出 ULMFiT 模型。將該模型應用于特定領域,只要使用非常少量的標注數據就可以達到普通模型需要大量標注數據的效果。這個模型的成功,使得大家看到了遷移學習在 NLP 領域上的曙光。

緊接著,OpenAI 使用 Transformer 和無監督結合的方法在大規模通用語料上進行訓練,得到預訓練好的 GPT 模型。針對特定的場景,在預訓練好的 GPT 模型基礎上,用小得多的數據集進行有監督學習,獲得了當時最好的成績。

2018 年10月,Google 在 GPT 的基礎上進一步改進,提出了基于 Transofrmer 的 BERT 模型。在訓練 BERT 的過程中,Google 構造出 MLM(Masked Language Model)語言模型,這是一個“真”雙向語言模型。并在通用的大規模語料 BooksCorpus(800Mwords)加上英文維基百科(2,500M words)上進行無監督訓練,得到預訓練模型 BERT。論文中,使用預訓練的模型 BERT 在 11 個任務上進行有監督的微調(遷移學習),其效果全部達到當前最優。特別地,在斯坦福問答評測數據集(SQuAD 1.1)上超越了人類專家的評測結果。

BERT、OpenAI GPT 和 ELMo 三個模型的示意圖

BERT 的出現及其在多個任務上進行遷移學習所達到非常好的效果,證明了預訓練模型和遷移學習的范式在NLP領域同樣有效。這將在接下來的一段時間中,極大地促進 NLP 的發展。這是因為絕大多數場景都缺乏大量的標注語料,BERT 的成功使得人們看到了曙光。春江水暖鴨先知,也許可以說,NLP 的春天來了。

除了前面提到的遷移學習,其他遷移學習的方法也取得一些進展。比如對風格遷移的研究,多語言和跨語言的遷移學習等。除此之外,在知識圖譜領域中,應用于實體、關系和事件抽取的遷移技術也有一定的進展。

NLP各個方向的進展多姿多彩

在 NLP 上的遷移學習之外,深度強化學習(Deep Reinforcement Learning, DRL)技術在 NLP 上的應用也表現出色。深度強化學習最耀眼的表現莫過于 Google 的 AlphaZero,通過完全舍棄人類經驗,僅根據圍棋規則構建深度強化學習模型,通過超級計算力進行學習,并最終打敗了當前圍棋界公認的最頂尖的大師柯潔。這證明了強化學習技術的能力非凡,多個團隊將其在NLP領域進行了嘗試。這些嘗試包括使用 DRL 進行機器翻譯,摘要生成、信息抽取、問答系統等,并都取得了非常不錯的效果。

生成對抗網絡(GAN)也是當前最熱門的技術之一,今年在圖像生成方面非進展非常大。特別值得一提的是,Deepmind 發布了 BigGAN 模型,該模型生成的圖片非常的逼真,在 ImageNet 的評測集上從之前的最高分 52.52 提升到 66.3,效果的提升簡直慘無人道。然而,GAN 在 NLP 領域所取的成績則遜色很多。部分研究者使用 GAN 在信息抽取上獲得不錯的效果,在自然語言生成 NLG(包括摘要生成等)上有所進展,并且在機器翻譯、詞性標注等方面進行了一些嘗試。

行業應用出現系統化和集約化

另外,同樣重要的一方面是如何將這些成果應用于工業界,幫助企事業單位和科研研所等提升效率。而這也決定了資本是否能夠持續投入,從而促使 AI 走向更強的認知智能。可喜的是,各行各業對 NLP 的接受越來越高,也越來越希望使用 NLP 技術幫助他們實現精耕細作和提升效率。

系統化體現在需要運用 NLP 方方面面的技術,甚至結合其他人工智能技術來實現業務的需求。從 NLP 傳統應用領域—搜索說起。幾乎可以說,現代 NLP 技術是伴隨著搜索引擎的發展一起成長的。然而,此前,搜索系統上用到的 NLP 技術更多的是在字詞層面上,而今年開始,專業的搜索幾乎都要求句段以及篇章級別的搜索。

招聘領域是一個典型的場景,以往的搜索引擎都是根據 HR 提供的關鍵詞進行簡歷搜索,而今年,達觀智慧招聘提供的人崗匹配功能則是直接根據 JD(職位描述)來自動的從簡歷庫里面搜索簡歷,實現篇章級的搜索功能,并在多個 10 萬員工級別的企業實施,效果非常好。與此類似的場景還包括根據專利搜索相似專利,根據文檔(比如 doc,pdf 等)搜索相似文檔等等。除此之外,時至今年,問答式搜索幾乎已經成為垂直搜索引擎的標配;與知識圖譜結合實現推理性搜索也在部分領域(如金融、大型企業的信息管理、科研機構等)嘗試中,未來可期。

與此同時,信息抽取技術也取得了極大的發展。像 DRL(深度強化學習)和 GAN(對抗生成網絡)等技術被應用到實體和關系的抽取環節中,從而對知識圖譜的構建起到較大的促進作用。目前工業界在行業知識圖譜的構建中,基于規則的算法和基于模板的算法依然占據大多數,期待接下來能夠促進這些技術進展在知識圖譜中的廣泛使用,實現知識工程的自動化,為認知智能的實現添磚加瓦。

文本的自動化審核,也開始逐步被市場接受。文檔審核涉及多方面技術,是 AI 和 NLP 技術在工業界系統化應用的直接體現。其技術包括基于語言模型的錯別字審核、通過信息抽取技術進行關鍵要素的精準抽取、基于領域詞表或實體抽取審核要素完整性和一致性,以及基于前述信息之上構建布爾邏輯的審核。文本自動化審核應用非常廣泛,像法務合同、金融類文檔(如財報、股票發行說明書等)、新聞和公文等等。

文檔審閱系統(配圖:達觀數據)

前面提到的大多是從 NLP 的“讀”(即 NLU)的層面的應用,與之相應的 NLG 方面則剛剛出現萌芽,大面積的應用還未出現,期待在接下里的一年里技術上能夠有所突破,從而使得AI寫作方面在工業界的應用能夠全面開花。

目前,NLG 部分的應用主要體現在幾個方面:部分公司在嘗試使用 NLG 技術來進行新聞寫作,從而實現部分新聞(如股市收評,體育快報等)的實時推送;部分技術領先的智能客服企業會使用NLG技術來生成問題的回答,從而實現更接近人的交互。今年 5 月份的 GoogleAssistant 的演示表現出來的驚艷的一幕,也有 NLG 的一份功勞。

除了應用多種技術來實現系統化的應用之外,集約化也是今年 NLP 領域的主題之一。“集約”原意是指農業上在同一土地面積上投入較多的生產資料和勞動,進行精耕細作,以提高單位面積產量從而來增加產品總量。這里是指將 NLP 技術應用于某個特定領域,從而提高生成效率。首先是司法方面,嘗試使用 NLP 技術來幫助法院法官的審判。司法智能所要求能夠深入理解長篇文檔的內容,而這涉及到對大規模語料的訓練以及將結果遷移到專業領域。而遷移學習在文本上的應用恰好在今年實現了突破,故而司法智能這類的領域應用則是水到渠成的。同樣的應用還有科技情報、企業內部的知識管理,以及金融領域的監管智能等等。

從NLP邁向認知智能

今年 NLP 技術的突破可喜可賀,行業應用也全面開花。然而,NLP 的核心問題依然存在,主要體現在幾個方面:

NLU 有待進一步突破,提高機器理解文字的能力,與人類進行更好地交互。

標注語料的積累;由于 NLP 的特點,與圖像、語音領域相比,即便專家也很難做好語料標注,質與量的積累都是關鍵因素。

能效比有待提升;目前雖然很多模型效果不錯,但其訓練和預測過程所需時間很長,對計算力的要求非常高。

遷移學習研究與應用的還需更大的發展;可以更低成本地實現從通用到領域、從領域到通用的知識遷移;

亟待 NLG 技術的進一步發展;目前 NLG 方面的突破還乏善可陳。

期待知識工程和知識圖譜領域的新進展與突破;如何自動、持續地構建更加全面的知識庫是一個極大的挑戰。

總的來說,從科研界到工業界再到資本市場的積極投入,人才也不斷地積累,NLP 技術在未來幾年會更加蓬勃發展,相信上面提到的這些問題在接下來的幾年內會被逐步的解決。特別地,延續今年的突破,明年遷移學習在 NLP 的應用還會上一個臺階;NLG 方面今年已見曙光,期待明年在此方向有所突破。標注語料庫、知識工程和知識圖譜等概念已經深入產業的人心,這方面會持續積累,也許未來 3 到 5 年會實現量變到質變的變化。而這里面最難的當屬能效比,可能需要從基礎科學到芯片到 NLP 等各方面專家的努力,期待的是在未來 5 年能有所發展。

當這些問題在被逐步解決的時候,也是機器逐步實現認知智能的時候,從而實現在大部分場景下幫助人類解決文字處理相關的工作,讓人類不用再加班,與機器的交互更加自然和諧,使得我們的生活更加美好。而 NLP 人工作的點點滴滴,最終都會匯聚在這條美好的生活的大江中。“合抱之木,生于毫末”,對于 NLP 來說,我們不斷在成長,蒼天大樹即將長成,認知智能咫尺可期。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1791

    文章

    46863

    瀏覽量

    237587
  • nlp
    nlp
    +關注

    關注

    1

    文章

    487

    瀏覽量

    22012

原文標題:幫AI擺脫“智障”之名,NLP這條路還有多遠?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    天橋雒芊芊腦科學研究院在人工智能領域取得重大突破

    天橋雒芊芊腦科學研究院(TCCI)的人工智能團隊,憑借其在大腦與記憶領域的深厚造詣,于人工智能界取得了突破性進展。其自主研發的OMNE多智能體框架,在由Meta AI、Hugging Face
    的頭像 發表于 11-01 11:11 ?417次閱讀

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    的重要作用和價值,同時也看到了其面臨的挑戰和未來發展方向。這次學習不僅豐富了我的知識儲備,激發了我對AI for Science未來發展的期待和熱情。我相信,在不久的將來,AI for Science將為我們帶來更多的驚喜和
    發表于 10-14 09:16

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次模型特點的分析: 詞匯層次 詞匯
    的頭像 發表于 07-09 10:39 ?326次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?709次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學和人工智能領域的一個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術的發展,NLP領域出現了
    的頭像 發表于 07-09 10:28 ?499次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域都有廣泛
    的頭像 發表于 07-09 10:26 ?872次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發展,NLP領域取得了顯著
    的頭像 發表于 07-05 09:59 ?535次閱讀

    NLP技術在機器人中的應用

    人類語言的能力,使得機器人能夠以更加自然、流暢的方式與人類進行交互,從而在服務、教育、醫療、娛樂等多個領域展現出巨大的潛力和價值。本文將從NLP技術在機器人中的應用現狀、核心技術、應用場景、面臨的挑戰及未來發展趨勢等方面進行深入探討。
    的頭像 發表于 07-04 16:04 ?422次閱讀

    NLP技術在人工智能領域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發展中,NLP技術作為連接人類語言與機器
    的頭像 發表于 07-04 16:03 ?427次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領域,循環神經網絡(RNN)與卷積神經網絡(CNN)是兩種極為重要且廣泛應用的網絡結構。它們各自具有獨特的優勢,適用于處理不同類型的NLP任務。本文旨在深入探討RNN與CNN
    的頭像 發表于 07-03 15:59 ?430次閱讀

    什么是自然語言處理 (NLP)

    理解和處理自然語言文本,從而實現人機交互的流暢和自然。NLP不僅關注理論框架的建立,側重于實際技術的開發和應用,廣泛應用于法律、醫療、教育、安全、工業、金融等多個領域。
    的頭像 發表于 07-02 18:16 ?1051次閱讀

    高通在2024 MWC展示AI領域新突破

    在2024年巴塞羅那世界移動通信大會(2024 MWC)上,高通技術公司展現了其在AI領域的最新成果,從全新的高通?AI Hub到前沿研究突破,再到AI賦能的商用終端展示,無一不體現了
    的頭像 發表于 02-27 10:57 ?942次閱讀

    對基于 FPGA 的 AI 視覺應用進行基準測試

    ,這里沒有運行 NLP-SmartVision 或 AI。 操作系統 沒有人工智能 獨立式 31-64 PetaLinux GStreamer 140-190 USB攝像頭 操作系統 人臉檢測 物體
    發表于 02-02 10:26

    RISC-V內核突破百億顆 RVV1.0如何解鎖端側AI市場應用潛能

    RISC-V內核增長迅猛,2022年就實現了破百億顆出貨量。作為一款開源的RISC架構,其憑借輕量化、優秀的擴展性與不斷增強的軟件兼容性吸引越來越多的企業采用。不斷擴張的生態版圖之下,RISC-V
    發表于 12-01 13:17

    毫米波射頻前端,還有機會嗎?

    毫米波被譽為能夠帶來令人難以置信的網絡吞吐量數據,但迄今為止它的采用一直乏善可陳
    的頭像 發表于 11-28 09:42 ?634次閱讀
    毫米波射頻前端,還有機會嗎?