精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP界的“神話”并沒那么神?

DPVg_AI_era ? 來源:lq ? 2019-07-27 07:55 ? 次閱讀

曾經狂掃11項記錄的谷歌NLP模型BERT,近日遭到了網友的質疑:該模型在一些基準測試中的成功僅僅是因為利用了數據集中的虛假統計線索,如若不然,還沒有隨機的結果好。這項研究已經在Reddit得到了廣泛的討論。

NLP神話被質疑。

自去年谷歌發布BERT以來,這個曾狂破11項紀錄、全面超越人類的NLP模型就備受關注,熱度不減。

然而,近日一位Reddit網友卻對此拋出質疑:BERT在一些基準測試中的成功僅僅是因為利用了數據集中虛假的統計線索。若是沒有它們,可能還沒有隨機的結果好。

Reddit地址:

https://www.reddit.com/r/MachineLearning/comments/cfxpxy/berts_success_in_some_benchmarks_tests_may_be/

這項論文是由***成功大學的研究人員完成。

論文地址:

https://arxiv.org/pdf/1907.07355.pdf

研究人員表示:

我們驚訝地發現BERT在參數推理理解任務中的峰值性能達到77%,僅比平均未經訓練的人類基線低3個點。但是,我們表明這個結果完全是通過利用數據集中的虛假統計線索來解釋的。

我們分析了這些線索的性質,并證明了一系列模型都在利用它們。該分析報告了一個對抗性數據集的構造,所有模型都在該數據集上實現隨機精度。

Reddit網友lysecret對此研究表示:

他認為這是一種非常簡單而有效的方法來表明這類模型是不能正確地做到“理解”的,智能利用(不好的)統計線索。然而,對于大多數人(除了埃隆·馬斯克)來說可能都會認為,像BERT這類模型的就是這么做的。

BERT在論證理解方面真的學到什么了嗎?

論證挖掘是確定自然語言文本中的論證結構的任務。例如,哪些文本段代表claim,并且包括支持或攻擊這些claim的reason。

對于機器學習者來說,這是一項具有挑戰性的任務,因為即使是人類也很難確定兩個文本段何時處于爭論關系中,正如對論證注釋的研究所證明的那樣。解決這個問題的一個方法是專注于warrant(權證)——一種允許推理的世界知識形式。

考慮一個簡單的論點:“(1)正在下雨;因此(2)你應該拿一把傘?!?Warrant“(3)弄濕是不好的”可以許可這個推論。知道(3)有助于得出(1)和(2)之間的推論聯系。

然而,很難在任何地方找到它,因為warrant通常是隱含的。因此,在這種方法中,機器學習者不僅必須使用warrant進行推理,還要發現它們。

論證推理理解任務(ARCT)推遲發現warrant的問題,并側重于推理。提供了一個包含claim C和reason R的論點。該任務是在分心器上選擇正確的warrant W,稱為備選warrant A。

該備選方案的書寫方式是R∧A→?C。之前例子的另一種保證可能是“(4)濕是好的”,在這種情況下我們有(1)∧(4)→“(?2)你不應該拿傘。”數據集中的一個例子如圖1所示。

圖1:ARCT測試集中的一個數據點示例以及如何讀取它。從R和A到?C的推論是通過設計得出的。

ARCT SemEval共享任務,驗證了該問題的挑戰性。即使提供warrant,學習者仍需要依賴進一步的世界知識。

例如,為了正確地對圖1中的數據點進行分類,至少需要知道消費者選擇和網絡重定向如何與壟斷概念相關,并且Google是搜索引擎。除了一個參與系統之外,所有參與共享任務的系統的準確度不能超過60%(二進制分類)。

因此,令人驚訝的是,BERT以其最佳運行(表1)實現了77%的測試集精度,僅比平均(未訓練的)人類基線低3個點。如果沒有為這項任務提供所需的世界知識,那么期望它表現如此之好似乎是不合理的。這就激發了一個問題:BERT在論證理解方面學到了什么?

表1:基線和BERT結果。我們的結果來自20個不同的隨機種子(±給出標準偏差)。BERT Large的平均值受到5/20隨機種子的影響而不能訓練,這是Devlin等人提出的一個問題。因此,我們認為中位數是衡量BERT平均表現的更好指標。BERT(大)的非退化運行的平均值為0.716±0.04。

為了研究BERT的決策,工作人員研究了數據點,發現在多次運行中很容易分類。對SemEval提交進行了類似的分析,并且與他們的結果一致,發現BERT利用了warrant中提示詞的存在,特別是“not”。通過探索旨在隔離這些影響的實驗,研究人員在這項工作中證明了BERT在利用虛假統計線索方面的驚人之處。

但是,結果表明ARCT是可以消除主要問題的。由于R∧A→?C,我們可以添加每個數據點的副本,其中claim被否定并且標簽被反轉。

這意味著warrant中統計線索的分布將反映在兩個標簽上,從而消除了信號。在這種對抗性數據集上,所有模型都是隨機執行的,BERT實現了53%的最大測試集精度。

因此,對抗性數據集提供了對參數理解的更可靠的評估,并且應該被用作該數據集的未來工作的標準。

實驗表明:BERT并不能做出正確“理解”,只能利用統計線索

如果一個模型正在利用標簽上的分布線索,那么如果只訓練warrant(W),它應該表現得相對較好。

同樣的道理也適用于僅刪除claim、保留reason和warrant(R,W)或刪除reason(C,W)。

后一種設置允許模型額外考慮reason和claim中的線索,以及與warrant組合相關的線索。

表3用BERT Large、BoV和BiLSTM作為基線探測實驗結果

實驗結果如表3所示。僅在warrant(W)上,BERT的準確率最高可達71%。與其最高峰值的77%差了6個百分點。

而(R,W)比(W)增加了4個百分點,(C,W)增加了2個百分點,這就是剛才說到了那6個百分點。

基于這一證據,研究人員發現BERT的全部表現可以通過利用虛假的統計線索來解釋。

對抗性測試集

由于數據集的原始設計,消除了ARCT中標簽統計線索的主要問題。

鑒于R∧A→?C,可以通過否定claim并反轉每個數據點的標簽來產生對抗性示例(如圖4所示)。

圖4 原始和對抗數據點。claim被否定,warrant被交換。W和A的標簽分配保持不變。

然后將對抗性示例與原始數據進行組合。這通過鏡像兩個標簽周圍的提示分布來消除該問題。

驗證和測試集中大多數claim的否定已經存在于數據集中的其他地方。剩下的claim被一個以英語為母語的工作人員人工進行動否定。

研究人員嘗試了兩種實驗設置。

首先,在對抗集上評估在原始數據上訓練和驗證的模型。由于過度擬合原始訓練集中的線索,所有結果都比隨機差。

其次,模型在對抗性訓練和驗證集上從頭開始訓練,然后在對抗性測試集上進行評估。其結果如表4所示。

表4 BERT Large在具有對抗性訓練和驗證集的對抗性測試集上的結果。

BERT的峰值性能降低至53%,平均值和中值為50%。從這些結果中得出結論,對抗性數據集已成功地消除了預期的線索,從而提供了對機器參數理解的更可靠的評估。

這一結果更符合研究人員對這個任務的直覺:由于對這些論點背后的現實知之甚少或一無所知,良好的表現應該是不可行的。

任務描述、基線、BERT與統計線索

任務描述和基線

設t i = 1, . . . ,n索引數據集D中的每個點,其中| D | = n。在每種情況下,兩個候選warrant被隨機分配二進制標簽j ∈ {0, 1},使得每個具有相同的正確概率。輸入是c(i)的表示,reason r(i),保證零w0(i),并且保證一個w1(i)。標簽y(i)是對應于正確授權的二進制指示符。所有模型的一般體系結構如圖2所示。學習共享參數θ以獨立地使用參數對每個warrant進行分類,得到 logit:

zj(i)=θ[c(i);r(i);wj(i)]

然后將它們連接起來并通過softmax以確定兩個warrant上的概率分布p(i)= softmax([z0(i),z1(i)])。那么預測是y(i)= arg maxjp(i)?;€是一包載體(BoV),雙向LSTM(BiLSTM),SemEval獲勝者GIST,Botschen等人的最佳模型,人類表現(表1)。對于我們的所有實驗,我們使用網格搜索來選擇超參數,退出正則化和Adam進行優化。當驗證準確度下降時,我們將學習率anneal1/10。最終參數來自具有最大驗證精度的epoch。BoV和BiLSTM輸入是在640B上訓練的300維GloVe嵌入。GitHub上提供了重現所有實驗和詳細說明所有超參數的代碼。(https://github.com/IKMLab/arct2)

圖2:我們實驗中模型的一般架構。為每對argument-warrant獨立計算 logit,然后連接并通過softmax傳遞。

BERT

我們的BERT分類器如圖3所示。claim和reason連接在一起形成第一個文本段,與每個warrant配對并獨立處理。將最終層CLS向量傳遞到線性層以獲得對數zj(i)。整個架構都經過精心調整。學習率為2e-5,我們允許最多20個訓練期,從最佳驗證集準確度的時期獲取參數。我們使用Hugging Face PyTorch實現。

圖3:使用BERT處理參數一對argument-warrant。reason(長度為a的單詞)和claim(長度b)一起形構成第一句話,而warrant(長度c)是第二句。然后將最終的CLS矢量傳遞到線性層以計算 logit zj(i)。

Devlin et al.報告說,在小型數據集上,BERT有時無法訓練,產生退化的結果。ARCT非常小,有1210次訓練觀察。在5/20運行中,我們遇到了這種現象,在驗證和測試集上看到接近隨機精度。這些情況發生在訓練準確性也不明顯高于隨機(<80%)的情況下。除去退化曲線,BERT的平均值為71.6±0.04。這將超過先前的技術水平 - 中位數為71.2%,這是一個比整體平均值更好的平均值,因為它不受退化情況的影響。但是,我們的主要發現是這些結果沒有意義,應該被丟棄。在接下來的部分中,我們將重點放在BERT的77%峰值性能上。

統計線索

ARCT中虛假統計線索的主要來源是標簽的不均勻分布。接下來便將展示這些線索的存在和性質。

雖然可能存在更為復雜的線索,但是研究人員只考慮了一元圖和二元圖的情況。

研究人員的目標是計算模型利用線索k的有益程度,以及它在數據集中的普遍程度(表示信號的強度)。

首先,定義幾個概念:

線索的適應性(applicability):αk,定義為在一個標簽上出現的數據點數;

線索的生產率(productivity):πk,定義為預測正確答案的適用數據點的比例;

線索的覆蓋率(coverage):ξk,定義為適用情況占數據點總數的比例。

表2 適用“not”在warrant中的存在來預測ARCT中標簽的生產率和覆蓋率。

表2給出了研究人員發現的最強的unigram線索(“not”)的生產率和覆蓋率。它提供了一個特別強的訓練信號。雖然它在測試集中的效率較低,但它只是許多這樣的線索之一。

研究人員還發現了許多其他的unigram,盡管總體生產率較低,但大多數是高頻詞,如“is”、“do”和“are”。與“not”連用的bigram,如“will not”和“can”,也被發現是高效的。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24649
  • 自然語言
    +關注

    關注

    1

    文章

    287

    瀏覽量

    13335
  • nlp
    nlp
    +關注

    關注

    1

    文章

    487

    瀏覽量

    22015

原文標題:臺灣小哥一篇論文把BERT拉下神壇!NLP神話缺了數據集還不如隨機

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    迅為RK3588開發板!黑神話悟空,啟動?

    《黑神話:悟空》是一款西游背景的動作角色扮演游戲,故事取材自中國古典神話小說《西游記》。玩家將扮演“天命人”,為了探尋昔日傳說的真相而踏上這條千難萬險的西行之路。作為國內首款3A大作,在20號發布
    發表于 09-23 10:48

    揭秘:是什么造就了蘋果神話?

      蘋果一詞,相信每個人都不陌生,領先著現在科技生活的前沿,蘋果每出一款新的產品,都會遭到一搶而空,這在電子產品真的可謂一神話那么,是什么能力造就了蘋果的科技神話呢?想了解這個問題
    發表于 04-10 09:44

    51播放星月神話

    51播放星月神話
    發表于 10-15 14:07

    NLP的面試題目

    NLP面試題目6-10
    發表于 05-21 15:02

    全面擁抱Transformer:NLP三大特征抽取器(CNNRNNTF)比較

    放棄幻想,全面擁抱Transformer:NLP三大特征抽取器(CNNRNNTF)比較
    發表于 05-29 10:43

    NLP的tfidf作詞向量

    NLP之tfidf作詞向量
    發表于 06-01 17:28

    NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術的詳細介紹

    本文用簡潔易懂的語言,講述了自然語言處理(NLP)的前世今生。從什么是NLP到為什么要學習NLP,再到如何利用機器學習進行NLP,值得一讀。這是該系列的第一部分,介紹了三種
    的頭像 發表于 06-10 10:26 ?7.7w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機器學習進行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術的詳細介紹

    NLP-Progress庫NLP的最新數據集、論文和代碼

    方向是自然語言處理的同學們有福啦,為了跟蹤自然語言處理(NLP)的進展,有大量仁人志士在 Github 上維護了一個名為 NLP-Progress 的庫。它記錄了幾乎所有NLP任務的 baseline 和 標準數據集,同時還記錄
    的頭像 發表于 11-17 09:21 ?2540次閱讀

    昔日的銷量車2019年創開門紅,它能否再續神話?

    銷量過萬飛度想要東山再起,車可以再續神話嗎?
    的頭像 發表于 03-17 10:56 ?2810次閱讀

    一位NLP算法工程師對NLP的看法

    最近的項目就是NLP相關,說一些個人對NLP的看法。直觀地看,NLP算法工程師的經驗和算法工程師的經驗沒有太大差別。NLP的發展并不是那么
    的頭像 發表于 04-24 09:37 ?5196次閱讀

    NLP 2019 Highlights 給NLP從業者的一個參考

    自然語言處理專家elvis在medium博客上發表了關于NLP在2019年的亮點總結。對于自然語言處理(NLP)領域而言,2019年是令人印象深刻的一年。在這篇博客文章中,我想重點介紹一些我在
    的頭像 發表于 09-25 16:56 ?1700次閱讀

    知識圖譜是NLP的未來嗎?

    我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術。在目前所有已知的發展方向中,知識圖譜是最有可能長期和NLP互利共生的技術。
    的頭像 發表于 04-15 14:36 ?3670次閱讀
    知識圖譜是<b class='flag-5'>NLP</b>的未來嗎?

    理解什么是NLP Subword算法

    Subword算法如今已經成為了一個重要的NLP模型性能提升方法。自從2018年BERT橫空出世橫掃NLP各大排行榜之后,各路預訓練語言模型如同雨后春筍般涌現,其中Subword算法在其中已經成為標配。所以作為
    的頭像 發表于 02-22 14:16 ?537次閱讀

    人工智能nlp是什么方向

    人工智能nlp是什么方向? 人工智能(AI)已經日益普及,正在改變我們的方法和方式。AI 涵蓋了許多領域,其中包括機器學習,計算機視覺,自然語言處理(NLP)等。在這些方向之中,NLP 是最引人注目
    的頭像 發表于 08-22 16:45 ?1895次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?718次閱讀