精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT

gckX_aicapital ? 來源:YXQ ? 2019-06-22 11:19 ? 次閱讀

谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet,性能全面超越此前NLP領域的黃金標桿BERT,在20個任務上實現了性能的大幅提升,刷新了18個任務上的SOTA結果,可謂全面屠榜!

近日,谷歌大腦主任科學家Quoc V. Le在Twitter上放出一篇重磅論文,立即引發熱議:

這篇論文提出一種新的NLP模型預訓練方法XLNet,在20項任務上(如SQuAD、GLUE、RACE) 的性能大幅超越了此前NLP黃金標桿BERT。

XLNet:克服BERT固有局限,20項任務性能強于BERT

本文提出的XLNet是一種廣義自回歸預訓練方法,具有兩大特點:(1)通過最大化分解階的所有排列的預期可能性來學習雙向語境,(2)由于其自回歸的性質,克服了BERT的局限性。

此外,XLNet將最先進的自回歸模型Transformer-XL的創意整合到預訓練過程中。實驗顯示,XLNet在20個任務上的表現優于BERT,而且大都實現了大幅度性能提升,并在18個任務上達到了SOTA結果,這些任務包括問答、自然語言推理、情感分析和文檔排名等。

與現有語言預訓練目標相比,本文提出了一種廣義的自回歸方法,同時利用了AR語言建模和AE的優點,同時避免了二者的局限性。首先是不再像傳統的AR模型那樣,使用固定的前向或后向分解順序,而是最大化序列的預期對數似然性分解順序的所有可能排列。每個位置的上下文可以包含來自該位置前后的令牌,實現捕獲雙向語境的目標。

作為通用AR語言模型,XLNet不依賴于數據損壞。因此,XLNet不會受到BERT受到的預訓練和微調后的模型之間差異的影響。同時以自然的方式使用乘積規則,分解預測的令牌的聯合概率,從而消除了在BERT中做出的獨立性假設。

除了新的預訓練目標外,XLNet還改進了預訓練的架構設計。 XLNet將Transformer-XL的分段重復機制和相對編碼方案集成到預訓練中,從而憑經驗改進了性能,對于涉及較長文本序列的任務效果尤其明顯。

圖1:在給定相同輸入序列x,但分解順序不同的情況下,對置換語言建模目標的預測結果

圖2:(a):內容流注意力機制,與標準的自注意力機制相同。(b)查詢流注意力,其中不含關于內容xzt的訪問信息。(c):使用雙信息流注意力機制的置換語言建模訓練示意圖。

全面屠榜:大幅刷新18項任務數據集SOTA性能

表1:與閱讀理解任務RACE測試集的最新結果的比較。 *表示使用聚集模型。 RACE中的“Middle”和“High”是代表初中和高中難度水平的兩個子集。所有BERT和XLNet結果均采用大小相似的模型(又稱BERT-Large),模型為24層架構。我們的XLNet單一模型在精確度方面高出了7.6分

表2:單XLNet模型在SQuAD1.1數據集上的性能優于分別優于真人表現和最佳聚集模型性能達7.6 EM和2.5 EM。

表3:與幾個文本分類數據集的測試集上錯誤率SOTA結果的比較。所有BERT和XLNet結果均采用具有相似大小的24層模型架構(BERT-Large)

表4:GLUE數據集上的結果。所有結果都基于具有相似模型尺寸的24層架構(也稱BERT-Large)。可以將最上行與BERT和最下行中的結果直接比較。

表5:與文檔排名任務ClueWeb09-B的測試集上的最新結果的比較。 ?表示XLNet的結果。

表6:我們使用BERT官方實現方案和XLNet超參數搜索空間在其他數據集上運行BERT,結果如圖所示,其中K是控制優化難度的超參數。所有模型都在相同的數據上進行預訓練。

從實驗結果可以看出,說XLNet全面超越BERT其實一點都不夸張。

知乎熱議:512TPU訓練,家里沒礦真搞不起

有熱心網友一早將這篇“屠榜”論文發在了知乎上,從網友的評論上看,一方面承認谷歌和CMU此項成果的突破,同時也有人指出,這樣性能強勁的XLNet,還是要背靠谷歌TPU平臺的巨額算力資源,“大力出奇跡”果然還是深度學習界的第一真理嗎?

比如,網友“Towser”在對論文核心部分內容的簡要回顧中,提到了XLNet的優化方法,其中引人注目的一點是其背后的谷歌爸爸的海量算力資源的支持:

512個TPU訓練了2.5天,訓練總計算量是BERT的5倍!要知道作為谷歌的親兒子,BERT的訓練計算量已經讓多數人望塵莫及了。沒錢,搞什么深度學習?

難怪NLP領域的專家、清華大學劉知遠副教授對XLNet一句評價被毫無懸念地頂到了知乎最高贊:

目前,XLNet的代碼和預訓練模型也已經在GitHub上放出。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6142

    瀏覽量

    105115
  • nlp
    nlp
    +關注

    關注

    1

    文章

    487

    瀏覽量

    22015

原文標題:NLP新標桿!谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT

文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    谷歌推出Gemini大型語言模型

    夠協助用戶完成諸如收集研究資料、購買產品或預訂航班等各種日常任務,從而極大地提升用戶的生活便捷性和效率。通過智能分析用戶的瀏覽行為和需求,該項目將為用戶提供個性化的建議和服務,使用戶能夠更加輕松地完成各種任務。 此外,知情人士還透露,
    的頭像 發表于 10-29 15:11 ?304次閱讀

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業界領先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發表于 08-06 17:27 ?543次閱讀

    阿里云發布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術進步,全面超越GPT-4”,尤其是在中文環境中的多種任務(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風險評估)方
    的頭像 發表于 05-09 14:17 ?924次閱讀

    微軟、谷歌聯手多家科技巨頭保護兒童安全

     4 月 24 日消息,隨著生成式 AI 的快速發展,如何保障兒童安全成為了焦點。微軟、谷歌日前與 Thorn、All Tech Is Human 等專業機構聯手,以期在生成 AI 技術中實施更嚴格的兒童安全措施。
    的頭像 發表于 04-24 10:50 ?413次閱讀

    NVIDIA和谷歌云宣布開展一新的合作,加速AI開發

    NVIDIA 和谷歌云宣布開展一新的合作,以幫助全球初創企業加速創建生成式 AI 應用和服務。
    的頭像 發表于 04-11 14:03 ?477次閱讀

    谷歌發布Axion新款數據中心AI芯片,性能超越x86及云端

    谷歌預計將通過Google Cloud提供Axion AI芯片給客戶。谷歌強調這款基于ARM的CPU產品具有優越的性能表現,甚至超越了傳統的x86芯片及云端通用ARM芯片。
    的頭像 發表于 04-10 16:32 ?847次閱讀

    谷歌推出能制作旅行攻略的AI工具

    谷歌近日發布了一令人矚目的新功能,它是一款能夠借助自然語言對話幫助用戶生成旅行行程和出游建議的AI工具。這款工具的推出,標志著谷歌在人工智能領域的又一重要突破。
    的頭像 發表于 03-29 11:08 ?632次閱讀

    谷歌宣布在醫療保健領域推出人工智能計劃

    谷歌最近公布了一系列激動人心的計劃,將先進的人工智能模型引入醫療保健領域。據谷歌透露,其研究團隊正聯手旗下Fitbit公司,共同研發一創新的人工智能功能。這一功能能夠從用戶的腕帶設備
    的頭像 發表于 03-21 10:54 ?599次閱讀

    Anthropic推出Claude 3大型語言模型,在認知任務性能上創新高

    據官方披露,Claude 3 旗艦 Opus 在大學生和研究生范疇的學術知識、復雜數理任務了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。
    的頭像 發表于 03-05 11:16 ?465次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團隊開發的一款大型語言模型,
    的頭像 發表于 03-01 16:20 ?615次閱讀

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是一種新的預訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優勢,而且在效率上更勝一籌。
    的頭像 發表于 02-29 17:37 ?750次閱讀

    Groq推出大模型推理芯片 超越了傳統GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統GPU和谷歌TPU。
    的頭像 發表于 02-26 10:24 ?980次閱讀
    Groq<b class='flag-5'>推出</b>大模型推理芯片 <b class='flag-5'>超越</b>了傳統GPU和<b class='flag-5'>谷歌</b>TPU

    谷歌大型模型終于開放源代碼,遲到但重要的開源戰略

    在人工智能領域,谷歌可以算是開源的鼻祖。今天幾乎所有的大語言模型,都基于谷歌在 2017 年發布的 Transformer 論文;谷歌的發布的 BERT、T5,都是最早的一批開源 AI
    發表于 02-22 18:14 ?415次閱讀
    <b class='flag-5'>谷歌</b>大型模型終于開放源代碼,遲到但重要的開源戰略

    TikTok引入前谷歌VideoPoet負責人蔣路,發力AI視頻生成

    獨家獲悉,谷歌高級科學家、卡內基梅隆大學(CMU)計算機學院兼職教授蔣路,已經加入TikTok。
    的頭像 發表于 02-22 13:36 ?562次閱讀
    TikTok引入前<b class='flag-5'>谷歌</b>VideoPoet負責人蔣路,發力AI視頻生成

    大語言模型背后的Transformer,與CNN和RNN有何不同

    for Language Understanding》,BERT模型橫空出世,并橫掃NLP領域11任務的最佳成績。而在BERT中發揮重要作用的結構就是Transformer,之后又
    的頭像 發表于 12-25 08:36 ?3844次閱讀
    大語言模型背后的Transformer,與CNN和RNN有何不同