精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Multi-CLS BERT:傳統集成的有效替代方案

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-07-04 15:47 ? 次閱讀

fe05f4e0-1981-11ee-962d-dac502259ad0.png

在本文中,介紹了Multi-CLS BERT,這是傳統集成方法的有效替代方案。

這種基于 CLS 的預測任務的新穎方法旨在提高準確性,同時最大限度地減少計算和內存需求。

通過利用具有不同參數化和目標的多個 CLS token,提出的方法無需微調集成中的每個 BERT 模型,從而實現更加簡化和高效的流程。

fe1e31d6-1981-11ee-962d-dac502259ad0.png

在 GLUE 和 SuperGLUE 數據集上進行了實驗,證明了 Multi-CLS BERT 在提高整體準確性和置信度估計方面的可靠性。它甚至能夠在訓練樣本有限的情況下超越更大的 BERT 模型。最后還提供了 Multi-CLS BERT 的行為和特征的分析。

fe441f5e-1981-11ee-962d-dac502259ad0.png

Multi-CLS BERT和傳統集成方法不同點是?

Multi-CLS BERT與傳統的集成方法不同之處在于它使用多個CLS token,并通過參數化和目標函數來鼓勵它們的多樣性。這樣一來,就不需要對集成中的每個BERT模型進行微調,從而使整個過程更加簡化和高效。相比之下,傳統的集成方法需要對集成中的每個模型進行微調,并在測試時同時運行它們。Multi-CLS BERT在行為和特性上與典型的BERT 5-way集成模型非常相似,但計算和內存消耗幾乎減少了4倍。

在所提出的方法中使用多個 CLS tokens有哪些優點?

在所提出的方法中,使用多個CLS token的優點在于可以鼓勵它們的多樣性,從而提高模型的準確性和置信度估計。相比于傳統的單個CLS token,使用多個CLS token可以更好地捕捉輸入文本的不同方面和特征。

此外,Multi-CLS BERT的使用還可以減少計算和內存消耗,因為它不需要對集成中的每個BERT模型進行微調,而是只需要微調單個Multi-CLS BERT模型并在測試時運行它。

GLUE 和 SuperGLUE 數據集上的實驗結果

GLUE和SuperGLUE是兩個廣泛使用的自然語言理解基準測試數據集。

在所提出的方法中,作者使用GLUE和SuperGLUE數據集來評估Multi-CLS BERT的性能。在GLUE數據集上,作者使用100個、1,000個和完整數據集進行了實驗,并在SuperGLUE數據集上使用了相同的設置。

fe614f5c-1981-11ee-962d-dac502259ad0.png

fe9bb624-1981-11ee-962d-dac502259ad0.png

febe4e46-1981-11ee-962d-dac502259ad0.png

實驗結果表明,Multi-CLS BERT在GLUE和SuperGLUE數據集上都能夠可靠地提高整體準確性和置信度估計。在GLUE數據集中,當只有100個訓練樣本時,Multi-CLS BERT Base模型甚至可以勝過相應的BERT Large模型。在SuperGLUE數據集上,Multi-CLS BERT也取得了很好的表現。

fed96dde-1981-11ee-962d-dac502259ad0.png

總結

在這項工作中,作者建議使用 K 個 CLS 嵌入來表示輸入文本,而不是在 BERT 中使用單個 CLS 嵌入。與 BERT 相比,Multi-CLS BERT 顯著提高了 GLUE 和 SuperGLUE 分數,并減少了 GLUE 中的預期校準誤差,而其唯一增加的成本是將最大文本長度減少了 K 并增加了一些額外的時間來計算插入的線性變換。因此,建議廣泛使用多個 CLS 嵌入,以獲得幾乎免費的性能增益。

為了解決 CLS 嵌入的崩潰問題,作者修改了預訓練損失、BERT 架構和微調損失。消融研究表明,所有這些修改都有助于 Multi-CLS BERT 性能的提高。在調查改進來源的分析中,發現 a) 集成原始 BERT 比集成 Multi-CLS BERT 帶來更大的改進,b) 不同 CLS 嵌入的不一致與 BERT 模型的不一致高度相關不同的微調種子。這兩項發現都支持作者的觀點,即 Multi-CLS BERT 是一種有效的集成方法。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3178

    瀏覽量

    48731
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24649
  • 自然語言
    +關注

    關注

    1

    文章

    287

    瀏覽量

    13335

原文標題:ACL2023 | Multi-CLS BERT:傳統集成的有效替代方案

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    WAN架構3個替代方案和挑戰

    如今,網絡組織面臨著大量且不斷增長的WAN架構選擇。在本文中,我將討論網絡組織面臨的其他WAN架構替代方案和挑戰。動態多路徑能夠通過多個WAN鏈路對流量進行負載均衡并不是一項新功能。但是,在傳統
    發表于 08-16 13:39

    便于設備編程的12Gbps多通道BERT板設計包括BOM及層圖

    描述This reference design is a 12-Gbps low-cost bit error tester (BERT) capable of generating
    發表于 09-19 08:38

    如何將代碼集成Multi IDE Project?

    我想知道是否可以使用PinMap向導生成C代碼以與Multi IDE Green Hill編譯器一起使用,如果可以的話,如何將代碼集成Multi IDE Project? 提前致謝, 多米尼克
    發表于 06-21 10:05

    BERT原理詳解

    BERT原理詳解
    發表于 07-02 16:45

    串行BERT用戶指南

    A guide on using the Serial BERT
    發表于 09-23 11:01

    串行BERT編程指南

    A guide on programming the Serial BERT
    發表于 09-24 17:15

    J-BERT N4903A高性能串行BERT手冊

    Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages
    發表于 09-26 12:17

    BERT中的嵌入層組成以及實現方式介紹

    介紹在本文中,我將解釋BERT中嵌入層的實現細節,即token嵌入、Segment嵌入和Position嵌入。簡介這是一張來自論文的圖,它恰當地描述了BERT中每一個嵌入層的功能:與大多數旨在
    發表于 11-02 15:14

    BERT模型的PyTorch實現

    BertModel是一個基本的BERT Transformer模型,包含一個summed token、位置和序列嵌入層,然后是一系列相同的self-attention blocks(BERT-base是12個blocks, BERT
    的頭像 發表于 11-13 09:12 ?1.4w次閱讀

    BERT得到最強句子Embedding的打開方式

    ? 你有嘗試從 BERT 提取編碼后的 sentence embedding 嗎?很多小伙伴的第一反應是:不就是直接取頂層的[CLS] token的embedding作為句子表示嘛,難道還有其他套路
    的頭像 發表于 12-31 10:10 ?8735次閱讀

    自然語言處理BERTCLS的效果如何?

    要說自然語言處理在18年最奪目閃耀的是什么事情,那當屬 BERT 刷新各個任務的記錄了,至今已經過去了近兩年半的時間,但其影響力未曾衰減,無論學術界還是工業界,很多的工作與部署都圍繞其展開,對很多
    的頭像 發表于 04-04 17:01 ?9335次閱讀
    自然語言處理<b class='flag-5'>BERT</b>中<b class='flag-5'>CLS</b>的效果如何?

    DK-DEV-3CLS200N設備BOM套件

    DK-DEV-3CLS200N設備BOM套件
    發表于 05-13 14:27 ?0次下載
    DK-DEV-3<b class='flag-5'>CLS</b>200N設備BOM套件

    DK-DEV-3CLS200N設備原理圖套件

    DK-DEV-3CLS200N設備原理圖套件
    發表于 05-13 14:57 ?0次下載
    DK-DEV-3<b class='flag-5'>CLS</b>200N設備原理圖套件

    什么是BERT?為何選擇BERT

    由于絕大多數 BERT 參數專門用于創建高質量情境化詞嵌入,因此該框架非常適用于遷移學習。通過使用語言建模等自我監督任務(不需要人工標注的任務)訓練 BERT,可以利用 WikiText 和 BookCorpus 等大型無標記數據集
    的頭像 發表于 04-26 14:24 ?4284次閱讀

    總結FasterTransformer Encoder(BERT)的cuda相關優化技巧

    FasterTransformer BERT 包含優化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。
    的頭像 發表于 01-30 09:34 ?2197次閱讀
    總結FasterTransformer Encoder(<b class='flag-5'>BERT</b>)的cuda相關優化技巧