精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種靈活有效的事件抽取數據增強框架-Mask-then-Fill

深度學習自然語言處理 ? 來源:NLP工作站 ? 2023-02-08 13:54 ? 次閱讀

寫在前面

今天給大家帶來一篇事件抽取數據增強方法,全名為《Mask-then-Fill: A Flexible and Effective Data Augmentation Framework for Event Extraction》,即一種靈活有效的事件抽取數據增強框架-Mask-then-Fill。

介紹

事件抽取,即從非機構化文本中抽取指定的事件的觸發詞及其事件要素,為了減輕人工標注,常采用數據增強方法,對原有數據進行擴充,在有限的數據內,盡可能提高模型的效果及泛化性。目前,自然語言處理的數據增強方法主要分為兩類:(1)修改原有訓練數據樣本;(2)生成+采樣。而事件抽取任務需要在保持事件結構(觸發器和參數)不變的情況下增加訓練數據,因此“生成+采樣”的方法并不適用,本論文主要采用“修改原有訓練數據樣本”方法進行數據增強。

3033a324-a76b-11ed-bfe3-dac502259ad0.png

如圖1所示,現有對事件抽取進行數據增強的方法主要包括:(1)回譯;(2)同義詞替換;(3)BERT換詞。但,同義詞替換和回譯方法缺乏語義多樣性,只能生成語義相似的樣本;而基于BERT的方法只能替換單詞,不能改變語法,不能生成包含各種表達式的樣本。

為了解決數據增強多樣性的問題,該論文提出了“掩碼-填充”方法,在保持原事件結構不變的情況下生成更多樣化的數據。首先定義兩種類型文本片段:(1)事件相關片段(觸發詞和事件要素);(2)附加片段。然后隨機掩碼一個附件片段,最后采用微調后的T5模型進行文本填充。

并且引入親和度(Affinity)和多樣性(Diversity)兩個指標進行進一步研究,發現Mask-then-Fill方法增強的數據具有更好的多樣性和更少的分布變化,在多樣性和分布相似性之間實現了良好的平衡。

Mask-then-Fill Framework

掩碼-填充框架如圖2所示,文本主要包括事件相關片段(帶顏色內容)和附加片段(帶下劃線內容),框架的核心是在不引入新的事件前提下,重寫整個附屬片段。

307220ae-a76b-11ed-bfe3-dac502259ad0.png

pYYBAGPjOXOADRWCAAHj4fhtt_8267.jpg

Experimental Setup

采用ACE2005數據集上進行對比實驗,從訓練集中隨機抽取1000、4000和8000個樣本來模擬低資源設置,創建小型、中型和大型訓練集。并在數據增強時,僅對訓練數據集進行數據增強,開發集和測試集保持不變。

Text2Event模型和Text2Event模型兩個具有代表性的事件抽取模型上進行實驗,并對比與同義詞替換、回譯、BERT模型三種數據增強方法之間的差異。

Results and Analysis

如表1所示,整體上Mask-then-Fill方法最優。308fd6da-a76b-11ed-bfe3-dac502259ad0.png

從表2可以看出,我Mask-then-Fill方法增強的數據具有更好的多樣性和更少的分布偏移,在多樣性和分布相似性之間取得了平衡。

30ad54da-a76b-11ed-bfe3-dac502259ad0.png

圖3展示了由不同的數據增強方法生成的示例。

30c3ed8a-a76b-11ed-bfe3-dac502259ad0.png

總結

該框架的主要優點在于可以將文本中任意長度的片段替換為可變長度的片段,而現有的方法只能替換單個單詞或固定長度的片段。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • J-BERT
    +關注

    關注

    0

    文章

    5

    瀏覽量

    7787
  • 觸發器
    +關注

    關注

    14

    文章

    1996

    瀏覽量

    61053
  • ACE
    ACE
    +關注

    關注

    0

    文章

    21

    瀏覽量

    10645
  • Fill
    +關注

    關注

    0

    文章

    4

    瀏覽量

    2877

原文標題:事件抽取數據增強方法-Mask-then-Fill

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    CIC抽取濾波器MATLAB仿真和FPGA實現

    文章主要講CIC理論基礎,下個文章講FPGA實現。級聯積分梳狀濾波器又稱CIC。這是多速率信號處理中一種結構簡單的濾波器,只需要加法器和寄存器即可實現,可以靈活的設置抽取因子和插值因子,并且CIC是
    發表于 08-17 08:27

    怎樣去設計一種CIC抽取濾波器并對其進行MATLAB仿真呢

    為什么要設計一種理想濾波器呢?CIC抽取濾波器是由哪些部分組成的?怎樣去設計一種CIC抽取濾波器并對其進行MATLAB仿真呢?
    發表于 11-19 07:29

    如何去實現一種ThreadX內核框架的設計呢

    ThreadX內核模板框架是怎樣去設計的?如何去實現一種ThreadX內核框架的設計呢?
    發表于 11-29 07:08

    怎樣去建立一種IIC數據采集USART串口通信框架

    I2C串行總線的硬件結構是怎樣構成的?怎樣去建立一種IIC數據采集USART串口通信框架呢?
    發表于 12-10 07:19

    一種較通用的界面切換框架分享,絕對實用

    一種較通用的界面切換框架分享,絕對實用
    發表于 12-27 06:02

    一種基于復用組件的WEB測控軟件框架設計

    運用組件復用的思想,結合XML技術,設計開發了一種基于可復用的組件庫的Web測控軟件框架。通過使用該軟件框架中提供的豐富的組件庫和靈活的插件管理機制,大大地降低了基于WE
    發表于 06-06 14:51 ?17次下載

    一種基于XML的可復用Web圖表框架

    軟件復用是提高軟件開發效率及產品質量的條行之有效的途徑。本文采用工廠方法和迭代器設計模式設計了一種基于XML和JFreeChart的可復用Web圖表框架。該
    發表于 03-01 15:47 ?17次下載

    有限狀態機的一種實現框架

    通過引入良好的數據結構和事件觸發機制提出了一種面向對象的高度結構化的FSM 實現框架 并給出了事件觸發轉換的調度算法。新框架清晰地表達了FSM中的所有主要元素及它們之間的關系 并將行為
    發表于 03-22 15:24 ?1次下載

    一種基于時鐘抽取偏置電壓技術的存儲器位線_楊澤重

    一種基于時鐘抽取偏置電壓技術的存儲器位線_楊澤重
    發表于 01-07 21:45 ?0次下載

    一種成分取證的理論分析模式的分類框架

    一種成分取證的理論分析模式的分類框架
    發表于 03-20 11:04 ?0次下載

    一種新的DSA圖像增強算法

    DSA是一種重要的醫學診斷和介入治療的技術,DSA圖像質量對于醫生確定病情具有重要意義。現提出了一種新的DSA圖像增強算法來提高DSA圖像的質量,即對圖像進行前期去噪,后期增強的方法。
    發表于 11-15 15:50 ?22次下載
    <b class='flag-5'>一種</b>新的DSA圖像<b class='flag-5'>增強</b>算法

    一種單獨適配于NER的數據增強方法

    ? 本文首先介紹傳統的數據增強在NER任務中的表現,然后介紹一種單獨適配于NER的數據增強方法,這種方法生成的
    的頭像 發表于 01-18 16:28 ?3040次閱讀

    一種基于框架特征的共指消解方法

    基于框架語義的推理是實現語篇理解、冋答系統等任務中語義理解的一種有效手段,框架語乂推理通過構建漢語篇章句子框架之間的聯系尋找推理路徑,但
    發表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種用于交通流預測的深度學習框架

    學習框架方面,針對道路網絡非歐氏的空間關聯以及交通流時序數據的時間關聯,設計了一種融合圖卷積神經網絡和循環神經網絡的特征抽取子網絡;另
    發表于 04-14 15:54 ?3次下載
    <b class='flag-5'>一種</b>用于交通流預測的深度學習<b class='flag-5'>框架</b>

    StarRC教程-如何基于Dummy/Metal Fill GDS抽取寄生RC文件

    Metal Fill或者說Dummy Metal對Timing是有影響的,在比較老的工藝、規模比較小的Design中影響是比較小的,甚至不考慮它們對于Timing的影響去流片也不是說定不行(當然
    的頭像 發表于 12-08 10:00 ?6479次閱讀