精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于統一語義匹配的通用信息抽取框架-USM

jf_78858299 ? 來源:NLP工作站 ? 作者:NLP工作站 ? 2023-02-22 11:09 ? 次閱讀

前兩天刷arxiv論文,又刷到一篇通用信息抽取框架,今天帶給大家,全名為《Universal Information Extraction as Unified Semantic Matching》,即 基于統一語義匹配的通用信息抽取框架-USM ,狀態為accepted by AAAI2023。

paper地址:https://arxiv.org/pdf/2301.03282.pdf

介紹

信息提取(Information Extraction,IE)需要提取句子中的實體、關系、事件等,其不同的任務具有多樣的抽取目標和異質的機構,因此,傳統的方法需要針對特定的任務進行模型設計和數據標注,使得難以推廣到新的模式中,極大限制了IE系統的使用。

2022年《Unified Structure Generation for Universal Information Extraction》一文,提出了 通用信息提?。║IE)的概念 ,旨在使用一個通用模型來解決多個信息提取任務,提出了一種Seq2Seq的生成模型,以結構化模式提示器+文本內容作為輸出,直接生成結構化抽取語言,最終獲取信息提取內容。

然而,由于Seq2Seq的生成模型的 黑盒特性 ,導致無法判斷跨任務或跨模式的遷移在什么情況下會成功or失敗。因此,本論文提出了統一語義匹配框架(Universal Information Extraction,USM)對各種信息提取任務進行統一建模, 明確模型在遷移過程的有效性、健壯性和可解釋性 。圖片如圖1所示,IE任務中多樣化的任務和抽取目標,可以解耦為以下兩個操作:

  • (1) Structuring ,即結構化,從文本中抽取目標結構中標簽未知的基本子結構。例如:抽取“Monet”、“Paris”、“France”等文本或者“ Monet-Paris”、“France-Paris”等文本pair對。
  • (2) ** Conceptualizing** ,即概念化,它將抽取文本和文本pair對與目標語義標簽進行對應。例如:“Monet”與“person”標簽進行對應,“Monet”-"Paris"與“birth place”標簽進行對應。

并且在給定目標抽取模式時,可以通過結構化操作,重新建立抽取目標結構與文本的語義信息;通過概念化操作,將抽取文本或文本pair與目標語義標簽進行匹配,完成信息抽取任務。

USM框架基于上述發現的規則,將結構化和概念化轉化為一系列有向Token-Linking操作,聯合建模文本與模式,統一抽取文本或文本pair,并根據需要可控生成目標結構,實現在不同的目標結構和語義模式之間進行共享抽取的功能。

基于有向Token-Linking的統一語義匹配

圖片如圖2所示,USM框架以任意抽取標簽模式和原始文本作為輸入,根據給定的模式直接輸出結構。

Schema-Text Joint Embedding

為了捕捉標簽模式和文本之間的關聯,USM框架學習模式標簽和文本標記的聯合上下文嵌入,即將抽取提示實例化為token序列,并與文本序列進行拼接,最后計算標簽-文本聯合嵌入,具體如下,

其中,為Transformer的Encoder結構,為掩碼矩陣,用于確定一對Token之間是否可以相互作用。

Token-Token Linking for Structuring

在得到標簽-文本聯合上下文嵌入后,USM框架使用Token-Token鏈接(TTL)操作抽取所有有效的文本片段。

  • Utterance :輸入文本中的一段連續Token序列,例如:實體文本“Monet”、事件觸發詞“born in”等。如圖3所示,通過片段的頭尾連接(H2T),抽取一個文本片段。例如,“Monet”是自身到自身,“born in”是“born”到“in”。
  • Association pair :輸入文本中的相關文本pair對,例如,具有主客體關系的“Monet”-“Paris”文本對,具有觸發詞-要素關系的“born in”-“Paris”文本對。如圖3所示,通過頭頭連接(H2H)和尾尾連接(T2T),抽取文本對。

圖片對于上述三種Token到Token鏈接(H2T, H2H, T2T)操作,USMk框架分別對所有有效的token-pair候選集中token-to-token 鏈接進行評分,對于每個token-pair,鏈接分數如下:

其中,為輸出維度的前饋層,為旋轉位置嵌入,可以有效地將相對位置信息注入到對應的結構中。

Label-Token Linking for Utterance Conceptualizing

在得到標簽嵌入和文本嵌入后,USM框架使用 label-token鏈接(LTL)操作將有效的文本進行概念化。

LTL操作的輸出是標簽名詞和文本內容的pair對,例如:"person"- “Monet”、"country"-“Paris”等。有兩種類型的概念化:

  • 實體的類型 ,即為每一個文本分配標簽類型,例如,實體“Monet”的類型為person。
  • 客體的謂詞 ,即將謂詞類型賦給每個候選客體,例如,客體“Paris”的謂語詞為birth place。其中,實體的類型和客體的謂詞在概念化時采用相同的LT操作,使得兩種標簽語義之間相互加強。并按照頭尾片段抽取風格,使用label到head(L2H)和label到tail(L2T)來定義L2T鏈路操作,例如,客體的謂詞“Paris”-“birth place”,將標簽“birth place”的頭“birth”與客體“Paris”鏈接,將標簽“birth place”尾頭“ place”與客體“Paris”鏈接。計算LTL的得分,如下:

Token-Label Linking for Pairing Conceptualizing

為了概念化文本pair對,USM框架使用 Token-Label鏈接(TLL)將文本pair對的主體鏈接到標簽上。也就是,TLL操作用head到label(H2L)和tail到label(T2L)操作連接了三元組中主體和謂語詞。例如,主體“Monet”的head“Monet”鏈接標簽“birth place”的head“birth”,主體“Monet”的tail“Monet”鏈接標簽“birth place”的tail“place”。計算TLL的得分,如下:

Schema-constraint Decoding for Structure Composing

USM框架采用模式約束解碼算法來解碼最終結構,通過統一的token-linking操作提取給定的文本結構。如圖3所示,USM框架,首先解碼由TTL操作提取的實體文本和主客體文本,例如:“Monet”,“Paris”,“France”,“Monet”-“Pairs”,“France”-“Pairs”;然后通過LTL操作對標簽名詞和文本內容的pair對進行解碼,例如:“person”-“Monet”,“country”-“France”,“birth place”-“Paris”,“capital”-“Paris”;最后利用TLL操作對標簽及文本對進行解碼,例如:“Monet”-“birth place”,“France”-“capital”。

由于以上三種鏈接操作互不影響,因此,在進行模型推理過程中,三種操作是高度并行的。

最后,可以根據從輸入類型的模式定義,將實體類型country和person與關系類型 birth place和capital分離出來。根據TLL操作的結果“Monet”-“birth place”,“France”-“capital”,可以得到完整的三元組結構“Monet”-“birth place”-Paris和“France”-“capital”-“Paris”。

Learning from Heterogeneous Supervision

本文利用異構監督資源來學習統一令牌鏈接的通用結構和概念化能力,通過語言化的標簽表示和統一的token鏈接,將異構的監督數據統一為進行預訓練。

Pre-training

USM框架對共享語義表示中的標簽模式和文本進行統一編碼,并使用統一的token-linking對文本中的信息進行結構化和概念化。幫助為了學習常見的結構和概念化能力,本文收集了三種不同的監督數據用于USM的預訓練。

  • 任務數據 :來自信息抽取任務的標注數據,即數據樣本都有一個金標準。
  • 遠程監督數據 :數據樣本來自文本和知識庫對齊。
  • 間接監督數據 :數據樣本來自其他相關的NLP任務,主要使用機器閱讀理解的數據,將(問題-文檔-答案)實例中問題作為標簽模式,文檔作為輸入文本,答案作為提及。

Learning function

在訓練過程中,由于token-linking占比僅為所有token鏈接候選集合的1%,因此在模型優化過程中,標簽的極端稀疏性是要重點解決的問題。

主要采用類別不平衡損失函數,

其中,表示USM框架中的鏈接類型,表示鏈接對,表示非鏈接對,表示鏈接操作的分數。

實驗

監督實驗

在4個任務的13個數據集上與其他sota模型進行了對比實驗,其中AVE-unify表示非重疊數據集的平均指標,AVE-total表示所有數據集的平均指標,如表1所示,圖片USM框架達到了sota的效果,并在AVE-total上優于各任務sota方法1.3,及時在不使用預訓練模型的情況下,用Roberta初始化的USM框架也表現出了較好的效果,說明統一token-linking具有較強的可遷移性和泛化能力。

采用異構數據的預訓練的USM框架相比于Roberta初始化的USM框架在所有數據集上平均提高了0.74,說明異構預訓練為信息抽取的結構化和概念化提供了更好的基礎。

在所有任務上進行微調的USM-Unify模型也表現出,說明USM框架可以通過單一的多任務模型解決大量信息抽取任務。

Zero-shot實驗

在不同領域的9個數據集上進行了Zero-shot實驗,如表2所示,圖片遠程監督數據和間接監督數據在預訓練過程中起到很重要的作用。通過表3,可以看出,在330M參數下,就可以比137B參數量的GPT3模型效果更優。圖片

Few-shot實驗

在四個信息任務上進行了Few-shot實驗,如表4所示,圖片USM框架在少量數據下要比UIE效果更優,并且要好于使用Roberta進行初始化的模型。當將標簽文本轉化成固定符號表示時,效果變差,說明語言表達標簽模式并不是無意義的,在語義表征過程中,它起到了決定性的作用。

總結

該論文通過三種統一的Token-Linking操作,實現信息抽取任務的統一模型,讓我眼前一亮,相較于Seq2Seq模型來說,該方法的可解釋性更強。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 框架
    +關注

    關注

    0

    文章

    399

    瀏覽量

    17437
  • USM
    USM
    +關注

    關注

    0

    文章

    7

    瀏覽量

    7212
收藏 人收藏

    評論

    相關推薦

    基于多模態語義SLAM框架

    本文提出了個魯棒且快速的多模態語義 SLAM 框架,旨在解決復雜和動態環境中的 SLAM 問題。具體來說,將僅幾何聚類和視覺語義信息相結合
    的頭像 發表于 08-31 09:39 ?1675次閱讀

    NLPIR語義分析是對自然語言處理的完美理解

    單位,詞語具有特定的語義和內涵。在詞語層次上,詞語語義分析意味著詞語的內涵分析、詞語之間的語義相似度或相關度分析,這是句子分析和篇章語義分析的基礎,也是
    發表于 10-19 11:34

    文本信息抽取的分階段詳細介紹

    模型是上述般文本信息抽取的具體實現。 NLPIR大數據語義智能分析平臺在文本信息提取介紹方面,能夠實現新詞提取和關鍵詞提取。 新詞發現能
    發表于 09-16 15:03

    種從零搭建汽車知識的語義網絡及圖譜思路

    應用。  構建后將獲得的收益:  知識圖譜統一知識表示。通過整合多源異構數據,形成統一視圖;  語義信息豐富。通過關系推理可以發現新關系邊,獲得更豐富的
    發表于 11-22 15:37

    種支持QoS約束的語義Web服務發現框架

    針對當前語義Web服務發現缺乏OoS約束的問題,構建個支持QoS約束的語義Web服務發現框架。使用QoS認證中心確保QoS信息的動態更新。
    發表于 03-31 10:17 ?10次下載

    統一通用入侵檢測框架的研究與設計

    入侵檢測是信息安全保障的關鍵技術之,本文介紹了目前入侵檢測系統中采用的兩種通用模型:通用入侵檢測框架(CIDF)和入侵檢測
    發表于 08-13 09:27 ?8次下載

    基于XML的WEB信息抽取模型設計

    對現有的信息抽取技術和XML 技術加以研究,在此基礎上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數據
    發表于 12-22 13:56 ?17次下載

    Web實體語義信息搜索平臺

    Web上實體信息過于分散且缺乏語義,傳統基于關鍵詞匹配的搜索引擎往往因缺少上下文等語義信息,無法搜索到精確的結果。為了對Web數據進行精確查
    發表于 02-09 16:04 ?0次下載
    Web實體<b class='flag-5'>語義</b><b class='flag-5'>信息</b>搜索平臺

    基于句法語義依存分析的金融事件抽取

    是關注的重點.因此,本文聚焦于金融事件,抽取三元組事件ET(Sub,Pred,Obj).在中文財經新聞中,存在大量事件嵌套和成分共享等現象,致使易岀現事件漏抽和事件成分缺失的情況.為了解決這些冋題,本文建立句法和語義依存分析相結合的中文事件
    發表于 03-24 14:03 ?8次下載
    基于句法<b class='flag-5'>語義</b>依存分析的金融事件<b class='flag-5'>抽取</b>

    結合百科知識和句子語義特征的CNN抽取模型

    關系抽取信息抽取領域中重要的研究任務之,其典型的應用場景包括知識圖譜、問答系統、機器翻譯等。目前已經有大量的研究工作將深度學習應用于關系抽取
    發表于 06-15 16:56 ?5次下載

    深度學習—基于軍事知識圖譜的作戰預案語義匹配方法研究

    基于軍事知識圖譜的作戰預案語義匹配方法研究 人工智能技術與咨詢 前天 本文來自《指揮與控制學報》?,作者梁汝鵬等 摘 要?提出了種智能化的預案語義
    發表于 11-11 11:08 ?1696次閱讀
    深度學習—基于軍事知識圖譜的作戰預案<b class='flag-5'>語義</b><b class='flag-5'>匹配</b>方法研究

    如何統一各種信息抽取任務的輸入和輸出

    信息抽取任務包括命名實體識別(NER)、關系抽取(RE)、事件抽取(EE)等各種各樣的任務。
    的頭像 發表于 09-20 15:25 ?1253次閱讀

    基于統一語義匹配通用信息抽取框架USM

    信息提取(Information Extraction,IE)需要提取句子中的實體、關系、事件等,其不同的任務具有多樣的抽取目標和異質的機構,因此,傳統的方法需要針對特定的任務進行模型設計和數據標注,使得難以推廣到新的模式中,極大限制了IE系統的使用。
    的頭像 發表于 01-16 10:21 ?1072次閱讀

    介紹信息抽取的大統方法USM

    信息抽取任務具有多樣的抽取目標和異構的結構,而傳統的模型需要針對特定的任務進行任務設計和標簽標注,這樣非常的耗時耗力。
    的頭像 發表于 02-15 14:13 ?772次閱讀

    Instruct-UIE:信息抽取統一大模型

    Instruct-UIE 統一信息抽取任務訓練方法,可以融合不同類型任務以及不同的標注規范,統一進行訓練。針對新的任務需求,僅需要少量的數據進行增量式學習,即可完成模型的升級。
    的頭像 發表于 04-25 10:46 ?1673次閱讀
    Instruct-UIE:<b class='flag-5'>信息</b><b class='flag-5'>抽取</b><b class='flag-5'>統一</b>大模型