寫在前面
本篇不具體談技術,主要是匯總在事件抽取方向的相關廠商調研結果。
1. 事件抽取范疇、范式、技術棧
領域范疇:廠商無論是在特定領域(如:法律、金融),還是通用領域,廠商做的都是限定類型的事件抽取。
范式:除標準抽取外(即事件檢測和事件論元識別),還有:僅抽取觸發詞和論元;僅抽取事件類型和論元。在論元抽取上也各不相同,有的僅抽取主體,有的抽取通用屬性(如:時間/地點,或者時間/地點/主體/客體)等。
技術棧:
預訓練語言模型+(BiLSTM)+CRF
預訓練語言模型+MRC
預訓練語言模型+Biaffine
Bert+BiLSTM+Self-Attention+Pointer Network
預訓練語言模型+指針結構+CLN(ConditionalLayerNorm)等
2. 相關廠商匯總
2.1 華為云
領域范疇
華為云/自然語言處理服務接口說明/事件抽取[1]目前只支持金融公告中的會議召開、聘任、辭職、股票增持、股票減持5類事件以及相關要素的抽取。
范式(標準事件抽取)
包括事件檢測(觸發詞抽取事件類型判定) 事件論元識別(論元抽取論元角色判定)
技術棧
未找到直接描述,但找到了華為云作為CCKS 2020篇章事件要素抽取比賽冠軍的方案解析[2],但注意這個比賽不屬于標準的事件抽取。
上圖分別是他們的整體框架圖和子模型圖,他們將這個任務拆解了三個子任務:事件類型預測,事件要素抽取,以及事件表格填充。
值得關注的是在論元提取(要素抽取)階段,除了CRF外,他們也嘗試了MRC(閱讀理解范式)、Biaffine。其中Biaffine思想來自論文Named Entity Recognition as Dependency Parsing[3]。
另外在最后表格填充時,他們也采用了特殊處理。
2.2 百度
領域范疇
百度AI/知識圖譜/事件圖譜/事件屬性抽取[4]從資訊的標題與正文中,抽取事件發生時間、地點、參與者、觸發詞等事件元素。應該未限定領域范疇。
范式和技術棧
未找到直接描述,但可從其報告百度: 事件圖譜技術與應用[5]分析:
通用屬性抽取針對時間、地點、參與者、觸發詞進行抽取,采用的是實體識別常用的預訓練語言模型(ERNIE)+BiLSTM+CRF;
自定義論元抽取采用MRC(閱讀理解)方式,將抽取轉換成問答形式,通過問題嵌入要抽取的目標,如某角色的論元,來解耦了模型與事件類型、角色類型的相關部分;
語義角色抽取和目前我實驗所采用的范式一樣,都是層疊指針結構。另外因為不同類型事件有各自的論元角色,如果全部建模到模型中,模型會變得很復雜,所以百度將所有角色分門別類,如主體、客體等等(這里百度稱為語義角色),然后利用多層指針結構同時抽取。
需要指出的是,通用屬性抽取的問題是無法靈活地泛化。MRC(閱讀理解方案)的問題則是效率,因為需要對每一個角色都進行單獨提問抽取。
2.3 科大訊飛
無,但科大訊飛有舉辦相關比賽,這里有一份參賽者的分享科大訊飛2020完整事件抽取系統[6]。
范式
非標準的事件抽取,任務包括:抽取觸發詞,主體/客體/時間/地點,判定事件發生狀態的屬性,包括極性、時態。極性分為:肯定、否定、可能;時態分為:過去、現在、將來、其他。
技術棧(pipeline)
觸發詞抽取:Bert+指針結構;特征層面:利用遠程監督增加了已知的所有觸發詞的嵌入。
主體/客體/時間/地點抽取:Bert+conditionalLayerNorma+指針結構。特征層面:trigger在文本中的位置、其他詞到trigger的位置。
2.4 深擎科技
在他們主頁上沒有找到相關接口,但是找到一篇他們分享的文章結合指針網絡的注意力機制(PAN模型)實現金融領域事件抽取[7]。這篇文章里主要提及了事件主體識別和事件類型判定:
事件類型判定:
金融事件的特征相對明顯,業務術語等很大程度上決定了分類的效果,他們直接采用Fasttext分類模型,在句子級的事件識別任務中達到了95.7%的準確率。
事件主體識別:
采用了基于指針網絡帶注意力機制(PAN,Point Attention Network:Bert+BiLSTM+Self-Attention+Pointer Network)的事件主體識別模型,從文本中找出在事件中充當的主體角色元素。
2.5 冪律智能
冪律智能-功能介紹
領域范疇
法律方向,分析對象主要為裁判文書、案件卷宗等法律描述文本
范式(非標準事件抽取)
主要抽取出獨立的包含時間、人物、地點、描述的子事件
技術棧
基于深度學習的序列標注模型,從探測出的事件片段中預測出時間、地點、任務、描述信息
值得注意的是,他們還有一個時間線(類似于事件脈絡),主要是通過提取出的時間標準化比對。
冪律智能事件抽取展示頁面
2.6 云孚語義
有,而且已經有了事件脈絡(原計劃將要做的,別人已經有了),但是目前沒有看到云孚主頁[7]有演示接口,僅看到它的微信公眾號文章中的展示。
云孚語義-事件脈絡
3.總結
關于事件抽取方向的相關廠商調研內容就到這里了,后續將會出事件抽取方向調研-技術棧篇等相關內容。
審核編輯 :李倩
-
事件
+關注
關注
0文章
12瀏覽量
9919 -
語言模型
+關注
關注
0文章
508瀏覽量
10245
原文標題:3.總結
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論