摘要:
摘要: 隨著大數據時代的到來,海量數據不斷涌現,從中尋找有用信息,抽取對應知識的需求變得越來越強烈。針對該需求,知識圖譜技術應運而生,并在實現知識互聯的過程中日益發揮重要作用。信息抽取作為構建知識圖譜的基礎技術,實現了從大規模數據中獲取結構化的命名實體及其屬性或關聯信息。同時,由于具有多樣化的實現方法,擴充了信息抽取技術的應用領域和場景,也提升了對信息抽取技術研究的價值和必要性的認可度。本文首先以知識圖譜的構建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個國際測評會議的角度回顧信息抽取的發展歷史;接著,基于面向限定域和開放域兩個方面,介紹信息抽取的關鍵技術,包括實體抽取技術、關系抽取技術和屬性抽取技術。
1. 引言
隨著計算機技術和互聯網的飛速發展和知識互聯時代的到來,人們期寄著構建一個更加智能的、機器可理解可計算的萬維網。知識圖譜(Knowledge Graph)的概念逐漸出現在人們視野中。知識圖譜在語義處理、開放處理等功能方面都顯現出很強的能力,在智能推薦、問答和對話系統以及大數據分析和決策等應用中也體現出越來越重要的價值。知識圖譜預計將在互聯網知識互聯的實現過程中起到中流砥柱的作用。
文獻 [1] 給出了知識圖譜的定義:知識圖譜是一個用于描述物理世界中的概念及其聯系的語義網絡,它包含以下三個重要的因素:1) 概念。概念可以是實體、屬性,也可以是一個事實,例如“一個人有兩只手”。概念通常被描述為節點;2) 關系。關系是兩個概念節點之間的語義聯系,例如屬性關系、擁有關系等;3) 概念和關系的背景知識。因為同一個概念和關系都有許多不同的表達方式,因此需要其背景知識作為提供查詢的字典或者本體對多種表現形式進行連接。
知識圖譜是知識工程在現今大數據階段的一個標志性工具。知識工程是將人工智能的原理和方法 [2] 用于構建大規模知識庫。知識工程創立者費根鮑姆(Feigenbaum)給出了知識工程的確切定義,即將知識集成到計算機系統從而完成只有特定領域專家才能完成的復雜任務 [3]。知識工程從以圖靈測試為代表的前知識工程開始,經歷了以知識庫、框架、推理機為核心的專家系統,Web1.0、群體智能Web2.0等發展階段,隨著2012年知識圖譜概念的提出以及Dbpedia、Freebase、YAGO等知識庫的建立,知識工程發展進入了一個新的發展階段 [4],即大數據知識工程(BigKE)。大數據知識工程實現了對數據中的語義,包括隱含語義的挖掘,使數據成為了智慧數據(Smart Data),其目標是自動或半自動地獲取知識,融合碎片化知識,然后建立基于知識的系統 [2],最終達到為一眾應用(例如,語義搜索系統、智能推薦系統、問答和對話系統以及大數據分析與決策)提供互聯網智能知識服務的目的。
知識圖譜的構建經歷了人工構建和群體構建(眾包),現在自動構建技術成為了各個業界的研究熱點 [5]。知識圖譜構建的兩個基本構造是“實體–關系–實體”三元組和“實體–屬性(值)”鍵值對的構建。實體通過它們之間的關系連接在一起形成圖數據庫 [1]。知識圖譜的構建從數據來源分類,可分為面向結構化數據、面向半結構化數據以及面向非結構化數據的知識圖譜構建。本文主要介紹面向非結構化數據的知識圖譜構建過程,以及應用的關鍵信息抽取技術。吳信東等人在文獻 [6] 提出了大數據知識工程模型BigKE,實現了三層次的知識建模過程:首先對大數據進行三階段處理,進行在線挖掘學習得到碎片化知識模型;接著對碎片化知識進行多個步驟的知識融合;最終實現以需求為導向的知識服務。因此,對應于BigKE提出的三層次過程,知識圖譜的構建(Knowledge Graph Construction)技術按照自底向上的過程也包括三個層次:信息抽取(Information Extraction)、知識融合(Knowledge Fusion)和知識加工(Knowledge Processing) [7]。
基于大數據知識工程下知識圖譜的構建,如吳信東等人在文獻 [8] 提出的HACE定理所述,信息抽取可以描述為這樣的一個過程:首先,第一階段對大量孤立、模糊、復雜的動態非結構化數據進行初步處理和計算;然后,第二階段對數據進行深層語義分析、用戶隱私保護問題分析以及應用領域知識的結合分析;最后,第三階段選擇合適的挖掘算法和抽取技術進行數據抽取和融合 [8]。通過將抽取得到的碎片化知識存入知識庫的數據層和模式層,我們最終可以對數據形成本體化表達。這里的抽取技術又按照抽取過程分為實體抽取(Entity Extraction)、關系抽取(Relation Extraction)、屬性抽取(Attribute Extraction)以及實體鏈接(Entity Linking)等 [9] [10]。其中,實體抽取用于發現文本或者網頁中的命名實體,并將其加入現有知識庫中。關系抽取用于自動抽取實體之間存在的語義關系。屬性抽取屬于一種特殊的關系抽取。信息抽取的目標是自動化知識獲取,即實現自動地從異構數據源中抽取實體、關系、屬性等信息進而得到候選知識單元。
由于知識圖譜的構建過程是通過以結構化形式描述客觀世界中的概念、實體以及其關系開始的 [11],概念、實體、關系等信息提取的準確性對構建過程至關重要,信息丟失、冗余、重疊往往是知識圖譜構建面臨的最大挑戰 [1]。作為知識圖譜構建的第一步,信息抽取是得到候選知識單元的關鍵。信息抽取的完整度、準確度直接顯性影響后續知識圖譜構建步驟的質量和效率以及最終知識圖譜的質量。
面向知識圖譜的信息抽取與傳統信息抽取有很大區別。面向知識圖譜的信息抽取大多面向開放域(Open Domain)而不再是限定領域(Closed Domain)。同時,隨著維基百科(Wikipedia)等知識庫的出現,知識圖譜的數據源從有限的文本類型擴展為多源、異構、語義結構復雜的海量數據。因此,信息抽取的核心技術從單一的文本分析變為復雜的知識發現、知識鏈接等,并在新的應用場景和領域中對現有技術和實現方法提出了新的挑戰問題。
信息抽取作為構建知識圖譜的基礎技術,實現了從大規模數據中獲取結構化的命名實體及其屬性或關聯信息。同時,由于具有多樣化的實現方法,擴充了信息抽取技術的應用領域和場景,也提升了對信息抽取技術研究的價值和必要性的認可度。
本文首先以知識圖譜的構建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個國際測評會議的角度回顧信息抽取的發展歷史;接著,基于面向限定域和開放域兩個方面,介紹信息抽取的關鍵技術,包括實體抽取技術、關系抽取技術和屬性抽取技術。
2. 信息抽取研究的發展歷史
2.1. 信息抽取相關概念
信息抽取系統是一種從大量信息源中迅速拋開無效信息找到有用信息的信息獲取工具。關于信息抽取的定義有以下幾種。
定義1 信息抽取的目標是從海量數據中,尤其是本文數據中,快速精準分析抽取出特定的事實信息(Factual Information),將其轉換成可理解可使用的結構化形式信息 [12],最后將條理的結構化信息存儲在數據庫中,等待下一步的分析利用。
定義2 信息抽取是一種自動地從結構化(Structured Data)、半結構化(Semi-structured Data)或非結構化(Unstructured Data)數據中抽取概念、實體、事件,以及其相關的屬性和之間的關聯關系等結構化信息的技術 [13]。
信息抽取帶有一定的文本理解。可以看作深層的信息檢索技術,也可以看作是簡化的文本理解技術。信息抽取通常從兩方面進行實現:一類是基于知識發現(Knowledge Discovery in Databases, KDD)和數據挖掘(Data Mining)的方法,通常處理結構化、半結構化的數據;另一類是基于自然語言處理(Natural Language Processing, NLP)和文本挖掘(Text Mining)的方法 [12],通常處理非結構化數據。信息抽取的具體方法可分為三類:第一類是基于規則(基于專家系統)的方法。主要在早期使用,使用人工編制規則,存在效率低,系統可移植性差等不可忽視的局限性;第二類是基于統計的方法,可在一定程度彌補第一類方法的缺點;第三類是基于機器學習的方法,,它大幅減少了人工干預,并具有處理新文本的能力,是目前常用的方法。
2.2. 信息抽取發展史
2.2.1. MUC會議和ACE會議
到20世紀80年代末,由于消息理解系列會議(Message Understanding Conference, MUC)的召開,信息抽取技術開始飛速發展,逐漸進入蓬勃期,成為了自然語言處理領域的重要分支之一。
MUC會議自1987年召開第一屆起,一共進行了7屆會議。會議由美國國防高級計劃研究局DARPA資助,其主要目的是對信息抽取系統進行評測 [14],是典型的評測驅動會議。會前MUC組織會提供樣例文本和抽取任務說明,參會單位進行信息抽取系統的開發。在會議召開時參會單位將對各自系統進行樣例文本集合的測試,然后通過與手工標注結果進行對比,得到評測結果。最后在會議中對評測結果進行分享、交流、討論。
MUC會議在抽取任務中定義了模板、槽的填充規則以及模板填充機制,將信息抽取規定為模板填充的過程,模板填充即將抽取出的文本信息按照一定規則填入模板的相應槽中 [12]。除此,會議還定義了一套完整的評價指標,由準確率(Precision)、召回率(Recall)、F1值以及平均填充錯誤率(Error Per Response Fill, EPRF)等進行結果評價。
在會議的逐年開展過程中,信息抽取任務逐漸細化、復雜化:抽取模板由單一的扁平結構變為多個模板的嵌套結構;組成模板的槽,從18個、24個到47個的逐漸增加;評測任務也在開始僅有的場景模板(Scenario Templates)填充任務上進行了命名實體識別(Named Entity Recognition)任務、共指消解(Coreference Resolution)、模板元素填充(Template Elements)、模板關系抽取和事件抽取等的任務擴充。
總之,MUC會議的召開吸引了世界各地的研究者開始信息抽取系統的開發,在信息抽取研究的實踐和理論方面都起到了極大的促進作用 [15],并確立了信息抽取的各種標準和規范,以及信息抽取技術的研究和發展方向。
繼MUC之后,2000年12月,由美國國家標準技術學會(NIST)、美國國家安全局(NSA)以及中央情報局(CIA)共同主管舉辦的自動內容抽取(Automatic Content Extraction, ACE)評測會議接著成為了信息抽取研究的又一巨大推動力,將信息抽取技術推向了一個新的高度。ACE會議的研究內容是開發自動內容抽取技術,實現對不同來源的語言文本的自動處理,尤其對新聞語料中的實體、關系、事件進行自動識別、抽取和描述。
和MUC相比,ACE不限定某個領域或場景 [16],增加了對系統跨文檔處理(Cross-Document Processing)能力的評價,采用基于漏報和誤報的評價體系。其中,“漏報”表示實際結果中存在而系統輸出中沒有;“誤報”表示實際結果中不存在而系統輸出中有。
2.2.2. ICDM2019知識圖譜比賽KGC [6]
2019年IEEE國際數據挖掘大會ICDM (International Conference on Data Mining)舉辦了知識圖譜構建比賽KGC。該比賽由明略(Mininglamp)科學院和合肥工業大學主辦,旨在對特定領域或多領域的非結構化文本進行自動知識圖譜構建。該比賽的目的是生成類似人在閱讀一段文字時的思維模式的知識圖譜,因此比賽的評判由專家進行。比賽邀請了學位授予機構和工業實驗室的團隊參加,要求參與者首先設計模型,以文本作為輸入,以知識圖譜作為輸出,從文本數據中提取知識三元組,并在比賽方提供的統一測試集上進行測試,若通過第一輪篩選,則進一步提供Web應用程序來可視化給定數據集的知識圖譜。比賽規定知識圖中的節點必須是文章中的實體詞;鏈接必須是實體之間的關系詞或屬性;并且節點必須由原始文本中的單詞或短語表示,且對同一單詞的同義詞進行合并。比賽的數據集是涵蓋汽車工程、化妝品、公共安全和餐飲服務四個行業的300篇新聞短文本,其中120篇為專家預先進行手工標記的文章。
這個KGC比賽的新穎之處在于,沒有為實體或關系預先提供任何類型的架構。除了ICDM 2019的KGC比賽,還涌現出了不少于信息抽取技術相關的國際學術會議,如國際信息和知識管理大會(International Conference on Information and Knowledge Management, CIKM)。
2.3. 性能衡量指標
在衡量信息抽取系統性能的指標中最常用的是準確率(Precision)跟召回率(Recall)。準確率指的是在抽取的所有結果中正確抽取結果所占的比例 [17];召回率指的是所有可能的抽取結果中正確抽取結果所占的比例 [12]。通常兩者的調和平均數F指數也常用于性能衡量,F指數的計算如下:
其中beta是召回率和準確率的相對權重。beta的取值一般為1、1/2、2。當beta = 1/2時召回率的重要程度是準確率的2倍;當beta = 2時召回率的重要程度是準確率的一半;為1時兩者則同等重要。
3. 信息抽取中的關鍵技術
3.1. 命名實體識別
3.1.1. 命名實體識別相關概念
除了一些眾所周知的英文縮寫,如IP、CPU、FDA,所有的英文縮寫在文中第一次出現時都應該給出其全稱。文章標題中盡量避免使用生僻的英文縮寫。
實體(Entity)是世界上客觀存在并可相互區分的對象或事物。實體根據其在現實世界中的自然劃分,通常分為如下三大類七小類 [18]:實體類包括人名、地名和機構名類三小類;時間類包括時間,日期兩小類;數字類包括貨幣類和百分比類。
命名實體識別(Named Entity Recognition, NER)是信息抽取的第一步,是信息抽取中最為關鍵和重要的步驟。命名實體識別是從文本中識別出實體的命名指稱。命名實體識別又稱為“專名識別”、“實體抽取” [19]。實體識別包括兩個步驟:實體邊界識別和實體分類。邊界識別的目的是判斷字符串是否是一個完整實體,實體分類將實體劃分到預先設定的不同類別。命名實體識別可以看作是識別出表示命名實體的短語,并對其進行類型指定的過程。
實體識別通常與實體鏈接密不可分。實體識別負責指定實體類別,實體鏈接是將識別出的實體通過識別和消歧等步驟后與數據庫中的實體進行對應。實體識別與鏈接將文本轉換為結構化的、以實體為中心的語義表示形式,是問答系統、機器翻譯、數據標注、句法分析的基礎前提步驟 [20],是海量文本分析、知識圖譜構建補全的“核心技術”之一。
3.1.2. 命名實體識別經典模型方法
命名實體識別技術方法分為基于規則、基于統計以及基于機器學習三類 [21]。隨著時代的變換更新,命名實體識別技術也在不斷革新。從早期面向特定領域,逐漸發展為面向開放域(Open Domain);從最初基于人工編寫規則,使用啟發式算法轉變為基于條件隨機場(Conditional Random Field, CRF)、最大熵(Maximum Entropy, ME)、K-最近鄰(K-Nearest Neighbors)等統計機器學習的方法;從基于有監督學習逐漸變為弱監督學習,再到無監督機器學習方式。以下是一些經典的面向特定領域的實體識別方法:
1) 基于規則的實體識別方法
這類方法通常利用一組手工定義的規則,在文本中搜索與這些規則匹配的字符串,來抽取人名、地名、組織名等。其中,謝菲爾德大學提出了用于英語命名實體識別的LaSIE-II系統 [22] 較為經典。除此,文獻 [23] 利用啟發式算法與規則模板結合的方法首次實現了公司名稱抽取系統對公司實體進行抽取。
這類方法依賴固定的詞法(Lexical)、句法(Syntactic)和語義約束(Semantic Constraints),準確率較高,但是需要依靠特定專家對特定領域的規則進行編寫,存在領域性強,系統可移植性差等缺點。
2) 最大熵分類模型 [24]
最大熵模型(Maximum Entropy)是一種概率估計模型,估計構建模型與已有訓練集的效果相似度。其基本思想是選擇創建一個模型使得其與給定的訓練數據、訓練樣本產生效果盡可能一致。比如訓練數據中命名實體前面的詞為動詞的概率為50%,則最大熵模型得到的結果中命名實體前為動詞的概率也要為50%。最大熵模型的形式化描述如下:
其中, p′p′ 表示樣本經驗分布,P表示所有概率模型的集合 [25]。
通過上述表達式可知,滿足給定訓練集的模型并不唯一,而最終尋找的是在約束條件下各種評價指標分布最均勻的模型,即最符合客觀情況、具有最大熵的模型。
最大熵模型可以用于特征函數的生成、特征函數選取、參數估計,常應用于文本分類、數據挖掘、詞性標注等問題。例如,MENE系統采用最大熵模型實現英語命名實體的識別。MENE使用和比較了多種特征,包括外部系統特征、分類字典特征等等,提高了系統的跨語言可移植性和系統性能,實現了將文檔中的每個單詞分類為人名、組織、位置、日期、時間、金錢價值、百分比或“以上都不是”。該系統可以用于Internet搜索引擎,機器翻譯,文檔自動索引,也可以作為處理更復雜的信息提取任務的基礎 [26]。
最大熵模型將實體識別的任務轉換為子字符串的分類任務 [11]。該模型的優點是結構緊湊,通用性較高,便于自然語言處理,但存在訓練復雜度高,時間消耗和計算空間開銷大等缺點 [21]。
3) 隱馬爾科夫模型
隱馬爾可夫模型(Hidden Markov Model, HMM)是眾多基于統計的模型中評價性能最佳的一種模型。HMM模型的基本思想就是給定觀測序列(句子),其數據是可以觀測到的,通過捕獲需要的狀態轉移信息,尋找觀測值所對應的最佳狀態序列(句子的標記序列) [26],這類數據是隱藏的,無法直接觀測。
HMM模型采用了Viterbi算法 [27] 求取命名實體最佳標記序列(狀態序列),顯著提高了模型的訓練速度、識別效率,這是隱馬爾可夫區別于其他模型的顯著優勢,但是HMM模型的準確率要比期望最大化(Expectation Maximization, EM)模型、CRF模型低一些。因此HMM模型適用于實時性要求較高的場合,如語音識別、詞性標注等領域。
HMM由于其輸出獨立性假設,導致其不能考慮上下文的特征,限制了特征的選擇。雖然之后提出了更為有效的最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM),考慮了整個觀察序列,但仍存在“標注偏置”(Label Bias)問題。
4) 條件隨機場模型
Lafferty等人 [28] 在2001年提出了條件隨機場(Conditional Random Field, CRF)模型,它是一種判別式概率模型和一種序列分割及標記的可區分訓練模型,其狀態值取值的獨立性不僅取決于臨近的過去,也取決于未來,相對于MEMM和HMM更加有效。常用于分詞、命名實體識別等預測問題。
CRF模型將實體識別問題轉化為序列標注問題。文獻 [29] 提出并實現了從簡短非正式的Twitter文章中進行命名實體識別,處理推文的命名實體識別所面臨的信息不足以及訓練數據不可用的挑戰。文章提出在半監督的學習框架下,將K個最近鄰(KNN)分類器與線性條件隨機場(CRF)模型相結合,基于KNN的分類器進行預標記以收集整個推文中的全局粗略證據,而CRF模型進行順序標記以捕獲推文中編碼的細粒度信息。
條件隨機場模型為命名實體識別提供了一個特征靈活、全局最優的標注框架 [21],但是也存在收斂速度慢、訓練時間長、依賴特征多的局限性。
5) 混合模型
基于規則的方法可移植性差,費時費力但是識別結果比較理想,基于統計機器學習的方法性能依賴于訓練樣本的規模,也出現了一定局限性。因此,出現了將兩者相互結合的方法。Lin等人 [30] 實現的是從自然語言文本中識別生物醫學命名實體,提取生物醫學信息。文章提出的識別方法分為兩個階段:先使用最大熵作為基礎的機器學習方法;然后結合基于字典和基于規則的方法進行后處理,包括邊界檢測擴展和錯誤分類糾正。對Medine論文摘要的GENIA數據集進行了實體抽取測試,取得了較理想的結果,召回率和準確率都得到了提升。
6) 基于深度學習的方法
深度學習方法的訓練是一個端對端的過程,無需人工定義相關特征 [4],其基本思想是使用訓練數據學習對命名實體識別有用的特征,然后利用學習的特征在文本中進行命名實體識別。基于深度學習的方法主要有以下兩類:
i. 神經網絡–條件隨機場架構(Neural Network-Conditional Random Field, NN-CRF) [31]
在這個架構中,卷積神經網絡(Convolutional Neural Networks)/長短期記憶人工神經網絡(Long Short-Term Memory, LSTM)用來學習每一個詞的位置的向量表示,然后根據這個向量表示NN-CRF模型可以計算得到這個位置處的最佳標簽。這類方法解決了實體識別的序列化標記問題。文獻 [32] 提出了使用詞向量表示特征的最簡單、最有效的方法。文章 [33] 提出了一種半監督系統(以無監督的方式從大型語料庫中學習單詞表示,并使用這些單詞表示作為有監督訓練的輸入特征,而不是使用手工制作的輸入特征),從4億個Twitter微博中自動推斷出的單詞嵌入表示形式,作為系統輸入,使用前饋神經網絡(Feed Forward Neural Network, FFNN)進行分類,得到多種實體類別:公司、設施、地理位置、音樂藝術家、電影、人物、產品。該篇論文提出的方法沒有加入人工參與,專注于分布式單詞表示,可以應用于不同的語料庫,并且得到較好結果。最近,文獻 [34] 提出了一種神經半馬爾可夫(Neural Semi-Markov)結構的支持向量機模型,這是一種訓練精度驅動的NER模型,該模型將實體抽取擴展到序列標記問題,引入了代價敏感學習(Cost-Sensitive Learning)來控制精度和召回率之間的折衷。
ii. 基于滑動窗口分類的方法
該方法使用神經網絡學習句子中的每一個N-Gram的表示,然后預測該N-Gram是否是一個目標實體 [4]。文獻 [35] 實現了從科學文章中提取關鍵字短語并根據任務、材料、過程等方面對其進行分類的任務,該文章使用神經標記模型并引入基于圖的半監督算法,將實體抽取歸結為序列標記問題,對未標注的訓練數據進行學習。這種方法對單一領域內、高數據量數據比使用跨域、小數據量數據具有更好的性能。
3.1.3. 面向開放域的實體抽取方法
在面向開放域的信息抽取中,信息來源不再是特定的知識領域,成為了全網信息,面向海量Web語料 [36]。例如,KnowItAll系統 [37] 處理的是規模龐大、具有異質性的Web語料庫,例如Twitter、Wikipedia等。
開始研究人員采用人工方法進行實體識別和分類。例如,Sekine等人 [38] 在2002年采用人工預定義實體分類體系首次展示了一個層次結構的命名實體分類框架,將全網的實體分為了150個種類。Ling等人 [39] 在此基礎上接著在2012年提出了112種的分類方法,該方法基于Freebase類型獨特標記方法,先利用Wikipedia文件中的錨鏈接自動標記實體段,訓練條件隨機場模型,用來分割識別到的實體邊界,接著采用自適應感知器算法實現對多類多標簽實體的自動分類。
實體分類體系通過人工干預進行構建顯得很是困難,因此,出現了通過統計機器學習方法從數據集抽取與當前類別實體具有相似上下文特征的實體,從而實現分類和聚類的方法。Jain等人 [40] 提出并實例化了一種用于通過web搜索查詢日志進行公開信息提取的新穎模型。該方法的處理對象是網頁中的查詢日志,通過應用基于模式的啟發式方法和統計方法,使用無監督方法從搜索查詢日志中提取實體,采用聚類算法對基于日志搜索得到的實體進行聚類,進而得到分類。這是一種面向開放域的無監督學習算法,該方法可以應用在協助搜索的關鍵字生成方面,例如搜索“手機”出現“華為”“小米”等建議。
由于傳統統計模型需要進行大量語料標注、人工構造大量特征的局限性,出現了一些新方法,例如,使用基于半監督算法 [41] 、遠距離監督算法 [42] 、基于海量數據冗余性 [20] 的自學習方法等來解決開放式實體抽取問題。面向開放域的實體抽取方法常應用于基于常識的新穎的問答系統 [24]。
3.2. 關系抽取
命名實體識別是從文本中抽取特定實體,但僅孤立、離散的實體是無法得到語義結構無法滿足應用需求的,這時候確立實體之間的關聯關系顯得更為重要。實體關系抽取是對已經識別出的實體進行預定義的關系識別,為更深層次的分析提供資源也是知識圖譜構建的重要環節之一。
關系抽取是一種獲取已經識別出的實體之間的語法或語義之間連接方式的技術。和命名實體識別類似,關系抽取中實體關系的類型也需要預先定義,例如人物之間的親屬關系、組織機構和地點之間的關系等等。
關系抽取的范圍分為面向特定領域(Close Domain)、面向開放領域(Open Domain)以及聯合推理三大類。面向特定領域的關系抽取方法和實體識別相似,前期主要使用基于模式匹配和基于詞典驅動的方法,依靠人工編寫抽取規則。隨著人工構造規則低效性和領域局限性的明顯化以及研究的深入,現在較多使用的兩類方法是:基于機器學習(Machine Learning)的方法和基于本體(Ontology)的方法。其中,基于機器學習的方法又分為有監督、弱監督和無監督三類。在面向開放域的關系抽取發展中出現了以OIE系統為基礎的多個系統,例如,WOE系統、OIE ReVerb系統、OILLIE系統等,實現了動詞、非動詞的關系抽取和二元、多元的關系抽取。同時,為了解決隱含關系的抽取,產生了將面向開放域的關系抽取方法與傳統面向特定領域的信息抽取方法相結合的聯合推理的思想,是關系抽取方法上的一個巨大進步。
3.2.1. 基于機器學習(Machine Learning)的辦法
基于機器學習的實體關系抽取方法的思想是:首先對人工標注的語料庫進行不斷學習不斷訓練,獲取特定領域的信息抽取規則,接著利用機器學習算法進行關系識別。基于機器學習的實體關系抽取系統一定程度上可以處理新的文本,這是其區別于以往方法的最大優點。基于機器學習的方法根據是否需要人工標注訓練集以及對標簽的需求程度又分為有監督、弱監督和無監督三類 [43]。
1) 有監督的學習方法
有監督的學習方法需要人工預先標注大量語料訓練集以確保算法的有效性,然后對訓練集進行不斷學習獲取信息抽取規則。關系抽取的有監督學習可以分為兩大類:基于特征向量的方法和基于核的方法。
最早的有監督的學習方法是基于特征向量的學習方法。該方法將訓練語料轉換為特征向量形式,使用各種機器學習算法(最大熵模型(Maximum Entropy)、支持向量機(Support Vector Machine, SVM))為其構造分類器,從而對新數據進行分類和測試。基于特征向量的方法將信息抽取問題看作分類問題,對數據的正確分類即對信息的正確抽取。其研究重點是如何獲取各種有效的詞匯、語法和語義特征進行集成。Zhou等人 [44] 使用支持向量機,運用了多種詞匯、語法解析樹、依存樹特征,并且加入了各種語義信息,如WordNet、名稱列表name list、分塊短語信息等,實現了基于特征的關系提取,使用語言數據協會(Linguistic Data Consortium, LDC) 1提供的ACE語料,抽取出了ACE 2004定義的7大類關系類型。這些基于有監督的學習方法發現實體的類別信息特征的提取有助于提高關系抽取性能。
基于核函數的方法以核函數理論為基礎,以結構樹為處理對象,通過直接計算兩個離散對象(如語法結構樹)之間的相似度來進行分類,不需要構造高維特征向量空間。核函數方法可以有效地利用句法樹中的結構化信息,已成功應用于文本分類和生物信息學等問題。Liu等人 [45] 借助HowNet提供的本體知識構造語義核函數,在開放數據集上對六類ACE定義的實體進行識別,準確率達到了88%。Zhuang等人 [46] 提出了使用卷積樹核方法進行實體語義抽取,在關系的結構化信息中加入實體的語義信息,應用樹裁剪策略,在減少冗余信息的同時擴充了原有的樹結構,使之包含更豐富的實體語義信息。通過直接計算兩個實體關系對象(即句法樹)的相同子樹的個數來比較相似度,也改善了實體語義關系識別抽取的效果。實驗數據取自ACE RDC 2004中的347篇新聞報道,共有4307個關系實例,系統對ACE所定義的7個大類進行關系抽取實驗。Zelenko等人 [47] 在淺層句法分析樹基礎上定義了核函數,并設計了一個用于計算核函數的動態規劃算法,然后通過支持向量機和表決感知器(Voted Perceptron)等分類算法來抽取實體語義關系,系統對200篇新聞文章(語料庫包含來自不同新聞社和出版物(美聯社,《華爾街日報》,《華盛頓郵報》,《洛杉磯時報》)進行處理,最終提取得到兩種關系,“人員–隸屬”關系(一個特定的人從屬于一個特定的組織(如“小王是騰訊公司的程序開發工程師”中在人物“小王”和組織“騰訊公司”之間存在著人員–隸屬關系)和“組織–位置”關系。
2) 弱監督的方法
弱監督學習方法又稱為半監督學習,使用預先定義的關系類型和關系實例的種子來取代大量的人工信息標注過程,減輕了對標簽的依賴。在定義了適當的實體作為種子之后,利用機器學習方法,挖掘對應關系描述模式,通過模式匹配抽取新的關系實例。關系抽取的弱監督學習中基于Bootstrap算法、基于神經網絡模型是經典的學習方法。
基于Bootstrap算法的半監督學習方法由Carlson等人 [48] 提出,該算法實現了自動實體關系建模,首先利用少量實例作為初始種子集合,通過Pattern方式迭代學習非結構文本以獲取新實例,接著從新實例中繼續學習并擴展Pattern集合。Wang等人 [49] 以原始文本為輸入,提出使用一個單一的模型、端到端聯合識別邊界、實體提及的類型和關系,使用了一種基于結構感知器的增量聯合框架,利用有效的集束搜索進行實體和關系的抽取,該框架使用基于半馬爾可夫鏈思想實現基于分段的解碼算法。此后,Brin等人 [50] 發布了DIPRE系統,該系統使用少量的種子模板,從網絡上大量非結構文本中抽取實例,通過新的實例學習新的抽取模板,設計了一個永無止境學習者系統(Never-Ending Language Learner, NELL),用來不間斷抽取學習網絡文本中信息到結構化知識庫中,對數據庫中的事實、知識不斷擴充。NELL主要學習的是兩種類型的知識,一種是表示特定類別的詞匯(比如,公司,家,學校),另一種是表示特定關系的名詞對(比如,表示所屬關系的(小王,騰訊公司))。通過在前人抽取系統基礎上進行大規模Pattern構建或完善對新抽取實例、新構建Pattern的描述限制,很多系統如Snowball系統 [42] 、NELL系統 [51] 相繼出現,推動了知識圖譜的構建進度。
斯坦福大學(Stanford University)的Mintz等人 [52] 于2009提出基于遠距離監督學習的無標注文本的關系抽取方法。該方法以Freebase為訓練數據進行遠距離監督學習,設計面向文本特征的分類器,是融合了有監督和無監督的信息抽取方法;何婷婷 [53] 提出了基于種子的自擴展命名實體關系抽取方法,選取有關系的命名實體對作為初始關系種子集合,通過弱監督學習擴展關系種子,接著計算關系種子和命名實體對之間的上下文相似度,進而抽取新的命名實體對。
3) 無監督的方法
無監督方法使用未經人工標注的訓練文本集,通過實體對聚類的方法,構造分類器,給定實體間的關系。無監督學習主要利用語料中大量冗余信息進行聚類分析,進而得到實體間關系 [5]。無監督方法既可以處理web文檔也可以對文本文檔進行處理。
無監督方法可以用來對web文檔信息進行抽取。Kathrin [54] 實現了基于無監督學習的web文檔信息抽取,過程分為預處理、關系抽取和關系聚類三步;同樣地,Etzioni等人 [37] 實現了一個web信息抽取系統KNOWITALL,通過無監督方法實現了高召回率(Recall)的信息抽取。
實體之間語義關系的抽取是web挖掘和自然語言處理,例如信息提取,關系檢測和社交網絡挖掘中各種任務的重要第一步。Hashimoto等人 [55] 提出了一種詞嵌入的方法對語義關系進行分類(監督學習),詞嵌入通過借助大型未標注語料庫中特定關系的詞匯特征來預測得到名詞對中的特征,接著詞嵌入用于構建特征向量,最終特征向量被訓練成一個關系分類模型。Hashimoto等人 [55] 使用原始Wikipedia文件中提取的8000萬個句子作為訓練數據進行詞嵌入的預訓練,最后將文本中的名詞對之間的關系分為9個特定關系類(比如原因–結果、物質–來源)和1個其他關系類(例如,“養家糊口是人們努力賺錢的很大動力之一”中“養家糊口”–“賺錢”之間存在因果關系)。無監督方法也可以通過協同聚類算法實現。Bollegala等人 [56] 提取了實體之間的語義關系,使用順序聯合聚類(co-clustering)算法,從未標記數據中提取大量有效關系,包括語義關系的雙重關系(比如獲取關系,房地產公司購買了一棟老洋房,同時可以表示為,老洋房被房地產公司收購)。該方法使用算法產生的聚類,訓練了一個L1正則化邏輯回歸模型識別用來描述聚類表達關系的模式 [56]。其中提出的模型對ENT基準數據集中實體對之間的關系相似性進行了計算;對SENT500基準數據集的500個手動注釋的句子中的四種語義關系進行了開放信息提取;以及對包含3500萬個節點的社交網絡系統中53種不同的關系進行了識別和分類。
無監督方法可以用來對文本信息進行抽取。文獻 [57] 通過將非結構化文本與知識庫對齊來自動生成大量訓練數據。文獻 [58] 嘗試將遠程監督納入文本處理中,以通過使語料和文本對齊來自動生成訓練樣本,從而提取特征訓練分類器。
除了上述方法,Zhang等人 [45] 提出了基于實例的無監督學習方法,能夠對實體之間的雇傭關系、生產關系以及位置關系進行準確的識別;Ji等人 [59] 提出了一個句子級別的注意力機制模型,該模型選擇多個有效實例并充分利用知識庫中的監督信息,使用傳統CNN從Freebase或Wikipedia中抽取得到的實體特征信息來豐富實例的背景知識,提高實體表示。Qi等人 [45] 使用Riedel 2010開發通過將NYT語料對齊知識庫得到的數據進行實驗。
4) 深度學習方法
深度學習方法在自然語言處理(NLP)和圖像識別方面表現的性能非常強大,使得眾多研究者將其應用于解決關系抽取的問題。深度網絡的結構有很多種,如RNN (Recurrent Neural Networks) [9],CNNS (Convolutional Neural Networks) [3],CNNs和RNNs的結合結構 [60] [61] 以及LSTMs (Long Short-Term Memories) [62]。基于神經網絡模型不需要加入太多的特征,一般加入詞向量特征、位置特征等就可以。Hsahimoto等人 [45] 利用Word Embedding方法來學習給定標注預料中特定名詞對應的上下文特征,將特征加入神經網絡分類器中;JainPoon等人 [63] 使用了用于關系提取的卷積神經網絡(CNN),針對不平衡語料庫,自動從句子中學習特征并最大程度地減少對外部工具包和資源的依賴,從而擺脫了傳統的復雜特征工程方法。該模型利用無監督框架自動訓練詞嵌入作為系統輸入,模型使用預訓練的詞嵌入進行初始化,并優化詞嵌入和位置嵌入作為模型參數,對句子中兩個實體間的相對距離進行編碼,并且提供了多種窗口大小的卷積過濾器,從而使網絡適合于n元關系提取。從文本中提取實體對之間的語義關系可以用于信息抽取、知識庫填充、問題解答等等。Zeng等人 [64] 將分段卷積神經網絡(PCNN)與多實例學習一起用于遠程監督關系提取。此方法中,無需復雜的NLP預處理即可自動學習特征。Zhang等人 [65] 提出了將LSTM序列模型與實體位置感知相結合的關系抽取神經序列模型,通過更好的監督數據和更合適的大容量模型的結合實現了更好的關系提取性能。
以上四種機器學習方法均可以對實體關系進行抽取。有監督的信息抽取方法需要預先人工標注大量語料集,對人工的依賴性較強,抽取的準確率較高,常常用來處理自然語言文本;弱監督學習減少了對標簽的依賴,降低了對人工的依賴,其使用了預先定義的關系類型和關系實例的種子,實現了很多自動關系抽取模型,推動了知識圖譜的構建進度;無監督方法使用的文本集不需要進行人工標注,它使用實體對聚類方法實現關系抽取。弱監督以及無監督學習常常用來處理規模大的web文本。深度學習方法通過引入神經網絡模型進一步提升了關系抽取的自動化程度,并取得了更優秀的關系提取性能。
3.2.2. 基于本體(Ontology)的方法
基于本體的信息抽取技術,借助預定義的本體層次結構,可有效識別特定領域的概念、實體、關系等知識。本體可以看作一個呈樹狀結構的知識庫模具,是同一領域內不同主體之間進行交流、連通的語義基礎 [66]。
本體的構建是信息抽取的基礎,本體的構建方法也隨著技術的發展逐漸從人工構建、半自動化構建向自動構建發展。人工構建本體由大量的領域專家相互協作完成,Swartout等人 [67] 提出的循環獲取法(CYC),Nov等人 [68] 提出的Ontology Development 101 (七步法)都是人工構建的經典方法,其步驟包括確定領域范圍、復用現有本體、列出概念術語、定義類與類之間的層次關系、定義屬性之間關系、定義屬性的約束和創建實例。但是七步法存在主觀性強,評價機制弱的缺陷,缺少科學管理和評價機制。
半自動化構建本體主要是利用相關領域內的專業詞典、敘詞表等專家知識從中抽取感興趣的概念和關系,構建需要的實體 [69]。這類方法復用了本體中的概念和關系帶來了不同本體匹配的問題。
自動構建本體利用知識獲取技術、機器學習方法以及統計的思想和技術從數據資源中自動獲取本體知識。其具體方法分為基于語言規則和基于機器學習方法兩類。基于語言規則的方法 [70],通過對自然域文本的分析,提取候選關系并將其映射到預定義的語義表示中實現本體的構建。這類方法中一個動詞可以表示兩個或多個概念之間的關系。但也存在以下缺點:1) 不會發現新的關系,只是發現已知關系實例;2) 本體構建的效果依賴于語義模式,因而需事先構建較完備的語義模式。另一類是基于統計分析的機器學習方法 [71],基于數據聚類對用于構建每個組的本體樹的文檔進行分組,使用模式樹挖掘從部分本體樹構建集成本體進行結構化的本體構建。其中,文檔聚類主要通過潛在語義分析(Latent Semantic Analysis, LSA)和K-Means等檢索關鍵字關系矩陣的方法來實現;本體構建主要通過形式概念分析和本體集成實現。機器學習方法比起基于規則的方法適用于范圍更廣的領域,構建的本體傾向于更好地描述概念間的關系,結構也更加復雜。但是,缺乏必要的語義邏輯基礎,因此抽取概念關系松散且可信度無法得到很好的保證。信息抽取可以通過一個或者多個本體實現。Moreno [72] 提出了在一個獨立域中基于本體實現信息抽取的方法,應用面向分子生物學領域,對大腸桿菌信息進行抽取,建立大腸桿菌監管網絡,所建設的系統對該領域科學論文的摘要和完整文獻進行了測試,先設計領域本體,然后根據本體所包含的知識實現信息抽取。Li等 [73] 人實現了基于農業本體的農業領域對結構化的AJAX數據的提取。Daya [74] 提出了使用多個本體進行信息抽取,分別在子域的確定和子域的表達兩種情況下使用多個本體,所實現的第一個基于多本體的系統是針對大學領域開發的,它使用兩種專門針對子域的本體,語料庫由100所大學,50所來自北美和50所來自世界其他地區的網頁組成文獻。實現的第二個系統應用在恐怖襲擊的領域和消息理解會議(MUC)使用的語料庫實現子域的表達。
3.2.3. 基于開放域的關系抽取
隨著大數據時代的來臨,文本數據急劇增多,數據規模增大,傳統的領域受限的、限制語義關系的信息抽取方法、知識表示結構出現了很大的局限性。之前的信息抽取方法面向的是特定數量的文本需要預先定義好的關系類別,領域知識也是由本體(Ontology)結構來表示,隨著處理數據的海量化,本體構建越來越困難,抽取方法也開始出現問題。并且面向特定領域的抽取方法導致了信息抽取技術的難以普及和擴展,系統的可移植性差。
面向開放域的關系抽取技術直接利用語料庫的中關系詞匯進行實體關系分類建模,不再需要預先指定關系的分類,就可以實現數據分類。該方法成為了抽取模式上的一個巨大進步。開放式IE系統都采取標簽–學習–提取三個步驟的方法:首先使用啟發式或遠距離監督方法自動標記句子;接著使用序列標記圖形模型(例如CRF)學習關系短語提取器;最后系統將一個句子作為輸入,從句子中識別出參數,利用提取器將兩個自變量之間的每個單詞標記為關系短語的一部分或不作為關系短語的一部分。抽取器用于語料庫中的連續句子,然后收集所得的抽取內容 [11]。
華盛頓圖靈中心的Banko等人 [16] [75] [76] 在2007年提出了面向開放領域的信息抽取框架(Open Information Extraction, OIE),發布了基于自監督學習方式的開放信息抽取原型系統TextRunner,標志著第一個OIE系統的問世。TextRunner (O-CRF)首先利用啟發式規則來訓練樣本,然后采用二階線性鏈條件隨機場抽取器從開放式文本中自動抽取關系三元組 [16]。TextRunner可以自動抽取文本中大量實體關系,但是在準確率跟召回率方面不是很理想。
Wu等人 [77] 2010年在OIE的基礎上提出了基于Wikipedia的WOE (Wikipedia-based Open Extractor)系統,將Wikipedia作為數據源利用維基百科網頁信息框(Infobox)中的屬性信息經自監督學習與相應語句匹配,自動構造實體關系訓練集,然后從樣本中抽取出關系獨立的訓練數據經自監督學習得到抽取器。WOE系統實現了大批量構造高質量訓練語料的方法,并且在準確率跟召回率方面都得到了改善,令人遺憾的是它速度方面出現了不足。Fader等人 [20] 在TextRunner系統和WOE系統基礎上引入了語法限制條件和字典約束,進行關系指示詞的預識別,消除了不合理實體關系三元組的生成。
隨著研究的進一步發展,出現了第二代OIE系統ReVerb [20] [78],基于通用句法和詞法約束實現了關系短語識別器,處理的是隨機抽取的英語句子,對其進行全面語言分析,使用動詞表達句子中關系,抽取得到動詞關系短語(例如,句子“Mr. Wang fought against Mr. Li,but finally lost the job”,系統將抽取出兩組元組:(Mr. Wang, fought against, Mr. Li)和(Mr. Li, lost, the job))。Etzioni等人 [11] 通過應用淺層句法約束和詞性約束減少了無意義信息以及錯誤信息的產生,所設計的Reverb系統主要進行動詞關系的抽取,先抽取滿足約束的關系,然后依據臨近原則確定左右實體。REVERB支持學習選擇偏好,獲取常識知識,識別蘊含規則等等。
Mausam等人 [20] 在第二代OIE基礎上提出了支持非動詞性關系抽取的OILLIE (Open Language Learning for Information Extraction)系統,有效彌補了以往OIE系統抽取以動詞為主而忽略名詞形容詞的缺陷,開始結合上下文全局分析而不是僅對語句局部分析、部分抽取,有效改善了自動抽取系統的召回率和準確率。McCallum等人 [75] 提出了后期采用關系推理的方法,有效地提高了隱含語義關系的發現識別能力。
以上提到的抽取方法都是二元的開放式關系抽取。開放式的關系抽取按抽取關系的復雜程度可以分為二元和多元。Alan等人 [79] 提出了基于N元關系模型的OIE系統,對除了常見二元實體關系的高階多元實體關系進行識別;文獻 [79] 在OIE ReVerb系統上提出了KPAKEN方法,通過輸入Stanford的依存分析結果,經過檢測事件短語、檢測實體主導詞、檢測全部實體等步驟,實現了對任意英文語句中的N元實體關系的抽取。Del等人 [80] 提出了一種新穎的基于條款的開放信息提取方法,稱為ClausIE,該方法從自然語言文本中提取關系及其參數,ClausIE基于依賴性分析和一小組與域無關的詞典,無需經過任何后處理即可逐句操作,并且不需要訓練數據(無論是帶標簽的還是無標簽的)。ClausIE利用英語語法知識來首先檢測輸入句子中的從句,并隨后根據其組成部分的語法功能識別每個從句的類型。根據此信息,ClausIE能夠生成高精度提取系統,在實驗中使用了三個不同的數據集:包含手工標記的500句子的Reverb數據集;從Wikipedia頁面中隨機提取的200個句子;從《紐約時報》合集隨機提取的200個隨機句子。ClausIE依據依存關系獲取子句集合,并將其按類型靈活組合來抽取實體的N元關系。由于N元關系具有更加豐富的語義,因此由二元關系向N元關系的過渡是必然的,也是以后的研究發展方向。
隨著理論研究的不斷進行,更多面向開放域理論模型的出現,更優秀的知識表示結構的出現,更多研究成果正不斷投入實踐應用中,信息抽取研究正在不斷取得進步,正在獲得更大更開放的發展空間,為后續知識圖譜的高質量構建提供了有力保障。
3.2.4. 聯合推理
隱含關系抽取是關系抽取的一大難點。因此,為了挖掘文本中的隱含的深層語義信息,一些學者將面向開放域的關系抽取方法與傳統面向特定領域(Close Domain)的信息抽取方法相結合,取長補短,提出了聯合推理(Joint Inference)的概念 [25]。JainPoon等人 [63] 提出了一種完全聯合方法。目前聯合推理主要包括基于馬爾科夫邏輯網和基于粗略至精細(Coarse-to-Fine)的本體推理兩種。
1) 基于Markov邏輯網的邏輯推理
基于馬爾可夫邏輯網MLN (Markov Logic Network) [79] [81] 的方法是聯合推理關系抽取中的經典方法,該方法在OIE中加入了推理,將馬爾可夫網絡與一階邏輯相結合,維護一個基于一階邏輯的規則庫,并對每一個邏輯規則附上權重,構建統計關系學習框架。其中馬爾可夫邏輯是一種強大的新語言,將一階邏輯與概率圖形模型無縫結合 [77]。MLN的基本推理任務是尋找一個值從而使得可滿足的子句的權值最大,即MAP (Maximum A Posteriori)推理。MLN可看作一種用一階邏輯公式來實例化Markov網絡的模板語言。該方法在語義角色標注、共指消解、文本蘊含、實體鏈接消歧等研究方面有很好的應用。
微軟公司的人立方(Renlifang)項目基于該方法提出了StatSnowball模型 [59] 實現了自動生成或選擇模板生成抽取器,從web挖掘實體關系,該模型在小型標記數據集和大規模web數據中都提現了較好的性能。該方法是一種基于無監督自學習的知識挖掘模型,可以抽取多種實體關系,并且可移植性強。人立方系統主要由以下幾個應用:1) 搜索實體關系信息;2) 對話題相關人物進行排序;3) 檢測某實體的受歡迎程度,并使用戶可以瀏覽給定時間段內按其在網絡上的知名度排名的不同類別的實體;4) 對人物進行排名。基于StatSnowball文獻 [82] 提出了一種實體識別與關系抽取相結合的ENTSum模型,即將實體識別和關系抽取在一個模型中聯合處理同時實現。該模型由擴展的CFR命名實體抽取模塊和基于StatSnowball的Bootstrapping關系抽取模塊組成,兩個模塊使用迭代方法相結合,實體識別可以利用關系抽取的模板語法特征和知識語義特征,使得兩個模塊準確率和召回率都得到了改善。文獻 [75] [83] 提出了一種簡易的Markov邏輯TML (Tractable Markov Logic)。Banko等人 [78] 提出了基于條件隨機場的關系抽取模型(H-CRF),根據目標數據集關系數量多少以及有無預定義的分類模型選擇機器學習方法或開放域關系抽取方法。
2) 基于本體推理的聯合推理
基于本體推理的聯合推理面向開放域抽取方法形成的知識庫基本上都是信息的基本存儲并沒有進行內容的規范和組織。為了使抽取結果形成的知識庫成為真正的知識庫,即能夠推斷文本深層含義進而從已有事實信息包含的隱含信息中推理出新的知識,能夠為決策和問答所使用。研究者們提出了基于本體推理的信息抽取方法。
Zhang等人 [14] 提出了KOG模型,該方法基于MLN聯合推理,將Wikipedia的Infobox與WordNet相結合用于本體結構的構建,本體結構是“實體–屬性–屬性值”的結構,為Wikipedia的查詢/專題瀏覽功能提供了輔助作用。Moro等人 [84] 提出的VELVET方法利用聯合推理以及本體平滑方法實現了最弱監督下實體關系的抽取,為結構化知識庫的建立奠定了基礎。Domingos等人 [85] 將概率推理(Lifted Probabilistic Inference)與Markov相結合,提出了簡易Markov邏輯(Tractable Markov Logic, TML)。在TML邏輯語言中,領域知識按照層次結構分為若干部分,各部分又按照所屬事物類進一步分解為若干部分,以此類推,最終形成了一個層次化的類/局部結構。TML被證明是目前最為豐富和高效的邏輯語言之一,可能將來在本體知識推理前進中起到推波助瀾的作用。
另外一些學者提出了采用聯合抽取模型的方法,典型成果如利用雙層的LSTM-RNN (長短期記憶–遞歸神經網絡)模型通過神經網絡進行分類模型的訓練 [64] 聯合推理結合了面向特定領域和面向開放域的方法,在許多方面展示出了優勢。對于隱含關系的抽取和抽取階段的平衡,聯合推理方法顯現出比主流開放式信息抽取方法更高的性能 [86]。當前信息抽取技術多是順序式抽取,即抽取過程分解為實體識別、關系抽取、屬性抽取等連續的多個子任務再集成。這樣的模式存在些缺陷,比如前一階段無法識別的信息在后一階段將不再被處理,從而出現了信息的缺失和不完整。前一階段的錯誤信息結果將無法在后面階段進行修復,從而在所有階段結束后大大增加了錯誤率的積累。此外順序式處理方式使前面階段無法使用后面階段出現的有用特征,準確率和效率得到了限制。而聯合推理方法不僅能夠綜合各個階段,實現相互補充和促進,而且可以實現文本深層理解,實現隱含信息的自動推理。因此,聯合處理的方法將成為之后的研究重點。
3.3. 屬性抽取
屬性抽取是為實體識別而服務的,屬性可以很好的對實體進行刻畫。實體的屬性可以看作實體和屬性值之間的名稱性關系,因此實體屬性抽取可以視為一種特殊的關系抽取。屬性抽取的方法之一是從各類百科網站抽取結構化知識作為屬性抽取的訓練集,再將模型運用到開放域中的屬性抽取 [12]。例如,Domingos等人 [85] 提出了基于規則與啟發式算法的屬性抽取方法,實現了從Wikipedia和WordNet的半結構網頁中自動抽取相應屬性名稱與屬性值,而且達到了很高的準確率。另一種方法是利用實體屬性與屬性值之間的關系模式直接從開放域的數據集上抽取實體屬性 [87]。Huang等人 [88] 使用DNN架構的規則,模式和約束條件實現了從大量原始文件中提取給定實體的某些屬性類型值即Slot Filling (SF)的提取。
4. 信息抽取方法總結
信息抽取包括實體抽取、關系抽取、屬性抽取等多個子任務。以下分別以應用領域、技術方法以及數據源為分類依據對提及的三個子任務分別進行了介紹。具體的方法和領域分類見表1和表2。
表3. 按處理對象分類
面向開放領域方法信息抽取方法應用范圍廣泛,可以很好的處理大規模數據,既可以處理自然語言文本,例如文獻 [80] 提出的ClausIE模型,文獻 [11] 提出的REVERB系統以及基于本體的系統 [74] 都是對文本進行信息抽取;又可以有效處理web文本,例如文獻 [79] 提出N元關系抽取模型KPAKEN來對網絡文本進行多元關系抽取。
在面向特定領域的信息抽取關系抽取方法中,基于有監督的抽取方法常用來處理自然語言文本,例如文獻 [47] 提出基于核函數的系統,文獻 [46] 提出使用卷積樹核方法來對文本中的關系進行抽取,文獻 [44] 使用了ACE語料作為輸入來進行信息抽取,其數據規模較小,在人工標注預料訓練集方面占有優勢,通過學習訓練集得到抽取規則因此準確率也較高;基于弱監督和無監督的抽取方法更多的用來處理大規模web數據,其減少了對于人工信息標注的需求,實現了對Freebase、Wikipedia等web文檔的信息抽取,并且可以得到較準確的抽取效果,例如文獻 [37] 基于無監督的機器學習方法提出KNOWITALL系統,對web文檔進行實體和關系抽取,文獻 [48] 基于弱監督機器學習方法Bootstrap對實體關系進行抽取,文獻 [52] 使用Freebase為數據源進行基于遠距離監督學習的無標注文本的關系抽取,文獻 [59] 基于無監督方法提出的句子級別注意力級別模型,對Freebase、Wikipedia數據進行處理,文獻 [55] 基于無監督方法提出的詞嵌入方法處理Wikipedia文件中的信息。
在實體識別抽取中,基于規則以及基于統計的實體識別方法通常用來處理自然語言文本,其針對性強,準確率高,通常在人工標注下可以獲得好的識別效果,例如文獻 [23] 使用基于規則的方法實現了以公司名稱為處理對象的,文獻 [79] 將K最近鄰(KNN)分類器與線性條件隨機場(CRF)模型相結合實現了從簡短非正式Twitter文章中進行命名實體識別,文獻 [30] 使用混合模型將最大熵模型和基于規則的方法結合實現了從自然語言文本中識別生物醫學命名實體;基于深度學習的方法無需人工定義相關特征通過訓練數據自主學習有用特征然后利用特征進行命名實體識別,基于深度學習的方法既用來處理單領域自然文本,例如文獻 [35] 以科學文章為處理對象使用神經標記模型實現從科研文章中提取關鍵字短語,深度學習也可以用來處理web數據例如文獻 [33] 提出了一種半監督系統對Twitter微博進行實體識別和分布式表示。
信息抽取的數據來源除了自然語言文本以及web文本這兩種數據源外,社交網絡數據也是一種豐富數據源。社交網絡節點規模大且關系種類繁多,文獻 [56] 提出了基于無監督方法使用順序聯合聚類算法對包含多個節點的社交網絡中的多種關系進行抽取。
5. 結束語
本文首先根據知識圖譜的概念、構建技術框架引出了信息抽取的概念,接著通過三個國際評測會議介紹了信息抽取的發展歷史;后續詳細介紹了信息抽取關鍵技術,包括實體抽取、關系抽取和屬性抽取;最后分析了信息抽取的研究趨勢。我們系統性分析了面向知識圖譜信息抽取的常用方法,根據技術特點分為實體抽取、關系抽取以及屬性抽取三類子任務。其中各個子任務根據其應用領域分為面向特定領域和面向開放域兩種,根據其數據來源分為面向文本和面向Web兩種。
在面向特定領域的情境下,信息抽取各個子任務的技術方法較成熟、經典,例如在實體抽取中常用CRF、ME、HMM、NN-CRF等基于統計的模型;在關系抽取中常使用基于監督、半監督或無監督的機器學習方法。
在面向開放領域的應用中,隨著大數據時代、全網時代的到來,更多新的優秀的方法正在不斷地涌現。具體地,在實體識別任務中,出現了一些基于自學習方法的實體分類模型,從而不再需要通過人工構造大量語料標注、大量的特征;在關系抽取中,出現了以OIE框架為基礎的眾多優秀系統,基本實現了各種詞性間的關系抽取以及隱含關系的抽取。
審核編輯:湯梓紅
評論
查看更多