一级a性色生活片久久无,中文字幕日韩精品涩涩视频,精品久久久久久无码一区二区,国产又粗又黄又爽又猛的视频,日韩精品人妻一区二区三区免费

信息抽取任務(wù)包括命名實(shí)體識(shí)別（NER）、關(guān)系抽取（RE）、事件抽取（EE）等各種各樣的任務(wù)。不同的信息抽取任務(wù)針對(duì)的任務(wù)不同，希望得到的輸出也不同。例如下面的例子中，對(duì)于NER任務(wù)，需要識(shí)別Steve是PER、Apple是ORG；而對(duì)于關(guān)系抽取任務(wù)，則需要識(shí)別出Steve和Apple是Work For的關(guān)系。此外，不同場(chǎng)景的同一個(gè)信息抽取任務(wù)的輸出可能也是不同的。

目前業(yè)內(nèi)比較常見的做法是針對(duì)每個(gè)場(chǎng)景的每種信息抽取任務(wù)，分別獨(dú)立的訓(xùn)練一個(gè)模型。這種方法成本很高，每種任務(wù)、每種場(chǎng)景都要建立模型。此外，獨(dú)立的訓(xùn)練模型導(dǎo)致不同任務(wù)之間無法共享知識(shí)，沒有發(fā)揮出數(shù)據(jù)和模型的全部能力。

中科院、百度在ACL 2022中提出了一種可以實(shí)現(xiàn)統(tǒng)一建模各類信息抽取任務(wù)的框架UIE，在4種信息檢索任務(wù)的13個(gè)數(shù)據(jù)集上都取得了顯著效果。

1 統(tǒng)一多種信息抽取任務(wù)

要想實(shí)現(xiàn)使用一個(gè)模型解決多種信息抽取任務(wù)的目標(biāo)，一個(gè)核心問題是如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出。作者提出所有信息抽取任務(wù)都可以抽象成Spotting和Associating兩個(gè)步驟：在Spotting步驟中，確定輸入文本中的實(shí)體以及該實(shí)體對(duì)應(yīng)的實(shí)體類型；在Associating中，建立兩個(gè)實(shí)體之間的關(guān)系。

例如下面是Steve became CEO of Apple in 1997這句話使用上述方法抽象出來的描述語言。藍(lán)色的代表關(guān)系抽取，紅色的代表事件抽取，其他的是命名實(shí)體識(shí)別。首先能夠識(shí)別出person、organization、time三種實(shí)體。此外Steve可以識(shí)別出work for的關(guān)系，而事件以became作為start-position，關(guān)聯(lián)employee、employer、time。

通過上述方法，可以實(shí)現(xiàn)將所有信息抽取任務(wù)都抽象為相同結(jié)構(gòu)的語言描述，為后續(xù)的多任務(wù)統(tǒng)一建模打下了基礎(chǔ)。

2 基于prompt的多任務(wù)統(tǒng)一建模

基于上面的關(guān)系抽取統(tǒng)一描述，本文提出了UIE框架，在輸入側(cè)構(gòu)造每個(gè)任務(wù)structural schema instructor (SSI)，以及原始文本，使用Encoder編碼后，使用Decoder解碼統(tǒng)一的信息抽取語言描述。整個(gè)過程如下圖所示。

仍然以上面文本為例，輸入由SSL原始文本組成。對(duì)于關(guān)系抽取任務(wù)，SSL對(duì)應(yīng)的是[spot] person [asso] word for。這會(huì)作為一個(gè)前綴prompt，用來指導(dǎo)模型根據(jù)特定的任務(wù)進(jìn)行文本生成。而對(duì)于NER任務(wù)，SSL對(duì)應(yīng)的是[spot] person [spot] organization [spot] time。SSL后面接一個(gè)[text]標(biāo)識(shí)符以及原來的文本。整體的輸入文本拼接模式如下：

上述文本會(huì)通過Encoder進(jìn)行編碼，然后利用Decoder進(jìn)行文本生成，生成的目標(biāo)文本即為根據(jù)信息抽取的label生成的統(tǒng)一描述。在具體的模型結(jié)構(gòu)上，BART、T5等生成式模型，都可以作為框架的主模型的backbone。這種基于前綴的生成方式，也可以比較容易的適應(yīng)到一個(gè)新的信息抽取任務(wù)上。

3 模型訓(xùn)練

為了訓(xùn)練上面說的從SSL+文本到描述的生成式模型，文中采用了三個(gè)預(yù)訓(xùn)練任務(wù)聯(lián)合學(xué)習(xí)。構(gòu)造了3種數(shù)據(jù)，分別是SSL+原始文本到結(jié)構(gòu)化文本的pair對(duì)、單獨(dú)的原始文本以及單獨(dú)的結(jié)構(gòu)化文本。第一個(gè)任務(wù)是SSL+原始文本到結(jié)構(gòu)化文本的匹配關(guān)系，匹配的label為1，不匹配label為0，label為0的樣本是通過隨機(jī)替換spot或associate實(shí)現(xiàn)的。第二個(gè)任務(wù)是使用結(jié)構(gòu)化文本訓(xùn)練Decoder，這一步是為了讓Decoder適應(yīng)結(jié)構(gòu)化文本的語言形式。第三個(gè)任務(wù)是在訓(xùn)練過程中引入一般的mask language modeling任務(wù)，目的是防止模型在訓(xùn)練過程中丟失了文本原始的語義信息。最終的預(yù)訓(xùn)練loss是下面3個(gè)loss的和：

預(yù)訓(xùn)練好的模型可以在下游任務(wù)進(jìn)行finetune以應(yīng)用到各類任務(wù)上。同時(shí)作者引入rejection mechanism，在結(jié)構(gòu)化文本中插入一些在原始輸入中沒有的實(shí)體以及NULL，讓模型可以通過生成NULL避免被誤導(dǎo)生成不正確的結(jié)果。

4 實(shí)驗(yàn)結(jié)果

UIE框架在信息抽取任務(wù)中的整體效果如下，主要對(duì)比了UIE和各個(gè)數(shù)據(jù)集上各類SOTA模型的效果。可以看到在大部分?jǐn)?shù)據(jù)集上，UIE的效果都是最優(yōu)的。對(duì)比沒有經(jīng)過預(yù)訓(xùn)練的模型（SEL），UIE取得非常顯著的提升，通過將多任務(wù)使用統(tǒng)一框架聯(lián)合訓(xùn)練，實(shí)現(xiàn)了知識(shí)的共享和效果的互相促進(jìn)。

除了在正常的有監(jiān)督任務(wù)上效果外，本文也對(duì)小樣本場(chǎng)景的效果進(jìn)行了實(shí)驗(yàn)，主要對(duì)比了使用T5模型finetune和使用UIE方法的效果，UIE在小樣本上的效果非常顯著。

5 開源代碼

與此論文相應(yīng)的開源代碼發(fā)布在百度PaddleNLP上https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6909

瀏覽量
88849
模型

模型

+關(guān)注

關(guān)注
1

文章
3178

瀏覽量
48731
NER

NER

+關(guān)注

關(guān)注
0

文章
7

瀏覽量
6205

原文標(biāo)題：一個(gè)模型解決所有信息抽取任務(wù)！（含代碼）

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

文本信息抽取的分階段詳細(xì)介紹

文本信息抽取作為監(jiān)督學(xué)習(xí)的一項(xiàng)具體運(yùn)用。文本信息抽取可以分為兩個(gè)階段：學(xué)習(xí)階段和抽取階段。其過程

發(fā)表于 09-16 15:03

基于子樹廣度的Web信息抽取

提出一種新的網(wǎng)頁信息抽取方法，基于子樹的廣度可不加區(qū)分地對(duì)不同科技文獻(xiàn)網(wǎng)站的頁面信息進(jìn)行自動(dòng)抽取。對(duì)大量科技文獻(xiàn)網(wǎng)站進(jìn)行

發(fā)表于 03-28 10:03 ?14次下載

基于重復(fù)模式的自動(dòng)Web信息抽取

互聯(lián)網(wǎng)上存在很多在線購物網(wǎng)站，抽取這類網(wǎng)站頁面里的商品信息可以為電子商務(wù)、Web查詢提供增值服務(wù)。該文針對(duì)這類網(wǎng)站提出一種自動(dòng)的Web信息抽取

發(fā)表于 04-10 09:33 ?11次下載

基于XML的WEB信息抽取模型設(shè)計(jì)

對(duì)現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究，在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型，它能夠把Web 上的數(shù)據(jù)抽取出來整合到

發(fā)表于 12-22 13:56 ?17次下載

基于WebHarvest的健康領(lǐng)域Web信息抽取方法

針對(duì)Web信息抽取（WIE）技術(shù)在健康領(lǐng)域應(yīng)用的問題，提出了一種基于WebHarvest的健康領(lǐng)域Web信息抽取方法。通過對(duì)不同健康網(wǎng)站的結(jié)

發(fā)表于 12-26 13:44 ?0次下載

節(jié)點(diǎn)屬性的海量Web信息抽取方法

為解決大數(shù)據(jù)場(chǎng)景下從海量Web頁面中抽取有價(jià)值的信息，提出了一種基于節(jié)點(diǎn)屬性與正文內(nèi)容的海量Web信息抽取方法。將Web頁面轉(zhuǎn)化為DOM樹表

發(fā)表于 02-06 14:36 ?0次下載

抽取式摘要方法中如何合理設(shè)置抽取單元？

的核心問題。抽取式摘要?jiǎng)t是文本摘要技術(shù)中效果穩(wěn)定，實(shí)現(xiàn)簡(jiǎn)單的一類方法，本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作，對(duì)抽取式摘要方法中如何合理設(shè)置

發(fā)表于 05-03 18:23 ?1601次閱讀

了解信息抽取必須要知道關(guān)系抽取

當(dāng)我們拿到一個(gè)信息抽取的任務(wù)，需要明確我們抽取的是什么，”今天天氣真冷“，我們要抽的天氣的狀態(tài)天氣-狀態(tài)-冷，而非今天-氣候-冷(雖然也可

發(fā)表于 04-15 14:32 ?2036次閱讀

開放域信息抽取和文本知識(shí)結(jié)構(gòu)化的3篇論文詳細(xì)解析

開放域信息抽取是信息抽取任務(wù)的另一個(gè)分支任務(wù)，其中

發(fā)表于 04-26 14:44 ?2693次閱讀

面向知識(shí)圖譜的信息抽取

摘要: 隨著大數(shù)據(jù)時(shí)代的到來，海量數(shù)據(jù)不斷涌現(xiàn)，從中尋找有用信息，抽取對(duì)應(yīng)知識(shí)的需求變得越來越強(qiáng)烈。針對(duì)該需求，知識(shí)圖譜技術(shù)應(yīng)運(yùn)而生，并在實(shí)現(xiàn)知識(shí)互聯(lián)的過程中日益發(fā)揮重要作用。信息抽取

發(fā)表于 03-22 16:59 ?859次閱讀

實(shí)體關(guān)系抽取模型CasRel

許多實(shí)驗(yàn)證明聯(lián)合學(xué)習(xí)方法由于考慮了兩個(gè)子任務(wù)之間的信息交互，大大提升了實(shí)體關(guān)系抽取的效果，所以目前針對(duì)實(shí)體關(guān)系抽取任務(wù)的研究大多采用聯(lián)合學(xué)習(xí)

發(fā)表于 07-21 14:11 ?3807次閱讀

基于統(tǒng)一語義匹配的通用信息抽取框架USM

信息提取（Information Extraction，IE）需要提取句子中的實(shí)體、關(guān)系、事件等，其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu)，因此，傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型

發(fā)表于 01-16 10:21 ?1072次閱讀

介紹一種信息抽取的大一統(tǒng)方法USM

信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu)，而傳統(tǒng)的模型需要針對(duì)特定的任務(wù)進(jìn)行任務(wù)設(shè)計(jì)和標(biāo)簽標(biāo)注

發(fā)表于 02-15 14:13 ?772次閱讀

基于統(tǒng)一語義匹配的通用信息抽取框架-USM

信息提取（Information Extraction，IE）需要提取句子中的實(shí)體、關(guān)系、事件等，其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu)，因此，傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型

發(fā)表于 02-22 11:09 ?824次閱讀

Instruct-UIE：信息抽取統(tǒng)一大模型

Instruct-UIE 統(tǒng)一了信息抽取任務(wù)訓(xùn)練方法，可以融合不同類型任務(wù)以及不同的標(biāo)注規(guī)范，統(tǒng)一

發(fā)表于 04-25 10:46 ?1673次閱讀