近日,在美國(guó)明尼蘇達(dá)州明尼阿波利斯的NAACL2019上,Sebastian Ruder, Matthew Peters, Swabha Swayamdipta和Thomas Wolf分享了一個(gè)長(zhǎng)達(dá)238頁(yè)P(yáng)PT關(guān)于“NLP中的遷移學(xué)習(xí)”的教程,今天拿來(lái)和大家分享。
經(jīng)典的監(jiān)督機(jī)器學(xué)習(xí)范式是基于對(duì)使用單個(gè)數(shù)據(jù)集的任務(wù)的單個(gè)預(yù)測(cè)模型的孤立學(xué)習(xí)。這種方法需要大量的訓(xùn)練示例,并且對(duì)于定義明確、范圍狹窄的任務(wù)效果最好。遷移學(xué)習(xí)指的是一組方法,這些方法通過利用來(lái)自其他域或任務(wù)的數(shù)據(jù)來(lái)訓(xùn)練具有更好泛化特性的模型來(lái)擴(kuò)展此方法。
近兩年來(lái),自然語(yǔ)言處理(NLP)領(lǐng)域出現(xiàn)了幾種轉(zhuǎn)移學(xué)習(xí)方法和體系結(jié)構(gòu),這些方法和體系結(jié)構(gòu)大大提高了NLP任務(wù)的先進(jìn)性。
這些改進(jìn),加上這些方法的廣泛可用性和易集成性,使人們想起了導(dǎo)致計(jì)算機(jī)視覺中預(yù)訓(xùn)練字嵌入和ImageNet預(yù)訓(xùn)練成功的因素,并表明這些方法很可能成為NLP中的一種常用工具以及一個(gè)重要的研究方向。
我們將概述NLP中的現(xiàn)代遷移學(xué)習(xí)方法,如何對(duì)模型進(jìn)行預(yù)培訓(xùn),它們所學(xué)習(xí)的表示捕獲哪些信息,并回顧有關(guān)如何在下游NLP任務(wù)中集成和適應(yīng)這些模型的示例和案例研究。
什么是遷移學(xué)習(xí)?
(a)傳統(tǒng)機(jī)器學(xué)習(xí)的學(xué)習(xí)過程:
任務(wù)1:學(xué)習(xí)系統(tǒng)
任務(wù)2:學(xué)習(xí)系統(tǒng)
任務(wù)3:學(xué)習(xí)系統(tǒng)
(b)遷移學(xué)習(xí)的學(xué)習(xí)過程:
源任務(wù):知識(shí)
目標(biāo)任務(wù):學(xué)習(xí)系統(tǒng)
為什么是NLP遷移學(xué)習(xí)?
許多NLP任務(wù)都有共同的語(yǔ)言知識(shí)(例如語(yǔ)言表示、結(jié)構(gòu)相似性)
任務(wù)可以互相通知,例如語(yǔ)法和語(yǔ)義
注釋數(shù)據(jù)很少,盡可能多地利用監(jiān)督
從經(jīng)驗(yàn)上講,遷移學(xué)習(xí)已經(jīng)在SOTA形成了許多被監(jiān)督的NLP任務(wù)(例如分類、信息提取、問答等)
為什么是NLP遷移學(xué)習(xí)?(憑經(jīng)驗(yàn))
在命名實(shí)體識(shí)別(NER)CONLL-2003(英語(yǔ))上隨著時(shí)間推移的表現(xiàn)
NLP中遷移學(xué)習(xí)的類型
本教程到底講什么?
本教程講的是什么,不講的是什么:
目標(biāo):提供NLP中遷移方法的廣泛概述,重點(diǎn)介紹截至目前(2019年年中)最成功的經(jīng)驗(yàn)方法。
提供實(shí)用的、實(shí)際操作的建議→在教程結(jié)束時(shí),每個(gè)人都有能力將最新進(jìn)展應(yīng)用到文本分類任務(wù)中。
不講的是什么:全面的(不可能在一個(gè)教程中涵蓋所有相關(guān)的論文?。?/p>
(Bender Rule: 本教程主要是針對(duì)用英語(yǔ)完成的工作,其他語(yǔ)言的可擴(kuò)展性取決于監(jiān)督是否可用。)
框架:
1、介紹
2、預(yù)訓(xùn)練
3、代表中有什么?
4、適應(yīng)
5、下游
6、開放問題
順序遷移學(xué)習(xí)
了解一個(gè)任務(wù)/數(shù)據(jù)集,然后遷移到另一個(gè)任務(wù)/數(shù)據(jù)集
預(yù)訓(xùn)練:
word2vec
GloVe
skip-thought
InferSent
ELMo
ULMFiT
GPT
BERT
適應(yīng):
分類
序列標(biāo)記
問答
預(yù)培訓(xùn)任務(wù)和數(shù)據(jù)集
未標(biāo)記數(shù)據(jù)和自我監(jiān)督:
易于收集的大型語(yǔ)料庫(kù):維基百科、新聞、網(wǎng)絡(luò)爬蟲、社交媒體等。
訓(xùn)練利用了分布假設(shè):“你應(yīng)該知道它所保存的一個(gè)詞”(Firth,1957),通常形式化為訓(xùn)練某種語(yǔ)言模型的變體。
注重高效算法利用豐富的數(shù)據(jù)
監(jiān)督預(yù)培訓(xùn):
在視覺上非常常見,由于缺乏大的監(jiān)控?cái)?shù)據(jù)集,在NLP中較少見。
機(jī)器翻譯
句子表達(dá)的NLI
從一個(gè)問答數(shù)據(jù)集到另一個(gè)問答數(shù)據(jù)集的任務(wù)特定傳輸
目標(biāo)任務(wù)和數(shù)據(jù)集
目標(biāo)任務(wù)通常是受監(jiān)控的,跨越一系列常見的NLP任務(wù):
句子或文檔分類(如情感)
句子對(duì)分類(如NLI、釋義)
字級(jí)(例如序列標(biāo)記、提取性問答)
結(jié)構(gòu)化預(yù)測(cè)(如解析)
生成(例如對(duì)話、總結(jié))
具體示例——詞向量
單詞嵌入方法(例如word2vec)每個(gè)單詞學(xué)習(xí)一個(gè)向量
主題:從單詞到語(yǔ)境中的單詞
主題:從單詞到語(yǔ)境中的單詞
詞向量 句子/doc向量 語(yǔ)境中詞向量
主題:LM預(yù)訓(xùn)練
許多成功的預(yù)培訓(xùn)方法都是基于語(yǔ)言建模的
非正式地,LM學(xué)習(xí)p(文本)或p(文本/其他文本)
不需要人工注釋
許多語(yǔ)言有足夠的文本來(lái)學(xué)習(xí)大容量模型
多才多藝,能學(xué)習(xí)句子和詞的表達(dá),具有多種客觀功能
主題:由淺入深
1層 24層
主題:預(yù)培訓(xùn)與目標(biāo)任務(wù)
預(yù)培訓(xùn)和目標(biāo)任務(wù)的選擇是耦合的
句子/文檔表示法對(duì)單詞級(jí)預(yù)測(cè)無(wú)效
詞向量可以跨上下文匯集,但通常比其他方法更好。
在語(yǔ)境詞向量中,雙向語(yǔ)境很重要
一般來(lái)說:
類似的預(yù)培訓(xùn)和目標(biāo)任務(wù)→最佳結(jié)果
-
nlp
+關(guān)注
關(guān)注
1文章
487瀏覽量
22011 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5557
原文標(biāo)題:【干貨】NLP中的遷移學(xué)習(xí)教程來(lái)啦!(238頁(yè)P(yáng)PT下載)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論