作者:cola
自訓練已被證明是一種有效的針對跨域任務的方法。傳統的自訓練方法依賴于有限且低質量的源語料庫。為克服這一限制,本文提出用大型語言模型(LLM)增強自訓練,以迭代地生成特定領域的語料庫。并針對句法成分解析,引入了指導LLM生成源語料庫的語法規則,建立了選擇偽實例的標準。
背景介紹
成分解析作為NLP中的一項基本任務,已經在領內基準上取得了顯著的進展,這表明解析器在捕獲底層語法結構方面的能力日益增強。然而,開放域句法成分解析具仍具有挑戰。在不同的開放域中,成分解析面臨的復雜性超出了定義明確的任務。解決這些挑戰對于其現實世界的NLP應用至關重要。
為了解決域偏移問題,基于自訓練的無監督域適應已經成為一種有效的方法。例如在每次迭代過程中利用源域模型自動標注來自目標域的大規模源語料,然后選擇置信度高的偽數據作為額外的訓練數據,以提高目標域性能。然而,在低資源領域,源語料庫的質量和數量往往無法保證,這限制了自訓練方法的使用。而LLM具有強大的生成能力,可以作為解決目標域源語料庫數量和質量挑戰的潛在解決方案。
在生成句子時解決LLM的靈活性和幻覺問題面臨挑戰,我們采用語法規則作為LLM生成目標域句子的指令。語法規則與句法成分解析密切相關。
方法
采用伯克利神經解析器(Berkeley Neural Parser)作為方法的基礎。該解析器是一種基于圖表的方法,采用自注意力編碼器和圖表解碼器,利用預訓練的嵌入作為輸入來增強解析過程。由于融合了預訓練語言模型,伯克利神經解析器天生具有跨域句法分析能力。這使得解析器可以在源域上進行訓練,可直接應用于目標域。
自訓練
自訓練的主要目標是為目標域生成高質量的訓練實例,然后使用這些實例訓練目標域模型。具體來說,在基礎方法的每次迭代中,都進行了三個主要步驟:
訓練解析器:使用源域成分樹訓練伯克利神經解析器。
解析源語料庫:用訓練好的模型來解析來自目標域的源文本,生成解析樹,作為下一步的候選偽樹。
偽數據選擇:選擇高置信度的偽樹作為額外的訓練實例,然后用于增強模型在目標域上的性能。
通過迭代地重復這些步驟,自訓練方法使解析器適應目標域,利用源注釋樹生成高質量的偽樹。
LLM增強自訓練
如圖2所示,動態嵌入LLM作為迭代自訓練過程中的一個關鍵組件。在每次迭代中,我們基于上一步更新的樹,利用LLM為目標域生成源語料庫。語法規則(GRs)從樹中提取,對指導目標域源語料的LLMs生成起著至關重要的作用。
在每次迭代中,LLM增強的自訓練句法成分解析可劃分為6個詳細步驟:
LLM生成:利用LLM為目標域生成一個源語料庫。
解析訓練:用源樹庫和目標域選擇的偽樹來訓練成分解析器。初始化時,偽樹為空,解析器僅在源域數據上進行訓練。
域解析:我們用訓練過的解析器來解析生成的源語料庫,產生一組候選解析樹。
樹的選擇:從生成的解析樹中,選擇一個高質量解析樹的子集來組成偽樹庫。
更新樹庫:通過添加選定的偽樹庫來更新源樹庫。
GRs抽?。簭母碌臉鋷熘谐槿≌Z法規則。
LLM增強的自訓練過程不斷迭代,直到收斂。
實例選擇
本文提出了一種基于語法規則的偽數據選擇準則。與之前僅關注任務的自訓練選擇標準不同,該標準同時考慮了任務和LLM 生成語料庫的特征,確保所選擇的偽數據適用于使用自訓練的跨域解析。
給定源集和候選實例(候選集),與之間的距離為:然后,在自訓練過程中選擇最接近源域集的前個候選集作為額外的訓練實例。距離計算可以在token級進行,也可以在語法規則級進行,通過調整集合來分別表示token分布和語法規則分布。實例選擇過程包含三個層次的標準:token、置信度和語法規則。并結合兩個表現最好的標準,即基于置信度的選擇和基于語法規則的選擇,從而產生了一個更有效的標準,用于識別高質量實例以適應目標領域。
LLM提示
為了生成包含全面結構信息并與目標域句子風格密切相似的句子,本文提出了一個融合語法規則和目標域示例的LLM提示。在生成過程中,我們需要準備以下參數:1)從樹庫中提取的條語法規則,2)從目標領域中采樣的個句子,3)生成句子的長度約束。
通過從樹庫句子長度的分布中采樣來確定的值,并從中提取語法規則。注意,語法規則是直接從成分樹中提取的,其中父節點對應于語法規則的左側,所有子節點對應于右側尾部。例如,如果樹庫是源域數據PTB,我們為平均長度引入高斯分布,記為,以獲得條語法規則。
我們抽取了5個目標域句子。由于生成的句子的長度與語法規則數量密切相關,因此使用另一種正態分布來采樣兩個值和,這兩個值定義了生成句子的長度限制。圖3給出了一個具體的例子:
實驗
數據:PTB-源數據,MCTB-目標數據。
主要結果
為方便起見,主要的對比實驗采用bert-base-uncased進行,僅在bert-large-uncased上進行比較。表1報告了句法成分解析器在五個目標域上的性能。
分析
實例選擇策略
首先研究了每次迭代的四種不同的選擇策略:基于Token的、基于Conf的、基于GRs的和基于GRsConf的。圖4中的折線圖分為兩個部分,說明了基本的和LLM增強的自訓練成分解析在迭代期間的解析器性能。從圖中可知,對于基礎的方法,除GRsConf外,所有策略的性能都呈現出先上升后下降的趨勢。這種趨勢表明,經過幾次迭代后,候選數據的特征偏差越來越大,越來越不適合域遷移。在評論領域,使用GRsConf選擇的偽數據進行自訓練取得了最好的性能。
相比之下,LLM增強的自訓練對所有選擇策略都表現出一致的上升趨勢,這表明所選擇的數據是高質量的,適應過程是漸進的。這一結果突出了將LLM納入自訓練迭代過程的可行性和有效性,實現了從源域到目標域的更細粒度的遷移。
來自GRsConf的偽數據
在基于LLM增強自訓練的跨域句法成分解析中,性能提升的關鍵在于所選擇的偽數據是否逐漸向目標域靠攏。LLM生成過程和選擇策略從兩個相反的方向指導迭代:LLM生成的原始文本逐步向目標域偏移,而選擇標準旨在確保偽數據保持接近源域。因此,我們分析了評論域的最佳選擇策略GRsConf,并考察了每次迭代中所選擇的偽數據的分布。同時,使用GRs的JS散度來測量所選偽數據與源域和目標域之間的距離。如圖5所示,所選偽數據與源域的距離逐漸增大,而與目標域的距離逐漸減小。趨勢表明,域遷移在第一次迭代中是最小的,在第二次和第三次迭代中發生了更多的適應,并最終在第四次迭代中穩定下來。這種距離的演化趨勢表明領域遷移過程是漸進的,印證了GRsConf選擇策略結合LLM增強自訓練的跨域句法解析方法的有效性。
目標句的影響
采用基于GRsConf的偽數據選擇方法在評論領域進行了對比實驗。如表2所示,可以得出結論,句子的數量不會顯著影響最終的目標域解析器。
GRs的影響
此外,我們用5個目標域句子建立了LLM生成過程,省去了語法規則的引入。從表3所示的實驗結果可以看出,在沒有語法規則的情況下,解析器的性能要低于標準的LLM增強的自訓練方法。這表明,用語法規則約束LLM的生成是一個合理的選擇。
總結
提出了一種用于句法成分解析中的跨域自適應的增強自訓練方法。通過利用LLM的生成并將其整合到自訓練過程中,該方法大大提高了跨域的成分解析性能。并有效地將高置信度選擇標準與基于語法規則的選擇相結合,逐步使訓練數據更接近目標域。
編輯:黃飛
-
語言模型
+關注
關注
0文章
487瀏覽量
10201 -
語法
+關注
關注
0文章
40瀏覽量
9726 -
LLM
+關注
關注
0文章
247瀏覽量
279
原文標題:EMNLP2023 | LLM作用下的成分句法分析基礎研究
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論