不卡无码视频,亚洲精品成a人在线观看夫,内射在线Chinese,精品国产乱码久久久ea7,亚洲V∧在线观看精品,伊人成人网站,久久久久久高清毛片一级,av免费在线观看

以往的長度可控摘要模型大多在解碼階段控制長度，而編碼階段對指定的摘要長度不敏感。這樣模型傾向于生成和訓練數(shù)據(jù)一樣長的摘要。在這篇論文中，作者提出了一種長度感知注意機制（LAAM，length-aware attention mechanism）來適應基于期望長度的編碼。

本文的方法是在由原始訓練數(shù)據(jù)構(gòu)建的摘要長度平衡數(shù)據(jù)集上訓練 LAAM，然后像往常一樣進行微調(diào)。結(jié)果表明，這種方法可以有效地生成具有所需長度的高質(zhì)量摘要，甚至是原始訓練集中從未見過的短長度摘要。

論文題目：Length Control in Abstractive Summarization by Pretraining Information Selection

收錄會議：

ACL 2022

論文鏈接：

https://aclanthology.org/2022.acl-long.474.pdf

代碼鏈接：

https://github.com/yizhuliu/lengthcontrol

背景

摘要任務目的是改寫原文，在簡明流暢的摘要中再現(xiàn)原文的語義和主題。為了在不同的移動設(shè)備或空間有限的網(wǎng)站上顯示摘要，我們必須生成不同長度的摘要。

長度可控的摘要是一個多目標優(yōu)化問題，包括：

在期望的長度內(nèi)生成完整的摘要

以及根據(jù)期望的長度選擇適當?shù)?a target="_blank">信息

相關(guān)方法

現(xiàn)有的基于編解碼器模型的長度可控摘要可分為兩類：

解碼時的早停

編碼前的信息選擇

解碼過程中的早停方法關(guān)注何時輸出 eos（end of sequence），也就是摘要的結(jié)束標志。有人設(shè)計了專門的方法。這個專門方法是通過在測試期間將期望長度的位置上的所有候選單詞分配 ?∞ 的分數(shù)來生成 eos。這個方法可以應用于任何 seq2seq 模型。然而，這些方法只是簡單地為解碼器增加了長度要求，而忽略了從源文檔編碼內(nèi)容或信息選擇也必須適應不同長度要求的問題。

基于信息選擇的方法分為兩階段。一個突出的例子是 LPAS，在第一階段，從源文檔中提取最重要的l個標記作為所需長度的原型摘要，并在第二階段通過雙編碼器對源文檔和原型摘要進行編碼。一方面，這種兩階段方法會在中間結(jié)果中引入噪聲。另一方面，這些方法的第二階段沒有第一手的長度信息，這削弱了長度控制。

本文方法

在本文中，作者提出了LAAM（長度感知注意機制），它擴展了 Transformer seq2seq 模型，具有根據(jù)長度約束在上下文中選擇信息的能力。

LAAM 重新 normalize 編碼器和解碼器之間的注意力，以增強指定長度范圍內(nèi)具有更高注意力分數(shù)的 token，幫助從源文檔中選擇長度感知信息。隨著解碼進行，增強 token 的數(shù)量將會逐步減少，直到 eos 獲得最高的注意力分數(shù)，這有助于在指定長度上停止解碼過程。

LAAM 可以被認為是上一節(jié)兩類方法的混合版本。

同時作者觀察到，在現(xiàn)有訓練集中，不同長度的摘要數(shù)量有很大差異。為了平衡摘要在不同長度范圍內(nèi)的分布，本文提出了一種啟發(fā)式方法：首先定義摘要長度范圍，然后從原文中直接抽取不同長度的摘要，根據(jù)特定指標控制抽取摘要的相關(guān)度，從而創(chuàng)建長度平衡數(shù)據(jù)集（LBD，length-balanced dataset）。

在本文方法中，先從原始的摘要數(shù)據(jù)集創(chuàng)建一個 LBD。之后，在 LBD 上預訓練LAAM，以增強 LAAM 在長度約束下的文本選擇能力。最后，將預訓練后的 LAAM 在原始數(shù)據(jù)集上微調(diào)，以學習將所選文本改寫為不同長度的摘要。

當前訓練數(shù)據(jù)集中沒有短摘要，微調(diào)后的模型沒有見過短摘要，所以如果用它生成短摘要的話算是 zero-shot。得益于 LDB 的預訓練，本文的方法可以解決zero-shot情況下的長度控制問題。

本文的主要貢獻：

提出了LAAM（長度感知注意機制）來生成具有所需長度的高質(zhì)量摘要。

設(shè)計了一種啟發(fā)式方法，從原始數(shù)據(jù)集中創(chuàng)建一個LBD（長度平衡數(shù)據(jù)集）。在 LBD 上對 LAAM 進行預訓練后，LAAM 效果能有提升，并且可以有效解決 zero-shot 情況下的短摘要生成問題。

LAAM

上圖是 Transformer 解碼器。

左上方為源文檔輸入：，作為注意力的 Key。

最左側(cè)為模型當前輸出：，作為注意力的 Query，兩者點乘得到注意力矩陣。注意力矩陣分為兩部分，負責文本信息選擇，負責結(jié)束標志選擇

注意力矩陣的第一行加粗了 Top3，第二行加粗了 Top2，第三行加粗了 Top1，對加粗的進行提權(quán)，本文通過這種方式向模型傳遞句子剩余預測長度信息。

也會進行提權(quán)，并且越接近指定長度，提權(quán)幅度越大，模型也就更容易預測出 eos。

提權(quán)后要進行一次歸一化，不然和不為 1。

這就是本文提出的 LAAM 模型。

總結(jié)

本文方案的整體流程是：

用原始訓練集生成 LBD（長度平衡數(shù)據(jù)集）

在 LBD 上預訓練 LAAM 模型

在原始訓練集上微調(diào) LAAM 模型

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴