精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于prompt和對比學習的句子表征學習模型

深度學習自然語言處理 ? 來源:CSDN ? 作者:王嘉寧 ? 2022-10-25 09:37 ? 次閱讀

雖然BERT等語言模型有很大的成果,但在對句子表征方面(sentence embeddings)上表現依然不佳,因為BERT存在 sentence bias anisotropy 問題;

我們發現prompt,再給定不同的template時可以生成不同方面的positive pair,且避免embedding bias。

相關工作

Contrastive Learning(對比學習) 可以利用BERT更好地學習句子表征。其重點在于如何尋找正負樣本。例如,使用inner dropout方法構建正樣本。

現有的研究表明,BERT的句向量存在一個 坍縮現象 ,也就是句向量受到高頻詞的影響,進而坍縮在一個凸錐,也就是各向異性,這個性質導致度量句子相似性的時候存在一定的問題,這也就是 anisotropy 問題。

發現

(1)Original BERT layers fail to improve the performance.

對比兩種不同的sentence embedding方法:

對BERT的輸入input embedding進行平均;

對BERT的輸出(last layer)進行平均

評價兩種sentence embedding的效果,采用sentence level anisotropy評價指標:

anisotropy :將corpus里面的sentence,兩兩計算余弦相似度,求平均。

對比了不同的語言模型,預實驗如下所示:

0ee90dc0-5398-11ed-a3b6-dac502259ad0.png

從上表可以看出,貌似anisotropy對應的spearman系數比較低,說明相關性不大。比如bert-base-uncased,

可以看出static token embedding的anisotropy很大,但是最終的效果也差不多。

(2)Embedding biases harms the sentence embeddings performance.

token embedding會同時受到token frequency和word piece影響

0f096a5c-5398-11ed-a3b6-dac502259ad0.png

不同的語言模型的token embedding高度受到詞頻、subword的影響;

通過可視化2D圖,高頻詞通常會聚在一起,低頻詞則會分散

For frequency bias, we can observe that high fre- quency tokens are clustered, while low frequency tokens are dispersed sparsely in all models (Yan et al., 2021). The begin-of-word tokens are more vulnerable to frequency than subword tokens in BERT. However, the subword tokens are more vul- nerable in RoBERTa.

三、方法

如何避免BERT在表征句子時出現上述提到的問題,本文提出使用Prompt來捕捉句子表征。但不同于先前prompt的應用(分類或生成),我們并不是獲得句子的標簽,而是獲得句子的向量,因此關于prompt-based sentence embedding,需要考慮兩個問題:

如何使用prompt表征一個句子;

如何尋找恰當的prompt;

本文提出一種基于prompt和對比學習的句子表征學習模型。

3.1 如何使用prompt表征一個句子

本文設計一個template,例如“[X] means [MASK]”,[X] 表示一個placehoder,對應一個句子,[MASK]則表示待預測的token。給定一個句子,并轉換為prompt后喂入BERT中。有兩種方法獲得該句子embedding:

方法一:直接使用[MASK]對應的隱狀態向量:;

方法二:使用MLM在[MASK]位置預測topK個詞,根據每個詞預測的概率,對每個詞的word embedding進行加權求和來表示該句子:

方法二將句子使用若干個MLM生成的token來表示,依然存在bias,因此本文只采用第一種方法

3.2 如何尋找恰當的prompt

關于prompt設計上,可以采用如下三種方法:

manual design:顯式設計離散的template;

使用T5模型生成;

OptiPrompt:將離散的template轉換為continuous template;

11cca4c0-5398-11ed-a3b6-dac502259ad0.png

3.3 訓練

采用對比學習方法,對比學習中關于positive的選擇很重要,一種方法是采用dropout。本文采用prompt方法,為同一個句子生成多種不同的template,以此可以獲得多個不同的positive embedding。

The idea is using the different templates to repre- sent the same sentence as different points of view, which helps model to produce more reasonable pos- itive pairs.
為了避免template本身對句子產生語義上的偏向。作者采用一種trick:

喂入含有template的句子,獲得[MASK]對應的embedding ;

只喂入template本身,且template的token的position id保留其在原始輸入的位置,此時獲得[MASK]對應的embeding:

最后套入對比學習loss中進行訓練:

四、實驗

作者在多個文本相似度任務上進行了測試,實驗結果如圖所示:

11ee8694-5398-11ed-a3b6-dac502259ad0.png

1215b084-5398-11ed-a3b6-dac502259ad0.png


驚奇的發現,PromptBERT某些時候竟然比SimCSE高,作者也提出使用對比學習,也許是基于SimCSE之上精細微調后的結果。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    506

    瀏覽量

    10245

原文標題:Prompt+對比學習,更好地學習句子表征

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種改進的句子相似度計算模型

    在基于實例的機器翻譯中,句子相似度計算是實例匹配的有效機制。該文對基于相同詞的句子相似模型作進步的改進,包括關鍵詞抽取,以及在句子相似度的
    發表于 11-20 15:18 ?9次下載

    基于分層組合模式的句子組合模型

    和短語向量組成的三元組來訓練個神經網絡模型;然后,通過訓練好的神經網絡模型來組合句子向量(兩組合方法:
    發表于 12-01 13:38 ?0次下載
    基于分層組合模式的<b class='flag-5'>句子</b>組合<b class='flag-5'>模型</b>

    一種新的目標分類特征深度學習模型

    為提高低配置計算環境中的視覺目標實時在線分類特征提取的時效性和分類準確率,提出一種新的目標分類特征深度學習模型。根據高時效性要求,選用分類器模型離線深度
    發表于 03-20 17:30 ?0次下載
    <b class='flag-5'>一種</b>新的目標分類特征深度<b class='flag-5'>學習</b><b class='flag-5'>模型</b>

    深度學習模型介紹,Attention機制和其它改進

    al. 于2016年提出了PCNNs+Attention(APCNNs)算法。相比之前的PCNNs模型,該算法在池化層之后,softmax層之前加入了一種基于句子級別的attention機制,算法的示意圖如下:
    的頭像 發表于 03-22 15:41 ?1.9w次閱讀
    深度<b class='flag-5'>學習</b><b class='flag-5'>模型</b>介紹,Attention機制和其它改進

    語義表征的無監督對比學習個新理論框架

    首先,是否存在良好且廣泛適用的表征呢?在計算機視覺等領域,答案是肯定的,因為深度卷積神經網絡 (CNN) 在大型含多類別標簽數據集 (如 ImageNet) 上以高精度訓練時,最終會學習得到非常強大而簡潔的表征信息。
    的頭像 發表于 04-04 17:41 ?2867次閱讀
    語義<b class='flag-5'>表征</b>的無監督<b class='flag-5'>對比</b><b class='flag-5'>學習</b>:<b class='flag-5'>一</b>個新理論框架

    一種新型的AI模型可以提升學生的學習能力

    研究人員設計了一種人工智能(AI)模型,該模型可以更好地預測教育游戲中學生的學習量。改進后的模型利用了稱為多任務
    發表于 04-27 16:12 ?1508次閱讀

    一種注意力增強的自然語言推理模型aESIM

    在自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此,提出一種注意力增強的自然語言推理模型aESM。將詞注意力層以及自適應方向權重層添加到ESIM模型的雙向LSTM網絡中,從而更有效地
    發表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b>注意力增強的自然語言推理<b class='flag-5'>模型</b>aESIM

    一種基于間隔準則的多標記學習算法

    針對多標記學習分類問題,算法適應方法將其轉化為排序問題,并將輸出標記按照其與示例的相關性進行排序,該類方法取得了較好的分類效果。基于間隔準則提出一種多標記學習算法,通過優化模型在示例的
    發表于 03-26 11:33 ?9次下載

    一種可分享數據和機器學習模型的區塊鏈

    作為一種可用于分享數據和機器學習模型的區抉鏈,基于骨架網絡訓練神經網絡模型,以全網節點匿名分享的數據作為訓練模型的數據集,實現了不依賴第三方
    發表于 04-14 16:09 ?15次下載
    <b class='flag-5'>一種</b>可分享數據和機器<b class='flag-5'>學習</b><b class='flag-5'>模型</b>的區塊鏈

    一種基于Q學習算法的增量分類模型

    大數據時代的數據信息呈現持續性、爆炸性的増長,為杋器學習算法帶來了大量監督樣本。然而,這對信息通常不是次性獲得的,且獲得的數據標記是不準確的,這對傳統的分類模型提岀了挑戰,而増量學習一種
    發表于 05-13 14:17 ?3次下載

    結合句子間差異的無監督句子嵌入對比學習方法-DiffCSE

    句向量表征技術目前已經通過對比學習獲取了很好的效果。而對比學習的宗旨就是拉近相似數據,推開不相似數據,有效地
    的頭像 發表于 05-05 11:35 ?1199次閱讀

    對比學習中的4典型范式的應用分析

    對比學習是無監督表示學習一種非常有效的方法,核心思路是訓練query和key的Encoder,讓這個Encoder對相匹配的query和key生成的編碼距離接近,不匹配的編碼距離遠。
    的頭像 發表于 07-08 11:03 ?1993次閱讀

    如何通過多模態對比學習增強句子特征學習

    視覺作為人類感知體驗的核心部分,已被證明在建立語言模型和提高各種NLP任務的性能方面是有效的。作者認為視覺作為輔助語義信息可以進步促進句子表征學習
    的頭像 發表于 09-21 10:06 ?1352次閱讀

    機器學習與數據挖掘的對比與區別

    。 機器學習和數據挖掘是對相互關聯的領域。它們都是理解數據、建立模型和提取知識的工具,但目標和方法有所不同。在這篇文章中,我們將比較機器學習與數據挖掘,并討論它們之間的區別和聯系。
    的頭像 發表于 08-17 16:11 ?1479次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 、深度學習是AI大模型的基礎 技術支撐 :
    的頭像 發表于 10-23 15:25 ?374次閱讀