精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何更高效地使用預訓練語言模型

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:小偉 ? 2022-07-08 11:28 ? 次閱讀

概覽

本文對任務低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預訓練模型的參數實在是太多了,很難找到這么多參數的低維本征子空間。作者基于之前的工作提出了一個基本的假設:預訓練模型在不同下游任務上學習的過程,可以被重新參數化(reparameterized)為在同一個低維本征子空間上的優化過程。如下圖所示,模型在不同的任務上學習的參數雖然不同,但這些參數共享了同一個低維本征子空間。

c5318178-ed60-11ec-ba43-dac502259ad0.png

基于這一假設,作者提出了探索公共低維本征子空間的方法:intrinsic prompt tuning (IPT)。

IPT由兩個階段組成:

Multi-task Subspace Finding (MSF):尋找多個任務的公共子空間,這是一個低維的、更為本征的一個空間

Intrinsic Subspace Tuning (IST):在找到的公共本征子空間上進行模型優化

下圖展示了 IPT 與 fine-tuning 和 prompt tuning 的對比。

c5542552-ed60-11ec-ba43-dac502259ad0.png

下面我們具體來了解一下IPT的兩個階段

IPT

作者使用intrinsic prompt tuning (IPT)來驗證本文的基本假設: 預訓練模型對多個不同下游任務的學習可以被重新參數化為在同一個低維本征子空間上的優化。

第一個階段是multi-task subspace finding (MSF)。

1. 尋找公共本征子空間(MSF)

MSF階段旨在通過對多個任務進行學習,來找到公共的低維本征子空間。如上圖所示,本質上就是在學習一個自編碼器

我們用 來代表自編碼器的Encoder部分(上圖中處于下方的梯形),用 來代表自編碼器的Decoder部分(上圖中處于上方的梯形),那么自編碼器會先用把Prompt參數映射為一個低維(維)的向量(向量所在的維空間就是我們想要的低維本征子空間),然后再用把該低維向量重新映射回原始的prompt空間,得到 這樣我們就可以使用 和 的距離來計算自編碼器的重建loss ,形式化表述就是:

另外,使用自編碼器來學習公共低維本征子空間的最終目的還是為了解決多個任務,所以作者引入了面向任務的語言模型loss 來提供任務相關的監督(例如圖中模型生成的結果"positive"和正確標簽之間的交叉熵)。那么MSF階段最終的loss就是:

其中 代表 和 的參數,這也是我們在MSF階段要學習的參數。

2. 本征子空間優化(IST)

在MSF階段中,我們通過對多個任務的學習找到了維的公共本征子空間,然后就進入了第二個階段IST。在這一階段中,我們想評價我們在MSF階段中找到的低維本征子空間是不是能夠很好的泛化到 (a) MSF階段訓練過的任務的新數據,以及 (b) MSF階段沒有訓練過的任務。如果該低維本征子空間在這兩種情況下都有比較好的泛化性能的話,那么在我們在一定程度上就成功地找到了想要的本征子空間。

在本階段中,如上圖 所示, 我們只保留自編碼器的Decoder部分并凍結它的參數。對于每個測試任務,我們只微調本征子空間中的個自由參數 , 會將解碼回原始的prompt空間中來計算loss:

實驗

作者使用了120個few-shot任務來進行實驗,并進行了三種不同的訓練-測試任務劃分

random: 隨機選擇100個任務作為訓練任務,其余20個任務作為測試任務

non-cls: 隨機選擇非分類任務中的35作為訓練任務,其余所有任務作為測試任務

cls: 隨機選擇分類任務中的35個作為訓練任務,其余所有任務作為測試任務

同時,對每一種任務劃分,作者進行了5種不同的實驗

: 在MSF階段,直接使用學習到的低維本征子空間來評估訓練任務在訓練數據上的性能

: 在MSF階段,直接使用學習到的低維本征子空間來評估測試任務(0-shot)的泛化性能

: 在IST階段,微調學習到的低維本征子空間來評估訓練任務在訓練數據上的性能

: 在IST階段,微調學習到的低維本征子空間來評估訓練任務在新數據上的泛化性能

: 在IST階段,微調學習到的低維本征子空間來評估測試任務的泛化性能

c594f0fa-ed60-11ec-ba43-dac502259ad0.png

整體的實驗結果如上圖所示,作者通過分析不同實驗的結果,得出了一些比較重要的結論:

在random劃分中,僅僅微調低維本征子空間中的5個自由參數,就可以分別獲得full prompt tuning 87%(訓練過的任務,不同訓練數據)以及65%(未訓練過的任務)的性能,這證明我們在MSF階段中找到的低維本征子空間是比較有效的。但從另一個方面來講,使用低維本征子空間無法獲得和full prompt tuning相當的性能,所以我們不能直接得出預訓練模型對多個任務的學習可以被重新參數化為在完全相同的子空間中的優化的結論。

訓練-測試任務的劃分會對結果有很大的影響。比如在cls劃分中,訓練時找到的本征子空間可以在分類的測試任務上有比較合理的表現,但在非分類的測試任務上表現很差。

隨著MSF階段中訓練任務數量的增加,找到的本征子空間的泛化能力會有所提高。這反映了增加MSF階段中訓練任務的覆蓋范圍和多樣性可以幫助IPT找到更通用的本征子空間。

結論

本文設計了IPT框架來驗證提出的假設: 預訓練模型對多個不同下游任務的學習可以被重新參數化為在同一個低維本征子空間上的優化。詳盡的實驗為假設提供了一定的積極證據,也幫助大家對如何更高效地使用預訓練語言模型有了更好的了解。

思考

雖然文章中的實驗結果不能直接驗證“預訓練模型對多個任務的學習可以被重新參數化為在完全相同的子空間中的優化”這一假設是完全正確的,但起碼它證明了各種任務重參數化后的低維子空間是有比較大的交集的,而且我們可以通過MSF來找到這個交集。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    44

    文章

    3530

    瀏覽量

    133323

原文標題:Prompt Learning | 五個參數解決下游任務 fine-tuning

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定義、原理、應用、區別和聯系等方面詳細探討
    的頭像 發表于 07-11 10:12 ?365次閱讀

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?259次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    在人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過在大規模文本數據上進行
    的頭像 發表于 07-10 11:03 ?725次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?1445次閱讀

    語言模型:原理與工程時間+小白初識大語言模型

    語言模型進行訓練,此處訓練為自然語言處理領域的
    發表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模訓練的實施,大
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    的復雜模式和長距離依賴關系。 訓練策略: 訓練是LLMs訓練過程的第一階段,模型在大量的
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    了探索更大、更高效模型架構和訓練方法的空間。在實際應用中,大語言模型的縮放定律推動了自然語言處理
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中訓練架構Transformer,以及這些技術在現實世界中的如何應用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大能力,同時也指出了當前技術面臨的挑戰和局限性。
    發表于 04-30 15:35

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    榜銷售TOP1的桂冠,可想大家對本書的認可和支持! 這本書為什么如此受歡迎?它究竟講了什么?下面就給大家詳細~~ 本書主要內容 本書圍繞大語言模型構建的四個主要階段——訓練、有監督
    發表于 03-11 15:16

    語言模型推斷中的批處理效應

    隨著開源訓練大型語言模型(Large Language Model, LLM )變得更加強大和開放,越來越多的開發者將大語言
    的頭像 發表于 01-04 12:32 ?493次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推斷中的批處理效應

    語言模型使用指南

    在信息爆炸的時代,我們渴望更智能、更高效語言處理工具。GPT-3.5等大語言模型的崛起為我們提供了前所未有的機會。這不僅是技術的進步,更是人與機器共舞的一幕。本篇文章將帶你走進這個奇
    的頭像 發表于 12-29 14:18 ?577次閱讀

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對大語言模型進行介紹。大語言模型
    的頭像 發表于 12-04 15:51 ?649次閱讀