精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于一步步蒸餾(Distilling step-by-step)機制

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-16 10:24 ? 次閱讀

為優(yōu)化LLM為“小模型/少數(shù)據(jù)/好效果”,提供了一種新思路:”一步步蒸餾”(Distillingstep-by-step

具體做法:訓(xùn)練出一個更小的模型,同時輸出推理過程標簽

總結(jié)

大模型部署耗費內(nèi)存/算力,訓(xùn)練特定任務(wù)的小模型采用:

微調(diào)(BERT、T5)

蒸餾(Vicuna)

但仍需要大量數(shù)據(jù)

本文提出”一步步蒸餾”(Distillingstep-by-step)機制:

模型更小

數(shù)據(jù)更少

實驗證明效果更佳(770M的T5,效果優(yōu)于540B的PaLM)

引言

1. LLM的作用

以LLM作為粗標注,同時標注時會給出推理過程,如“思維鏈”CoT

e.g.:

Agentlemaniscarryingequipmentforgolf,whatdoeshelikelyhave?

(a)club,(b)assemblyhall,(c)meditationcenter,(d)meeting,(e)church

答案是(a),在上述選擇中,只有球桿用于高爾夫球。

上述邏輯會用于多任務(wù)訓(xùn)練的額外數(shù)據(jù)

2. 任務(wù)準確性&所需訓(xùn)練數(shù)據(jù)

172b3436-f35c-11ed-90ce-dac502259ad0.png

相關(guān)工作

1. 知識蒸餾

從大的“老師模型”蒸餾出“學(xué)生模型”,缺點是“老師模型”產(chǎn)生的數(shù)據(jù)有噪聲

本文做法:蒸餾標簽、老師模型的推理過程,以降低對無標簽數(shù)據(jù)的需求量

2. 人類推理過程

規(guī)范模型行為

作為額外的模型輸入

作為高質(zhì)量標簽

缺點:代價高昂

3. 大模型推理過程

可用于產(chǎn)生高質(zhì)量的推理步驟,作為提示輸入到大模型

作為微調(diào)數(shù)據(jù),進行“self-improve”大模型

一步步蒸餾

概覽圖175f4ee2-f35c-11ed-90ce-dac502259ad0.png

分為兩步

已有LLM和無標簽數(shù)據(jù),利用推理過程,輸出標簽

以推理過程作為額外數(shù)據(jù)(細節(jié)信息較多),訓(xùn)練更小的模型

基于這樣一個特性:LLM產(chǎn)生的推理過程能夠用于它自身的預(yù)測178cdbdc-f35c-11ed-90ce-dac502259ad0.png

假設(shè)prompt是個三元組,其中是輸入,是標簽,是推理過程

數(shù)據(jù)集記作,x是輸入,y是標簽,且二者都是自然語言

這個文本到文本的框架包括的自然語言處理任務(wù)有:分類、自然語言推理、問答等等

常見的做法:用監(jiān)督數(shù)據(jù)微調(diào)預(yù)訓(xùn)練模型。

缺少人工標簽,特定任務(wù)的蒸餾是用LLM教師模型生成偽噪聲訓(xùn)練標簽,代替

待降低交叉熵損失:

17b9d15a-f35c-11ed-90ce-dac502259ad0.png

其中hat{y_i}$是模型蒸餾得到的標簽

將推理過程hat{r_i}$融入訓(xùn)練過程的方式:

放到input后面,一同輸入到模型,此時的損失計算:
17d1e6b4-f35c-11ed-90ce-dac502259ad0.png

需要先用LLM產(chǎn)生推理過程,此時LLM是必要條件

(本文)轉(zhuǎn)化為多任務(wù)學(xué)習(xí)問題,訓(xùn)練模型:17e6513a-f35c-11ed-90ce-dac502259ad0.png

同時產(chǎn)生標簽、推理過程

采用后者的方式,此時的損失計算為:17f98296-f35c-11ed-90ce-dac502259ad0.png

其中,推理過程生成的損失為:1810f034-f35c-11ed-90ce-dac502259ad0.png

推理過程生成是預(yù)測之前的中間一步,而不是測試過程中產(chǎn)生的(如同公式2),所以測試時不再需要LLM,這就是所謂的"一步步蒸餾"。

另外,預(yù)先定義任務(wù)前綴,如[label]是標簽,[rationale]是推理過程

實驗

從兩方面證明“一步步蒸餾”的有效性

與傳統(tǒng)的微調(diào)和蒸餾對比,效果有所提升

模型更小、部署代價更小

最小的模型規(guī)模、數(shù)據(jù)量作為標準,“一步步蒸餾”的模型優(yōu)于LLM

基準模型

LLM:540B的PaLM

下游模型:T5

T5-Base(220M)

T5-Large(770M)

T5-XXL(11B)

數(shù)據(jù)集

e-SNLI (自然語言推理):https://github.com/OanaMariaCamburu/e-SNLI

ANLI(自然語言推理):https://huggingface.co/datasets/anli

CQA(問答):https://www.tau-nlp.sites.tau.ac.il/commonsenseqa

SVAMP(算術(shù)數(shù)學(xué)詞問題):https://github.com/arkilpatel/SVAMP

與一步步蒸餾對比的其他方法

標準的微調(diào)(有標簽)

標準的任務(wù)蒸餾(無標簽)

減少訓(xùn)練數(shù)據(jù)

對比結(jié)果1

在標簽較少時,一步步蒸餾優(yōu)于標準微調(diào)1835a8c0-f35c-11ed-90ce-dac502259ad0.png

對比結(jié)果2

在標簽較少時,一步步蒸餾優(yōu)于標準蒸餾18781c0a-f35c-11ed-90ce-dac502259ad0.png

降低模型大小

各種baseline模型大小不一時,一步步蒸餾都更優(yōu)

通過使用更小的特定任務(wù)模型一步步蒸餾逐步優(yōu)于LLM

對比結(jié)果3

在所有考慮的4個數(shù)據(jù)集上總是可以優(yōu)于少樣本CoT、PINTO調(diào)優(yōu)18c86b9c-f35c-11ed-90ce-dac502259ad0.png

對比結(jié)果4

在4個數(shù)據(jù)集中的3個上也優(yōu)于教師模型LLM

增強無標簽數(shù)據(jù),可進一步改進一步步蒸餾18ed84b8-f35c-11ed-90ce-dac502259ad0.png

使用最小模型大小和最小訓(xùn)練數(shù)據(jù)

對比結(jié)果5

用更小模型、更少數(shù)據(jù),一步步蒸餾優(yōu)于LLM19249b38-f35c-11ed-90ce-dac502259ad0.png

對比結(jié)果6

標準的微調(diào)和蒸餾需要更多的數(shù)據(jù)和更大的模型19487bc0-f35c-11ed-90ce-dac502259ad0.png

總結(jié)

實驗證明,一步步蒸餾降低了訓(xùn)練數(shù)據(jù)量、特定任務(wù)的模型大小、優(yōu)于初始LLM的性能

局限性

用戶需要提供帶標簽數(shù)據(jù)

LLM推理能力有限,尤其面對復(fù)雜推理和規(guī)劃問題

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6909

    瀏覽量

    88849
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3178

    瀏覽量

    48731

原文標題:小模型媲美2000倍體量大模型,谷歌提出新思路:蒸餾也能Step-by-Step

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    虛擬現(xiàn)實正一步步向我們走來

    顯然,虛擬現(xiàn)實大發(fā)展的春天正在到來,虛擬現(xiàn)實正一步步走向消費者。那么,虛擬現(xiàn)實究竟涉及哪些重點技術(shù)領(lǐng)域?又將對整個產(chǎn)業(yè)帶來怎樣的影響?未來的“抓手”又有哪些?
    發(fā)表于 10-26 16:38 ?877次閱讀

    外國牛人教你一步步快速打造首臺機器人(超詳細)

    外國牛人教你一步步快速打造首臺機器人(超詳細)
    發(fā)表于 08-15 19:30

    一步步寫嵌入式操作系統(tǒng)—ARM編程的方法與實踐ch02

    一步步寫嵌入式操作系統(tǒng)—ARM編程的方法與實踐ch02
    發(fā)表于 08-20 20:54

    C語言step-by-step

    C語言step-by-step
    發(fā)表于 12-27 09:59

    CC2530一步步演示程序燒寫

    CC2530一步步演示程序燒寫第一步——先安裝IAR開發(fā)環(huán)境第二歩——安裝CC2530燒寫工具第三歩——CC2530串口配置軟件使用具體完整步驟看下面文檔
    發(fā)表于 03-03 14:33

    一步步建立_STM32_UCOS_模板

    一步步建立_STM32_UCOS_模板
    發(fā)表于 09-29 11:46

    菜鳥一步步入門SAM4S-XPLAINED--IAR開發(fā)環(huán)境

    菜鳥一步步入門SAM4S-XPLAINED--IAR開發(fā)環(huán)境
    發(fā)表于 01-25 10:55

    一步步進行調(diào)試GPRS模塊

    背景:在不知道硬件是否正確情況下,一步步進行調(diào)試,最終完成調(diào)試。以下是自己調(diào)試步驟。1、從gprs模塊TX ,RX 單獨焊接兩個線出來,通過上位機發(fā)送AT指令,是否能正常工作。
    發(fā)表于 01-25 07:33

    ARM嵌入式系統(tǒng)如何入門?怎樣一步步的去學(xué)習(xí)

    ARM嵌入式系統(tǒng)的學(xué)習(xí)步驟對于很多新手來說,不知道ARM嵌入式系統(tǒng)如何入門?怎樣一步步的去學(xué)習(xí)?接下來信盈達教育嵌入式培訓(xùn)網(wǎng)就詳解的為大家介紹:關(guān)于ARM嵌入式系統(tǒng)學(xué)習(xí)步驟:1.做個最小系統(tǒng)板:如果
    發(fā)表于 02-16 06:33

    stm32是如何一步步實現(xiàn)設(shè)置地址匹配接收喚醒中斷功能的

    為什么要設(shè)置地址匹配接收喚醒中斷呢?stm32是如何一步步實現(xiàn)設(shè)置地址匹配接收喚醒中斷功能的?
    發(fā)表于 02-28 08:07

    一步步寫嵌入式操作系統(tǒng)

    一步步寫嵌入式操作系統(tǒng)_ARM編程的方法與實踐
    發(fā)表于 07-14 11:32 ?0次下載

    看電工技術(shù)是如何一步步淪為勤雜工的

    相信很多的電工老師傅也都聽說過這種話,那電工究竟是不是勤雜工?電工技術(shù)工種是如何一步步的淪為勤雜工的,我們今天就重點來看看。
    的頭像 發(fā)表于 02-18 15:47 ?4115次閱讀

    看電路是怎么把電壓一步步頂上去的?資料下載

    電子發(fā)燒友網(wǎng)為你提供看電路是怎么把電壓一步步頂上去的?資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-16 08:47 ?13次下載
    看電路是怎么把電壓<b class='flag-5'>一步步</b>頂上去的?資料下載

    ROM與RAM 單片機上電后如何一步步執(zhí)行?資料下載

    電子發(fā)燒友網(wǎng)為你提供ROM與RAM 單片機上電后如何一步步執(zhí)行?資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-21 08:53 ?12次下載
    ROM與RAM 單片機上電后如何<b class='flag-5'>一步步</b>執(zhí)行?資料下載

    一步步重新演繹汽車駕駛體驗

    一步步重新演繹汽車駕駛體驗
    發(fā)表于 11-04 09:52 ?0次下載
    <b class='flag-5'>一步步</b>重新演繹汽車駕駛體驗