精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer在下一個(gè)token預(yù)測任務(wù)上的SGD訓(xùn)練動(dòng)態(tài)

CVer ? 來源:CVer ? 2023-06-12 10:11 ? 次閱讀

【導(dǎo)讀】AI理論再進(jìn)一步,破解ChatGPT指日可待?

Transformer架構(gòu)已經(jīng)橫掃了包括自然語言處理、計(jì)算機(jī)視覺、語音、多模態(tài)等多個(gè)領(lǐng)域,不過目前只是實(shí)驗(yàn)效果非常驚艷,對Transformer工作原理的相關(guān)研究仍然十分有限。

其中最大謎團(tuán)在于,Transformer為什么僅依靠一個(gè)「簡單的預(yù)測損失」就能從梯度訓(xùn)練動(dòng)態(tài)(gradient training dynamics)中涌現(xiàn)出高效的表征?

最近田淵棟博士公布了團(tuán)隊(duì)的最新研究成果,以數(shù)學(xué)嚴(yán)格方式,分析了1層Transformer(一個(gè)自注意力層加一個(gè)解碼器層)在下一個(gè)token預(yù)測任務(wù)上的SGD訓(xùn)練動(dòng)態(tài)。

aca984de-0871-11ee-962d-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2305.16380

這篇論文打開了自注意力層如何組合輸入token動(dòng)態(tài)過程的黑盒子,并揭示了潛在的歸納偏見的性質(zhì)。

具體來說,在沒有位置編碼、長輸入序列、以及解碼器層比自注意力層學(xué)習(xí)更快的假設(shè)下,研究人員證明了自注意力就是一個(gè)判別式掃描算法(discriminative scanning algorithm):

從均勻分布的注意力(uniform attention)開始,對于要預(yù)測的特定下一個(gè)token,模型逐漸關(guān)注不同的key token,而較少關(guān)注那些出現(xiàn)在多個(gè)next token窗口中的常見token

對于不同的token,模型會(huì)逐漸降低注意力權(quán)重,遵循訓(xùn)練集中的key token和query token之間從低到高共現(xiàn)的順序。

有趣的是,這個(gè)過程不會(huì)導(dǎo)致贏家通吃,而是由兩層學(xué)習(xí)率控制的相變而減速,最后變成(幾乎)固定的token組合,在合成和真實(shí)世界的數(shù)據(jù)上也驗(yàn)證了這種動(dòng)態(tài)。

田淵棟博士是Meta人工智能研究院研究員、研究經(jīng)理,圍棋AI項(xiàng)目負(fù)責(zé)人,其研究方向?yàn)樯疃仍鰪?qiáng)學(xué)習(xí)及其在游戲中的應(yīng)用,以及深度學(xué)習(xí)模型的理論分析。先后于2005年及2008年獲得上海交通大學(xué)本碩學(xué)位,2013年獲得美國卡耐基梅隆大學(xué)機(jī)器人研究所博士學(xué)位。

曾獲得2013年國際計(jì)算機(jī)視覺大會(huì)(ICCV)馬爾獎(jiǎng)提名(Marr Prize Honorable Mentions),ICML2021杰出論文榮譽(yù)提名獎(jiǎng)。

曾在博士畢業(yè)后發(fā)布《博士五年總結(jié)》系列,從研究方向選擇、閱讀積累、時(shí)間管理、工作態(tài)度、收入和可持續(xù)的職業(yè)發(fā)展等方面對博士生涯總結(jié)心得和體會(huì)。

揭秘1層Transformer

基于Transformer架構(gòu)的預(yù)訓(xùn)練模型通常只包括非常簡單的監(jiān)督任務(wù),比如預(yù)測下一個(gè)單詞、填空等,但卻可以為下游任務(wù)提供非常豐富的表征,實(shí)在是令人費(fèi)解。

之前的工作雖然已經(jīng)證明了Transformer本質(zhì)上就是一個(gè)通用近似器(universal approximator),但之前常用的機(jī)器學(xué)習(xí)模型,比如kNN、核SVM、多層感知機(jī)等其實(shí)也是通用近似器,這種理論無法解釋這兩類模型在性能上的巨大差距。

acc68cbe-0871-11ee-962d-dac502259ad0.png

研究人員認(rèn)為,了解Transformer的訓(xùn)練動(dòng)態(tài)(training dynamics)是很重要的,也就是說,在訓(xùn)練過程中,可學(xué)習(xí)參數(shù)是如何隨時(shí)間變化的。

文章首先以嚴(yán)謹(jǐn)數(shù)學(xué)定義的方式,形式化描述了1層無位置編碼Transformer的SGD在下一個(gè)token預(yù)測(GPT系列模型常用的訓(xùn)練范式)上的訓(xùn)練動(dòng)態(tài)。

1層的Transformer包含一個(gè)softmax自注意力層和預(yù)測下一個(gè)token的解碼器層。

acd4ddfa-0871-11ee-962d-dac502259ad0.png

在假設(shè)序列很長,而且解碼器的學(xué)習(xí)速度比自注意力層快的情況下,證明了訓(xùn)練期間自注意力的動(dòng)態(tài)行為:

1. 頻率偏差Frequency Bias

模型會(huì)逐漸關(guān)注那些與query token大量共現(xiàn)的key token,而對那些共現(xiàn)較少的token降低注意力。

2. 判別偏差Discrimitive Bias

模型更關(guān)注那些在下一個(gè)要預(yù)測的token中唯一出現(xiàn)的獨(dú)特token,而對那些在多個(gè)下一個(gè)token中出現(xiàn)的通用token失去興趣。

這兩個(gè)特性表明,自注意力隱式地運(yùn)行著一種判別式掃描(discriminative scanning)的算法,并存在歸納偏差(inductive bias),即偏向于經(jīng)常與query token共同出現(xiàn)的獨(dú)特的key token

此外,雖然自注意力層在訓(xùn)練過程中趨向于變得更加稀疏,但正如頻率偏差所暗示的,模型因?yàn)橛?xùn)練動(dòng)態(tài)中的相變(phase transition),所以不會(huì)崩潰為獨(dú)熱(one hot)。

acdf2b84-0871-11ee-962d-dac502259ad0.png

學(xué)習(xí)的最后階段并沒有收斂到任何梯度為零的鞍點(diǎn),而是進(jìn)入了一個(gè)注意力變化緩慢的區(qū)域(即隨時(shí)間變化的對數(shù)),并出現(xiàn)參數(shù)凍結(jié)和學(xué)會(huì)(learned)。

研究結(jié)果進(jìn)一步表明,相變的開始是由學(xué)習(xí)率控制的:大的學(xué)習(xí)率會(huì)產(chǎn)生稀疏的注意力模式,而在固定的自注意力學(xué)習(xí)率下,大的解碼器學(xué)習(xí)率會(huì)導(dǎo)致更快的相變和密集的注意力模式。

研究人員將工作中發(fā)現(xiàn)的SGD動(dòng)態(tài)命名為掃描(scan)和snap:

掃描階段:自注意力集中在key tokens上,即不同的、經(jīng)常與下一個(gè)預(yù)測token同時(shí)出現(xiàn)的token;其他所有token的注意力都下降。

snap階段:注意力全中幾乎凍結(jié),token組合固定。

aceebd7e-0871-11ee-962d-dac502259ad0.png

這一現(xiàn)象在簡單的真實(shí)世界數(shù)據(jù)實(shí)驗(yàn)中也得到驗(yàn)證,使用SGD在WikiText上訓(xùn)練的1層和3層Transformer的最低自注意力層進(jìn)行觀察,可以發(fā)現(xiàn)即使在整個(gè)訓(xùn)練過程中學(xué)習(xí)率保持不變,注意力也會(huì)在訓(xùn)練過程中的某一時(shí)刻凍結(jié),并變得稀疏。
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    5982
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    287

    瀏覽量

    13334
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1549

    瀏覽量

    7507

原文標(biāo)題:田淵棟新作:打開1層Transformer黑盒,注意力機(jī)制沒那么神秘!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    阿里CEO:下一個(gè)增長引擎定是IoT

    張勇說,下一個(gè)布局、下一個(gè)熱點(diǎn)、下一個(gè)增長的引擎定是來自于萬物互聯(lián)的時(shí)代,來自于圍繞著萬物互聯(lián)。我們希望在萬物互聯(lián)網(wǎng)時(shí)代能夠和所有的合作伙伴形成
    發(fā)表于 09-10 11:25 ?807次閱讀

    EMC如何成為下一個(gè)設(shè)計(jì)工程的成功因素

    EMC如何成為下一個(gè)設(shè)計(jì)工程的成功因素?
    的頭像 發(fā)表于 08-23 11:32 ?710次閱讀
    EMC如何成為<b class='flag-5'>下一個(gè)</b>設(shè)計(jì)工程的成功因素

    如何在下一個(gè)設(shè)計(jì)中成功集成USB 3.2 IP

    如何影響使用USB Type-C連接器和電纜速度。此外,還討論了USB 3.2的實(shí)現(xiàn),USB 3.2的新功能以及設(shè)計(jì)人員如何在下一個(gè)設(shè)計(jì)中成功集成USB 3.2 IP。 、USB 3.2應(yīng)用 許多應(yīng)用都存在
    的頭像 發(fā)表于 03-24 17:23 ?4779次閱讀

    請問ucosii任務(wù)調(diào)度當(dāng)個(gè)任務(wù)運(yùn)行完后是如何跳轉(zhuǎn)到下一個(gè)任務(wù)的?

    1.當(dāng)個(gè)任務(wù)運(yùn)行完后是如何跳轉(zhuǎn)到下一個(gè)任務(wù)的?2.第一個(gè)
    發(fā)表于 05-10 06:06

    你了解在單GPU就可以運(yùn)行的Transformer模型嗎

    LSH最近鄰搜索的簡化動(dòng)畫,兩個(gè)點(diǎn)在不同的桶這里我們有兩個(gè)點(diǎn),它們投影到個(gè)單位圓,并隨機(jī)旋轉(zhuǎn)3次,角度不同。我們可以觀察到,它們不太可
    發(fā)表于 11-02 15:19

    2013年存儲(chǔ)行業(yè)預(yù)測Top10:大數(shù)據(jù)席卷而來,下一個(gè)大事?

    12月19消息,據(jù)InfoStor雜志對存儲(chǔ)行業(yè)專家進(jìn)行的調(diào)查,大數(shù)據(jù)席卷而來,專家對此提出了2013年存儲(chǔ)行業(yè)的10大預(yù)測。下一個(gè)大事是什么?
    發(fā)表于 12-19 08:57 ?1802次閱讀

    VR體驗(yàn)的下一個(gè)飛躍是什么?

    對虛擬現(xiàn)實(shí)的興奮不在圖表之列,但目前這代VR游戲還是很無聊嗎? VR的下一個(gè)重大飛躍是什么?開發(fā)人員如何利用這些新功能?
    的頭像 發(fā)表于 11-13 06:31 ?2557次閱讀

    蘋果或成下一個(gè)諾基亞?

    iPhone11泄露,還有中國特供版!網(wǎng)友:下一個(gè)諾基亞
    的頭像 發(fā)表于 08-23 11:51 ?3580次閱讀

    下一個(gè)十年物聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展市場預(yù)測

    為了“仰望星空”,也為了“腳踏實(shí)地”,聚焦下一個(gè)十年物聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展。我們引用了全球行業(yè)主流研究院、研究咨詢公司以及大型企業(yè)的權(quán)威數(shù)據(jù),作為對產(chǎn)業(yè)航向的預(yù)測,希望可以幫助行業(yè)伙伴更深的了解行業(yè),并
    的頭像 發(fā)表于 01-10 10:36 ?2710次閱讀

    蘋果改變IoT江湖的下一個(gè)大招是什么?

    市值2萬億美元的蘋果公司下一個(gè)大招是什么?傳言了三年的追蹤器“AirTag”最有可能成為下一個(gè)像TWS耳機(jī)那樣的爆品。
    的頭像 發(fā)表于 01-29 10:41 ?2569次閱讀

    在下一個(gè)十年,誰將成為云戰(zhàn)爭的贏家?

    2010年的春天,在中國第二屆IT領(lǐng)袖峰會(huì)的個(gè)分論壇,數(shù)字中國聯(lián)合會(huì)常務(wù)理事劉二飛拋出“云計(jì)算”話題,稱這是互聯(lián)網(wǎng)行業(yè)下一個(gè)必爭之地,請李彥宏和馬化騰講
    的頭像 發(fā)表于 03-03 11:37 ?3126次閱讀

    從預(yù)訓(xùn)練語言模型看MLM預(yù)測任務(wù)

    為了解決這問題,本文主要從預(yù)訓(xùn)練語言模型看MLM預(yù)測任務(wù)、引入prompt_template的MLM預(yù)測
    的頭像 發(fā)表于 11-14 14:56 ?3107次閱讀

    汽車軟件開發(fā)的下一個(gè)階段是什么樣的?

    過去,軟件開發(fā)遵循僵化、緩慢的瀑布方法,并使用高度分散的工具鏈。開發(fā)將經(jīng)歷離散的階段,每個(gè)階段都在下一個(gè)階段開始之前完成。許多開發(fā)過程是手動(dòng)的,從工具鏈的個(gè)部分到下一個(gè)部分的切換也是
    的頭像 發(fā)表于 11-22 10:44 ?753次閱讀

    在下一個(gè)物聯(lián)網(wǎng)設(shè)計(jì)中實(shí)現(xiàn)無縫互操作性

    指導(dǎo)視頻:在下一個(gè)物聯(lián)網(wǎng)設(shè)計(jì)中實(shí)現(xiàn)無縫互操作性
    的頭像 發(fā)表于 12-26 10:16 ?728次閱讀
    <b class='flag-5'>在下一個(gè)</b>物聯(lián)網(wǎng)設(shè)計(jì)中實(shí)現(xiàn)無縫互操作性

    晶體管的下一個(gè)25年

    晶體管的下一個(gè)25年
    的頭像 發(fā)表于 11-27 17:08 ?610次閱讀
    晶體管的<b class='flag-5'>下一個(gè)</b>25年