精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用較小的語言模型,并用少量樣本來微調語言模型的權重

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:魚羊 ? 2021-01-07 14:27 ? 次閱讀

2020年,GPT-3可謂火出了圈。

不僅講故事的本職工作做得風生水起,還跨界玩起了網頁設計、運維、下象棋……

不過,盡管表現驚艷,GPT-3背后到底是實實在在的1750億參數,想要在實際應用場景中落地,難度著實不小。

現在,針對這個問題,普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出,使用較小的語言模型,并用少量樣本來微調語言模型的權重。

4d534696-5036-11eb-8b86-12bb97331649.png

并且,實驗證明,這一名為LM-BFF(better few-shot fine-tuning fo language models)的方法相比于普通微調方法,性能最多可以提升30%。

詳情如何,一起往下看。

方法原理

首先,研究人員采用了基于提示的預測路線。

所謂基于提示的預測,是將下游任務視為一個有遮蓋(mask)的語言建模問題,模型會直接為給定的提示生成文本響應。

4d7b70ee-5036-11eb-8b86-12bb97331649.png


這里要解決的問題,是尋找正確的提示。這既需要該領域的專業知識,也需要對語言模型內部工作原理的理解。

在本文中,研究人員提出引入一個新的解碼目標來解決這個問題,即使用谷歌提出的T5模型,在指定的小樣本訓練數據中自動生成提示。

4dc132be-5036-11eb-8b86-12bb97331649.png

其次,研究人員在每個輸入中,以額外上下文的形式添加了示例。

問題的關鍵在于,要有限考慮信息量大的示例,一方面,因為可用示例的數量會受到模型最大輸入長度的限制;另一方面,不同類型的大量隨機示例混雜在一起,會產生很長的上下文,不利于模型學習。

為此,研究人員開發了一種動態的、有選擇性的精細策略:對于每個輸入,從每一類中隨機抽取一個樣本,以創建多樣化的最小演示集。

另外,研究人員還設計了一種新的抽樣策略,將輸入與相似的樣本配對,以此為模型提供更多有價值的比較。

實驗結果

那么,這樣的小樣本學習方法能實現怎樣的效果?

研究人員在8個單句、7個句子對NLP任務上,對其進行了系統性評估,這些任務涵蓋分類和回歸。

4dec6b00-5036-11eb-8b86-12bb97331649.png

結果顯示:

基于提示的微調在很大程度上優于標準微調;

自動提示搜索能匹敵、甚至優于手動提示;

加入示例對于微調而言很有效,并提高了少樣本學習的性能。

4ec58340-5036-11eb-8b86-12bb97331649.png

在K=16(即每一類樣本數為16)的情況下,從上表結果可以看到,該方法在所有任務中,平均能實現11%的性能增益,顯著優于標準微調程序。在SNLI任務中,提升達到30%。

不過,該方法目前仍存在明顯的局限性,性能仍大大落后于采用大量樣本訓練獲得的微調結果。

關于作者

論文有兩位共同一作。

高天宇,清華大學本科生特等獎學金獲得者,本科期間即發表4篇頂會論文,師從THUNLP實驗室的劉知遠副教授。

今年夏天,他本科畢業后赴普林斯頓攻讀博士,師從本文的另一位作者陳丹琦。

此前,量子位曾經分享過他在寫論文、做實驗、與導師相處方面的經驗。

Adam Fisch,MIT電氣工程與計算機科學專業在讀博士,是CSAIL和NLP研究小組的成員,主要研究方向是應用于NLP的遷移學習和多任務學習。

他本科畢業于普林斯頓大學,2015-2017年期間曾任Facebook AI研究院研究工程師

至于陳丹琦大神,想必大家已經很熟悉了。她本科畢業于清華姚班,后于斯坦福大學拿下博士學位,2019年秋成為普林斯頓計算機科學系助理教授。

最后,該論文代碼即將開源,如果還想了解更多論文細節,請戳文末論文鏈接詳讀~

傳送門

論文地址:

https://arxiv.org/abs/2012.15723v1

項目地址:

https://github.com/princeton-nlp/LM-BFF

責任編輯:xj

原文標題:【前沿】陳丹琦團隊最新論文:受GPT-3啟發,用小樣本學習給語言模型做微調,性能最高提升30%

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    508

    瀏覽量

    10245
  • GPT
    GPT
    +關注

    關注

    0

    文章

    351

    瀏覽量

    15315
  • 自然語言
    +關注

    關注

    1

    文章

    287

    瀏覽量

    13332

原文標題:【前沿】陳丹琦團隊最新論文:受GPT-3啟發,用小樣本學習給語言模型做微調,性能最高提升30%

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    語言模型如何開發

    語言模型的開發是一個復雜且細致的過程,涵蓋了數據準備、模型架構設計、訓練、微調和部署等多個階段。以下是對大語言
    的頭像 發表于 11-04 10:14 ?88次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    今天開始學習《大語言模型應用指南》第一篇——基礎篇,對于人工智能相關專業技術人員應該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業術語比較陌生,需要網上搜索學習更多的資料才能理解書中
    發表于 07-25 14:33

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識,為后續的任務
    的頭像 發表于 07-11 10:11 ?389次閱讀

    模型為什么要微調?大模型微調的原理

    在人工智能(AI)領域,特別是自然語言處理(NLP)領域,大模型(如BERT、GPT系列等)的出現為許多復雜任務提供了強大的解決方案。然而,這些預訓練的大模型雖然具有廣泛的適用性,但在特定任務上往往
    的頭像 發表于 07-10 10:43 ?3588次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    類任務上表現出色,甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛躍,除非有精心
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    語言模型的評測是確保模型性能和應用適應性的關鍵環節。從基座模型微調模型,再到行業
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預訓練數據的需求也相
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

    《大語言模型“原理與工程實踐”》是關于大語言模型內在機理和應用實踐的一次深入探索。作者不僅深入討論了理論,還提供了豐富的實踐案例,幫助讀者理解如何將理論知識應用于解決實際問題。書中的案
    發表于 05-07 10:30

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    特定任務對模型進行微調。這種方法的成功不僅是自然語言處理發展的一個轉折點,還為許多現實世界的應用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預訓練的模型參數量越來越大預訓
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    我也不打算把網上相關的信息在總結一下,這樣的話,工作量很大。 我主要看了-大語言模型基礎技術這節 大語言模型(Large Language Models,LLMs)的核心技術涵蓋了從
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    Transformer架構,利用自注意力機制對文本進行編碼,通過預訓練、有監督微調和強化學習等階段,不斷提升性能,展現出強大的語言理解和生成能力。 大語言模型的涌現能力,是指隨著
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    《大語言模型》是一本深入探討人工智能領域中語言模型的著作。作者通過對語言模型的基本概念、基礎技術
    發表于 04-30 15:35

    語言模型推斷中的批處理效應

    隨著開源預訓練大型語言模型(Large Language Model, LLM )變得更加強大和開放,越來越多的開發者將大語言模型納入到他們的項目中。其中一個關鍵的適應步驟是將領域特定
    的頭像 發表于 01-04 12:32 ?596次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推斷中的批處理效應

    語言模型概述

    在科技飛速發展的當今時代,人工智能技術成為社會進步的關鍵推動力之一。在廣泛關注的人工智能領域中,大語言模型以其引人注目的特性備受矚目。 大語言模型的定義及發展歷史 大
    的頭像 發表于 12-21 17:53 ?1493次閱讀

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對大語言模型進行介紹。大語言模型
    的頭像 發表于 12-04 15:51 ?750次閱讀