国产a∨精品一区二区三区不卡_国产成人精品免费视频大全麻豆_亚洲国产精品毛片Aⅴ不卡在线_天堂不卡一区二区在线网站

昨天Meta AI+CMU這篇文章一出，twitter都炸了！

LIMA，只使用1000個精心挑選的樣本微調(diào)一個 65B LLaMa，無需RLHF，性能媲美甚至優(yōu)于GPT-4！

論文：LIMA: Less Is More for Alignment
地址：https://arxiv.org/pdf/2305.11206.pdf

天下人苦“對齊”久矣！要讓預訓練語言模型的響應(yīng)和特定任務(wù)和用戶偏好對齊，動輒需要百萬示例數(shù)據(jù)集上的instruction tuning、以及最近從人類反饋中進行的強化學習，才能實現(xiàn)ChatGPT級別的性能。

這篇文章旨在用簡單的方法解決復雜的對齊問題，作者提出表面對齊假說(Superf icial Alignment Hypothesis)，將對齊視為一個簡單的過程：學習與用戶交互的樣式或格式，來展示預訓練期間就已經(jīng)獲得的知識和能力！

結(jié)果發(fā)現(xiàn)，少量高質(zhì)量樣例上的簡單微調(diào)就足以與當今最先進的技術(shù)競爭！這也證明預訓練過程的強大威力和重要性，遠勝于大規(guī)模instruction tuning和強化學習！

實驗設(shè)置

數(shù)據(jù)集來源：這1000個近似真實用戶提示和高質(zhì)量響應(yīng)的示例中，有750個來自Stack Exchange和wikiHow這樣的社區(qū)論壇，其余250個則是手動編寫。

微調(diào)的超參數(shù)：使用AdamW進行微調(diào)，其中，權(quán)重衰減為0.1。沒有熱身步驟，初始學習率設(shè)置為，并線性地降至訓練結(jié)束時的。批量大小設(shè)為32個示例（更小的模型為64個），長度大于2048 token的文本將被裁剪。與以往的顯著不同是在殘差連接上應(yīng)用dropout，從底層的開始，線性升高到最后一層的（更小的模型為）。

基準模型

實驗將 LIMA 與五個基準模型進行比較：

(1)Alpaca 65B：將 LLaMa 65B 在 Alpaca 訓練集中的 52,000 個樣例上進行微調(diào)；(2) OpenAI 的DaVinci003，經(jīng)過 RLHF 訓練的大語言模型；(3) 基于 PaLM 的谷歌Bard；(4) Anthropic 的Claude， 52B 參數(shù)，經(jīng)過從 AI 反饋進行強化學習 (Constitutional AI) 訓練；(5) OpenAI 的GPT-4，經(jīng)過 RLHF 訓練，目前認為最先進的大語言模型。

結(jié)果

根據(jù)人類偏好的實驗結(jié)果，LIMA 的表現(xiàn)比 Alpaca 65B 和 DaVinci003 都要更好！盡管Alpaca 65B 的訓練數(shù)據(jù)量比 LIMA 高52倍，而DaVinci003 采用了 RLHF，一種被認為是更優(yōu)秀的對齊方法。

Bard 情況要好，在 42% 的時間產(chǎn)生了比 LIMA 更好的響應(yīng)；然而，這也意味著至少58%的時間， LIMA 的表現(xiàn)和 Bard 相當。

最后，雖然 Claude 和 GPT-4 通常比 LIMA 的表現(xiàn)更加出色，但很多情況下，LIMA 確實能產(chǎn)生更好的響應(yīng)。有些諷刺的是，即使是 GPT-4 也有19% 的時間會認為 LIMA 的輸出更好。

我們來欣賞下LLaMa的出色表演。藍色文本為prompt，左邊是與訓練集中示例相關(guān)的提示，中間是訓練集中不存在的提示，右邊則是挑戰(zhàn)模型拒絕不安全行為。

數(shù)據(jù)質(zhì)量和多樣性更重要

為了證明LIMA （Less Is More for Alignment）這個少勝于多的觀點，作者通過消融實驗研究了訓練數(shù)據(jù)的多樣性、質(zhì)量和數(shù)量對模型的影響。

結(jié)果發(fā)現(xiàn)，數(shù)據(jù)質(zhì)量對生成質(zhì)量存在顯著影響，使用篩選過的數(shù)據(jù)集訓練的模型與使用未經(jīng)過濾的數(shù)據(jù)源訓練的模型之間存在0.5分差異。但是，令人驚訝的是，示例數(shù)量的加倍并不能改善響應(yīng)的質(zhì)量。這表明對齊的 scaling laws 不僅僅取決于數(shù)量，而在于保證質(zhì)量的同時提高提示的多樣性。

多輪對話

不過，一個僅在1,000個單輪對話上進行微調(diào)的模型能否從事多輪對話（Multi-Turn Dialogue）呢？

在零樣本上，LIMA的響應(yīng)出奇地連貫，并引用了前面對話的信息。但很明顯，這個模型正在超出分布范圍；在10次交流中有6次，LIMA在3個互動之內(nèi)未能遵循提示。

為了提高對話能力，作者收集了30個多輪對話鏈。使用組合的1,030個示例對預訓練的LLaMa模型進行微調(diào)，得到一個新版本的LIMA，并針對相同的提示進行了10次實時對話。發(fā)現(xiàn)加入這30個示例后生成質(zhì)量顯著提升，優(yōu)質(zhì)響應(yīng)比例從45.2％提高到76.1％！

30個樣本的有限監(jiān)督就能調(diào)用模型的多輪對話能力，這也支持了作者提出的表面對齊假說，即：這些能力是在預訓練期間學習的。

總結(jié)

作者在discussion部分指出了該方法的一系列問題：比如構(gòu)建數(shù)據(jù)集示例需要巨大的腦力投入、難以擴展，不如產(chǎn)品級別的模型穩(wěn)健等~

話雖如此，這篇研究證明了簡單方法就有解決復雜對齊問題的潛力。幾乎所有大語言模型中的知識都是在預訓練期間學習的，教導模型產(chǎn)生高質(zhì)量輸出只需少量但精心的instructional tuning.

簡單才是王道！

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
508

瀏覽量
10245
CMU

CMU

+關(guān)注

關(guān)注
0

文章
21

瀏覽量
15231
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1548

瀏覽量
7495

原文標題：Meta AI 重磅推出LIMA！媲美GPT-4、無需RLHF就能對齊！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

ChatGPT升級　OpenAI史上最強大模型GPT-4發(fā)布

ChatGPT升級史上最強大模型GPT-4發(fā)布 OpenAI正式推出了ChatGPT升級版本，號稱史上最強大模型GPT-4發(fā)布。OpenAI期待GPT-4成為一個更有價值的

發(fā)表于 03-15 18:15 ?2772次閱讀

關(guān)于GPT-4的產(chǎn)品化狂想

GPT-4是條件，而不是結(jié)果

發(fā)表于 03-26 10:48 ?2955次閱讀

關(guān)于<b class='flag-5'>GPT-4</b>的產(chǎn)品化狂想

AIGC(GPT-4)賦能通信行業(yè)應(yīng)用白皮書

”，2023 年 3 月 GPT-4 的發(fā)布則進一步推動了“態(tài)勢升級”。由 ChatGPT/GPT-4 引發(fā)的全球關(guān)注，令許多人回憶起 2016 年 AlphaGo 戰(zhàn)勝人類圍棋世界冠軍的時刻。如果說 AlphaGo 代表了 AI

發(fā)表于 03-29 16:59 ?27次下載

GPT-4是這樣搞電機的

GPT-4寫電機基礎(chǔ)程序沒問題

發(fā)表于 04-17 09:41 ?980次閱讀

微軟GPT-4搜索引擎重大升級新Bing開放AI能力

GPT-4，GPT-4有更強悍的能力可以提供創(chuàng)意性文章創(chuàng)作和圖像識別功能。微軟馬上跟進，宣布旗下的Bing Chat已經(jīng)升級使用了OpenAI提供的GPT-4技術(shù)。現(xiàn)在，微軟公司在官網(wǎng)聲明稱，基于

發(fā)表于 05-05 17:15 ?2562次閱讀

一樣媲美GPT-4、Bard，Meta發(fā)布650億參數(shù)語言模型LIMA

該研究使用了一個 65B 參數(shù)的 LLaMa 模型（該模型稱為 LIMA）在 1000 個精選樣本上進行有監(jiān)督學習，在完全沒使用 RLHF 方法的情況下，LIMA 表現(xiàn)出非常強大的性能，并且能夠很好地泛化到訓練數(shù)據(jù)以外的任務(wù)上。

發(fā)表于 05-24 11:46 ?847次閱讀

人工通用智能的火花：GPT-4的早期實驗

人工智能（AI）研究人員一直在開發(fā)和完善大型語言模型（LLMs），這些模型在各種領(lǐng)域和任務(wù)中表現(xiàn) 出非凡的能力，挑戰(zhàn)我們對學習和認知的理解。由OpenAI開發(fā)的最新模型GPT-4[Ope23

發(fā)表于 06-20 15:49 ?1次下載

GPT-4已經(jīng)會自己設(shè)計芯片了嗎？

? GPT-4已經(jīng)會自己設(shè)計芯片了！芯片設(shè)計行業(yè)的一個老大難問題HDL，已經(jīng)被GPT-4順利解決。并且，它設(shè)計的130nm芯片，已經(jīng)成功流片。 GPT-4，已經(jīng)可以幫人類造芯片了！只用簡單的英語

發(fā)表于 06-20 11:51 ?941次閱讀

GPT-4催生的接口IP市場空間

自GPT-4大語言模型公布以來，百度、阿里、知乎、出門問問等國內(nèi)互聯(lián)網(wǎng)公司紛紛跟進，在近兩個月中相繼推出了自家的產(chǎn)品。日前，鮮有公開演講的奇績創(chuàng)壇創(chuàng)始人兼CEO陸奇也分享了他對大模型時代的宏觀思考

發(fā)表于 07-03 14:17 ?829次閱讀

GPT-4沒有推理能力嗎？

今年三月，OpenAI 重磅發(fā)布了 GPT-4 大模型，帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力，也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計師的使用過程中，「

發(fā)表于 08-11 14:20 ?872次閱讀

ChatGPT重磅更新　OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3

ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領(lǐng)者，一舉一動都牽動著大家的關(guān)注，現(xiàn)在ChatGPT迎來重磅更新。 OpenAI

發(fā)表于 11-07 18:20 ?2770次閱讀

AI觀察 | 今年最火的GPT-4，正在締造科幻版妙手仁心！

近來，微軟對于提示工程能力的最新研究 1 （鏈接詳見文末）再次吸引了一眾媒體的目光：“無需額外微調(diào)、無需專業(yè)策劃，僅憑提示GPT-4就能化身專家！”報道中這樣描述道 2 。基于最新提

發(fā)表于 12-11 08:15 ?459次閱讀

ChatGPT plus有什么功能？OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能分析解答在最近的OpenAI DevDay上，該組織發(fā)布了一項備受期待的公告：推出GPT-4 Turbo，這是對其突破性AI

發(fā)表于 12-13 09:19 ?1066次閱讀

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級至GPT-4取得顯著進步，如今再次更新至性能卓越的GP

發(fā)表于 03-13 13:42 ?681次閱讀

OpenAI推出新模型CriticGPT，用GPT-4自我糾錯

基于GPT-4的模型——CriticGPT，這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設(shè)計，其獨特的作用在于，讓人們能夠用GPT-4來查找GPT-4的錯誤。

發(fā)表于 06-29 09:55 ?518次閱讀