日韩欧美国产专区_国产成人aa视频在线观看_久久久久无码视频_九九免费久久这里有精品23

大型語言模型可以用來教小得多的學生模型如何進行一步一步地推理。本文方法顯著提高了小型 (~0.3B 參數) 模型在一系列任務上的性能，在許多情況下甚至可以達到或超過大型模型的性能。

語言模型（LMs）在各種下游任務中表現出色，這主要歸功于它們通過 Transformer 架構（Vaswani et al.，2017）和大量網絡訓練數據獲得的可擴展性。先前的語言模型研究遵循了在大型語料庫上預先訓練，然后在下游任務上微調的范式（Raffel et al.，2020; Devlin et al.，2018）。最近，大型語言模型（LLMs）向人們展示了其上下文泛化能力：通過僅在幾個上下文樣例或純自然語言任務描述上調整就能完成下游任務（Brown et al.，2020; Sun et al.，2021）。

如果給語言模型生成一些 prompting，它還向人們展示了其解決復雜任務的能力。標準 prompting 方法，即為使用少樣本的問答對或零樣本的指令的一系列方法，已經被證明不足以解決需要多個推理步驟的下游任務（Chowdhery 等，2022）。

但是，最近的研究已經證明，通過包含少數思維鏈（CoT）推理的樣本（Wang 等，2022b）或通過 promp 來讓模型逐步思考的方法（Kojima 等，2022）可以在大型語言模型中促成復雜的推理能力。

基于 promp 的思維鏈方法的主要缺點是它需要依賴于擁有數十億參數的巨大語言模型（Wei et al，2022b；Kojima et al，2022）。由于計算要求和推理成本過于龐大，這些模型難以大規模部署（Wei et al，2022b）。因此，來自韓國科學技術院的研究者努力使小型模型能夠進行復雜的推理，以用于實際應用。

有鑒于此，本文提出了一種名為微調思維鏈的方法，該方法旨在利用非常大的語言模型的思維鏈推理能力來指導小模型解決復雜任務。

論文鏈接：https://arxiv.org/pdf/2212.10071.pdf

項目地址：https://github.com/itsnamgyu/reasoning-te acher

為了詳細說明，本文應用現有的零樣本思維鏈 prompting（Kojima 等人，2022）從非常大的教師模型中生成推理，并使用它們來微調較小的學生模型。

研究者注意到，與標準的 prompting 類似，對于訓練語言模型來解決復雜推理的任務來說，純微調往往是不夠的。雖然已經有人嘗試用規定好的推理步驟對小模型進行微調來解決這個問題，但這些方法需要巨量的推理注釋，而且往往還需要與特定任務匹配的訓練設置（Nye 等人，2021；Cobbe 等人，2021）。

本文提出的方法，由于基于語言模型的教師具有顯著的零樣本推理能力（Kojima 等人，2022），無需手工制作推理注釋及特定任務設置，可以很容易地應用于新的下游任務。從本質上講，本文的方法保留了基于 prompting 的思維鏈的多功能性，同時模型規模還不是很大。

研究者還對本文中的方法提出了一種擴展，稱為多樣化推理，這種擴展方法通過為每個訓練樣本生成多個推理方案來最大限度地提高對思維鏈進行微調的教學效果。具體來說可以通過簡單的重復隨機抽樣來實現。多樣化推理的動機是，多種推理路徑可以用來解決復雜的第二類任務（Evans, 2010）。本文認為，這種推理路徑的多樣性以及語言模板的加入可以大大有助于復雜推理的微調。

本文使用公開的 GPT-3 模型對思維鏈微調和各類任務及規模的多樣化推理進行了實證評估。本文提出的微調方法在復雜任務的小模型中具備明顯的推理性能，而以前基于 prompting 的方法則只具有接近隨機的性能。

本文表明，在思維鏈微調方法下的小模型在某些任務中的表現甚至超過了它們的大模型老師。通過多樣化的推理，研究者發現維鏈微調方法的性能是高度可擴展的，并且即使在很少的訓練例子中也能具備較高的樣本效率和顯著的推理性能。研究者對思維鏈微調方法在眾多數據集上的表現進行了徹底的樣本研究和消融實驗，在小模型上證明了其價值。在此過程中，本文揭示了微調在思維鏈推理中前作沒有被考慮到的一些重要細微差別。

方法概覽

本文提出了思維鏈微調方法，這是一種與下游任務無關的方法，可以在小型語言模型中實現思維鏈推理。該方法的核心思想是使用基于 prompting 的思維鏈方法從非常大的教師模型中生成推理樣本，然后使用生成的樣本對小型學生模型進行微調。

這種方法保留了任務無偏的基于 prompt 思維鏈方法的優點，同時克服了其對過大模型的依賴性。為了最大限度地提高通用性，本文在教師模型上使用了最新的零樣本思維鏈 prompting 方法（Kojima 等人，2022），因為此方法不需要任何手工注釋的推理解釋。作者注意到，本文提出的方法其實并不限于這種教師模型的 prompting 方式。文本將思維鏈微調方法拆解為三個步驟，如下圖所示。

步驟 1—— 推理生成

首先，本文利用一個大型的教師模型來為一個給定的任務生成思維鏈推理解釋。本文定義一個由問題 Q^i 和其真實答案 a^i 組成為一個標準樣本 S^i，然后使用零樣本思維鏈來為教師模型生成一個推理來解決問題 q^i，并生成最終的答案預測。由此產生的文本序列，包括 prompt 和生成結果，均采取以下形式

第 2 步 —— 整理

為了制備用于微調的樣本，本文對生成的樣本進行了過濾，并將其重新格式化為 prompt-completion 形式的成對數據。對于過濾，本文將教師模型的最終預測值與真實答案 a^i 進行比較，這與之前的一些工作是相同的（Zelikman 等人，2022；Huang 等人，2022）。對于所有這樣的實例 i，本文將（S_i ,?,?）重新打包成一個推理樣本，也就是一個 prompt-completion 形式的成對數據。由于本文提出的方法旨在為特定任務訓練高效的模型，所以使用基于特殊字符的文本格式來盡量減少標記的使用。具體來說，p_i 采用「###」的形式，c_i 采用

的形式。作者注意到，基于答案預測的過濾并不能確保推理的正確性，特別是對于可能出現隨機猜測的多選題。遺憾的是，以前的工作中這個問題還沒有得到解決。

步驟 3—— 微調

最后，本文使用開源的 OpenAI API 在集成的推理樣本上對一個小型的預訓練學生模型進行微調。本文使用與預訓練時相同的訓練目標，即自回歸語言建模目標，或者用 token 預測（Radford 等人，2018）。

多樣化推理

為了最大限度地提高思維鏈微調方法的對樣本的使用效率，本文提出可以為每個訓練樣本生成多種推理解釋，從而增強微調數據。本文將此稱為多樣化推理。詳細來說，對于一個給定的樣本 S_i，本文不是采用貪心解碼策略的零樣本思維鏈方法來獲得單一的「解釋 — 答案」形式的成對數據，而是采用隨機抽樣策略，即用 T 代表溫度抽樣，然后獲得 D 批不同的生成數據

。隨后對推理樣本整理和微調工作就像上面一樣進行。本文把 D 稱為推理的多樣性程度。多樣化推理的動機是，多種推理路徑可以用來解決復雜的任務，即第二類任務（Evans, 2010）。

在樣本研究中，研究者確認多樣化推理樣本包含各種推理路徑以及語言模板，這一點也可以在細化的學生模型中觀察到。這與 Wang 等人（2022b）；Zelikman 等人（2022）；Huang 等人（2022）的成果類似，多樣化推理路徑被生成并被邊緣化以找到最優答案。多樣化推理也與 Yoo 等人（2021）有相似之處，后者利用大模型語言模型的生成能力，合成的樣本來增加訓練數據。

實驗結果

下表將思維鏈微調方法的學生模型，與現有的對下游任務不敏感的方法 —— 零樣本學習（Kojima 等人，2022）以及標準的零樣本 prompt 和沒有任何推理的微調方法進行對比，并記錄了準確率。

思維鏈微調在相同的任務中性能明顯更突出，這顯示出使用較小的模型比零樣本思維鏈方法收益更大。

上表還顯示，思維鏈微調對小模型非常有效。同樣地，本文還發現思維鏈微調在很多任務中的表現優于 vanilla 微調，如上表所示。

下表顯示，多樣化的推理可以顯著提高使用思維鏈微調的學生模型的性能。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3178

瀏覽量
48730
語言模型

語言模型

+關注

關注
0

文章
508

瀏覽量
10247
大模型

大模型

+關注

關注
2

文章
2339

瀏覽量
2500

原文標題：有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

了探索更大、更高效模型架構和訓練方法的空間。在實際應用中，大語言模型的縮放定律推動了自然語言處理等領域的發展，提升了應用效果和用戶體驗。此外，縮放定律的發現

發表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的應用

，它通過抽象思考和邏輯推理，協助我們應對復雜的決策。相應地，我們設計了兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務，類似于人類的系統1，如情感分析和抽取式問答等。大語言

發表于 05-07 17:21

基于LS-SVM逆模型的青霉素發酵軟測量方法

針對青霉素發酵過程中的某些關鍵生物參數(如菌體濃度、基質濃度、產物濃度)難以實時在線測量的問題，提出一種基于最小二乘支持向量機（LS-SVM）逆模型的軟測量方法。該方法用具有高斯核函數

發表于 09-19 09:36

COT控制模型邏輯是怎樣的

COT控制模型邏輯是怎樣的

發表于 03-11 06:25

用tflite接口調用tensorflow模型進行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實現通用模型的部署。本文主要實現用tflite接口調用tensorflow模型進行推理。相關源碼見鏈接引言本文為系列博客

發表于 12-22 06:51

【飛凌RK3568開發板試用體驗】RKNN模型推理測試

研的人工智能協處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進行推理應用程序開發。一、推理應用程序的基本流程RKNN 是瑞芯微（Rockchip

發表于 12-08 19:06

壓縮模型會加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導入到 STM32L462RCT我發現壓縮模型對推理時間沒有影響。aiRun 程序在 8

發表于 01-29 06:24

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關知識，介紹了AscendCL接口加載離線模型，為離線模型

發表于 08-24 11:04

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

發表于 11-05 18:22

HarmonyOS：使用MindSpore Lite引擎進行模型推理

場景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設備 AI 模型推理的功能，目前已經在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。本文介紹

發表于 12-14 11:41

全新科學問答數據集ScienceQA讓深度學習模型推理有了思維鏈

，即在 GPT-3 模型中引入基于思維鏈的提示學習，從而使得模型能在生成答案的同時，生成相應的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實現

發表于 11-01 16:30 ?1338次閱讀

LLM大模型推理加速的關鍵技術

LLM（大型語言模型）大模型推理加速是當前人工智能領域的一個研究熱點，旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型

發表于 07-24 11:38 ?783次閱讀

Google Gemma 2模型的部署和Fine-Tune演示

Google 近期發布了最新開放模型 Gemma 2，目前與同等規模的開放模型相比，取得了明顯的優勢，同時在安全可控性上得到了顯著的增強。

發表于 08-09 17:04 ?471次閱讀

FPGA和ASIC在大模型推理加速中的應用

隨著現在AI的快速發展，使用FPGA和ASIC進行推理加速的研究也越來越多，從目前的市場來說，有些公司已經有了專門做推理的ASIC，像Gro

發表于 10-29 14:12 ?217次閱讀

高效大模型的推理綜述

大模型推理的文獻進行了全面的綜述總結。首先分析了大模型推理效率低下的主要原因，即大模型參數規模、

發表于 11-15 11:45 ?246次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

評論

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】大語言模型的應用

基于LS-SVM逆模型的青霉素發酵軟測量方法

COT控制模型邏輯是怎樣的

用tflite接口調用tensorflow模型進行推理

【飛凌RK3568開發板試用體驗】RKNN模型推理測試

壓縮模型會加速推理嗎？

AscendCL快速入門——模型推理篇（上）

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

HarmonyOS：使用MindSpore Lite引擎進行模型推理

全新科學問答數據集ScienceQA讓深度學習模型推理有了思維鏈

LLM大模型推理加速的關鍵技術

Google Gemma 2模型的部署和Fine-Tune演示

FPGA和ASIC在大模型推理加速中的應用

高效大模型的推理綜述