在线观看AV片永久免费_伊人大杳焦在线_午夜一区欧美二区高清三区

在回答復(fù)雜的問題時(shí)，人類可以理解不同模態(tài)的信息，并形成一個(gè)完整的思維鏈（Chain of Thought, CoT）。深度學(xué)習(xí)模型是否可以打開「黑箱」，對其推理過程提供一個(gè)思維鏈呢？近日，UCLA 和艾倫人工智能研究院（AI2）提出了首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集 ScienceQA，用于測試模型的多模態(tài)推理能力。在 ScienceQA 任務(wù)中，作者提出 GPT-3 (CoT) 模型，即在 GPT-3 模型中引入基于思維鏈的提示學(xué)習(xí)，從而使得模型能在生成答案的同時(shí)，生成相應(yīng)的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實(shí)現(xiàn)了 75.17% 的準(zhǔn)確率；并且人類評估表明，其可以生成較高質(zhì)量的解釋。

像人類一樣有效地學(xué)習(xí)并完成復(fù)雜的任務(wù)是人工智能追求的長遠(yuǎn)目標(biāo)之一。人類在決策過程中可以遵循一個(gè)完整的思維鏈（CoT）推理過程，從而對給出的答案做出合理的解釋。

然而，已有的機(jī)器學(xué)習(xí)模型大多依賴大量的輸入 - 輸出樣本訓(xùn)練來完成具體的任務(wù)。這些黑箱模型往往直接生成最終的答案，而沒有揭示具體的推理過程。

科學(xué)問答任務(wù)（Science Question Answering）可以很好地診斷人工智能模型是否具有多步推理能力和可解釋性。為了回答科學(xué)問題，一個(gè)模型不僅需要理解多模態(tài)內(nèi)容，還需要提取外部知識以得出正確答案。同時(shí)，一個(gè)可靠的模型還應(yīng)該給出揭示其推理過程的解釋。然而，目前的科學(xué)問答數(shù)據(jù)集大多缺乏對答案的詳細(xì)解釋，或者局限于文字模態(tài)。

因此，作者收集了全新的科學(xué)問答數(shù)據(jù)集 ScienceQA，它包含了 21,208 道來自中小學(xué)科學(xué)課程的問答多選題。一道典型的問題包含多模態(tài)的背景（context）、正確的選項(xiàng)、通用的背景知識（lecture）以及具體的解釋（explanation）。

ScienceQA 數(shù)據(jù)集的一個(gè)例子。

要回答上圖所示的例子，我們首先要回憶關(guān)于力的定義：「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」，然后形成一個(gè)多步的推理過程：「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」，最終得到正確答案：「This force is a pull. 」。

在 ScienceQA 任務(wù)中，模型需要在預(yù)測答案的同時(shí)輸出詳細(xì)地解釋。在本文中，作者利用大規(guī)模語言模型生成背景知識和解釋，作為一種思維鏈（CoT）來模仿人類具有的多步推理能力。

實(shí)驗(yàn)表明，目前的多模態(tài)問答方法在 ScienceQA 任務(wù)不能取得很好的表現(xiàn)。相反，通過基于思維鏈的提示學(xué)習(xí)，GPT-3 模型能在 ScienceQA 數(shù)據(jù)集上取得 75.17% 的準(zhǔn)確率，同時(shí)可以生成質(zhì)量較高的解釋：根據(jù)人類評估，其中 65.2% 的解釋相關(guān)、正確且完整。思維鏈也可以幫助 UnifiedQA 模型在 ScienceQA 數(shù)據(jù)集上取得 3.99% 的提升。

1、ScienceQA 數(shù)據(jù)集

數(shù)據(jù)集統(tǒng)計(jì)

ScienceQA 的主要統(tǒng)計(jì)信息如下所示。

ScienceQA 數(shù)據(jù)集的主要信息

ScienceQA 包含21208個(gè)例子，其中有9122個(gè)不同的問題（question）。10332 道（48.7%）有視覺背景信息，10220 道（48.2%）有文本背景信息，6532 道（30.8%）有視覺 + 文本的背景信息。絕大部分問題標(biāo)注有詳細(xì)的解釋：83.9% 的問題有背景知識標(biāo)注（lecture），而 90.5% 的問題有詳細(xì)的解答（explanation）。

ScienceQA 數(shù)據(jù)集中問題和背景分布。

數(shù)據(jù)集主題分布

不同于已有的數(shù)據(jù)集，ScienceQA 涵蓋自然科學(xué)、社會(huì)科學(xué)和語言學(xué)三大學(xué)科分支，包含 26 個(gè)主題（topic）、127 個(gè)分類（category）和 379 個(gè)知識技能（skill）。

ScienceQA 的主題分布。

數(shù)據(jù)集詞云分布

如下圖的詞云分布所示，ScienceQA 中的問題具有豐富的語義多樣性。模型需要理解不同的問題表達(dá)、場景和背景知識。

ScienceQA 的詞云分布。

數(shù)據(jù)集比較

ScienceQA 是第一個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集。相比于已有的數(shù)據(jù)集，ScienceQA 的數(shù)據(jù)規(guī)模、題型多樣性、主題多樣性等多個(gè)維度體現(xiàn)了優(yōu)勢。

ScienceQA 數(shù)據(jù)集與其它科學(xué)問答數(shù)據(jù)集的比較。

2、模型和方法

Baselines

作者在 ScienceQA 數(shù)據(jù)集了評估不同的基準(zhǔn)方法，包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT，大規(guī)模語言模型如 UnifiedQA 和 GPT-3，以及 random chance 和 human performance。對于語言模型 UnifiedQA 和 GPT-3，背景圖片會(huì)被轉(zhuǎn)換成文本形式的注釋（caption）。

GPT-3 (CoT)

最近的研究工作表明，在給定合適的提示后，GPT-3 模型可以在不同的下游任務(wù)表現(xiàn)出卓越的性能。為此，作者提出 GPT-3 (CoT) 模型，在提示中加入思維鏈（CoT），使得模型在生成答案的同時(shí)，可以生成對應(yīng)的背景知識和解釋。

具體的提示模板如下圖所示。其中 Ii 表示訓(xùn)練例子，It 表示測試?yán)?。?xùn)練例子包含問題（Question）、選項(xiàng)（Options）、背景（Context）和答案（Answer）元素，其中答案由正確答案、背景知識（Lecture）和解釋（Explanation）組成。GPT-3 (CoT) 會(huì)根據(jù)輸入的提示信息，補(bǔ)全測試?yán)拥念A(yù)測答案、背景知識和解釋。

GPT-3 (CoT) 采用的提示模板。

3、實(shí)驗(yàn)與分析

實(shí)驗(yàn)結(jié)果

不同的基準(zhǔn)和方法在 ScienceQA 測試集上的準(zhǔn)確率結(jié)果如下表所示。當(dāng)前最好的 VQA 模型之一的 VisualBERT 只能達(dá)到 61.87% 的準(zhǔn)確率。在訓(xùn)練的過程引入 CoT 數(shù)據(jù)，UnifiedQA_BASE 模型可以實(shí)現(xiàn) 74.11% 的準(zhǔn)確率。而 GPT-3 (CoT) 在 2 個(gè)訓(xùn)練例子的提示下，實(shí)現(xiàn)了 75.17% 的準(zhǔn)確率，高于其它基準(zhǔn)模型。人類在 ScienceQA 數(shù)據(jù)集上表現(xiàn)優(yōu)異，可以達(dá)到 88.40% 的總體準(zhǔn)確率，并且在不同類別的問題上表現(xiàn)穩(wěn)定。

不同的方法在 ScienceQA 測試集上的結(jié)果。

生成解釋的評估

作者用自動(dòng)評估指標(biāo)如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 評估了不同方法生成的解釋。由于自動(dòng)評估指標(biāo)只能衡量預(yù)測結(jié)果和標(biāo)注內(nèi)容的相似性，因此作者進(jìn)一步采用了人工評估的方法，來評估生成解釋的相關(guān)性、正確性和完整性。可以看到，GPT-3 (CoT) 生成的解釋中 65.2% 符合了 Gold 標(biāo)準(zhǔn)。

不同評估方法對生成解釋的結(jié)果。

不同的提示模板

作者比較了不同的提示模板對 GPT-3 (CoT) 準(zhǔn)確率的影響?？梢钥吹皆?QAM-ALE 的模板下，GPT-3 (CoT) 可以獲得最大的平均準(zhǔn)確率和最小的方差。另外，GPT-3 (CoT) 在 2 個(gè)訓(xùn)練例子的提示下，表現(xiàn)最佳。

不同提示模板的結(jié)果比較。

模型上限

為了探索 GPT-3 (CoT) 模型的性能上限，作者把標(biāo)注的背景知識和解釋加入模型的輸入（QCMLE*-A）。我們可以看到 GPT-3 (CoT) 可以實(shí)現(xiàn)高達(dá) 94.13% 的準(zhǔn)確率。這也提示了模型提升的一個(gè)可能方向：模型可以進(jìn)行分步推理，即先檢索到準(zhǔn)確的背景知識和生成準(zhǔn)確的解釋，然后把這些結(jié)果作為輸入。這個(gè)過程和人類解決復(fù)雜問題的過程很相似。

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者進(jìn)一步討論了GPT-3 (CoT) 在生成預(yù)測時(shí)，不同的 ALE 位置對結(jié)果的影響。在 ScienceQA 上的實(shí)驗(yàn)結(jié)果表明，如果 GPT-3 (CoT) 先生成背景知識 L 或解釋 E，再生成答案 A，其預(yù)測準(zhǔn)確率會(huì)大幅下降。其主要原因是背景知識 L 和解釋 E 有較多的詞語數(shù)量，如果先生成 LE，GPT-3 模型有可能用完最大詞數(shù)，或者提前停止生成文本，從而不能得到最終的答案 A。

不同的 LE 位置。

成功案例

如下 4 個(gè)例子中，GPT-3 (CoT)不但能生成正確的答案，也能給出相關(guān)、正確且完整的解釋。這說明 GPT-3 (CoT) 在 ScienceQA 數(shù)據(jù)集上表現(xiàn)出較強(qiáng)的多步推理和解釋能力。

GPT-3 (CoT) 生成正確答案和解釋的例子。

失敗案例 I

在下面的三個(gè)例子中，GPT-3 (CoT)雖然生成了正確的答案，但是生成的解釋不相關(guān)、不正確或者不完整。這說明 GPT-3 (CoT) 對于生成邏輯一致的長序列還面臨較大的困難。

GPT-3 (CoT) 能生成正確答案、但是生成的解釋不正確的例子。

失敗案例 II

在下面的四個(gè)例子中，GPT-3 (CoT) 不能生成正確的答案，也不能生成正確的解釋。其中的原因有：（1）當(dāng)前的 image captioning 模型還不能準(zhǔn)確地描述示意圖、表格等圖片的語義信息，如果用圖片注釋文本表示圖片，GPT-3 (CoT) 還不能很好地回答包含圖表背景的問題；（2）GPT-3 (CoT) 生成長序列時(shí)，容易出現(xiàn)前后不一致（inconsistent）或不連貫（incoherent）的問題；（3）GPT-3 (CoT) 還不能很好地回答需要特定領(lǐng)域知識的問題。

GPT-3 (CoT) 能生成錯(cuò)誤答案和解釋的例子。

4、結(jié)論與展望

作者提出了首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集 ScienceQA。ScienceQA 包含 21208 道來自中小學(xué)科學(xué)學(xué)科的多選題，涵蓋三大科學(xué)領(lǐng)域和豐富的話題，大部分問題標(biāo)注有詳細(xì)的背景知識和解釋。ScienceQA 可以評估模型在多模態(tài)理解、多步推理和可解釋性方面的能力。作者在 ScienceQA 數(shù)據(jù)集上評估了不同的基準(zhǔn)模型，并提出 GPT-3 (CoT) 模型在生成答案的同時(shí)，可以生成相應(yīng)的背景知識和解釋。大量的實(shí)驗(yàn)分析和案例分析對模型的改進(jìn)提出了有利的啟發(fā)。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1205

瀏覽量
24644
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5493

瀏覽量
120983

原文標(biāo)題：NeurIPS 2022 | 首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集，深度學(xué)習(xí)模型推理有了思維鏈

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

AI大模型與深度學(xué)習(xí)的關(guān)系

人類的學(xué)習(xí)過程，實(shí)現(xiàn)對復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識別。AI大模型則是指模型的參數(shù)數(shù)量巨大，需要龐大的計(jì)算資源來進(jìn)行訓(xùn)練和

發(fā)表于 10-23 15:25 ?378次閱讀

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

人工智能在科學(xué)研究中的核心技術(shù)，包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)構(gòu)成了AI for Science的基石，使得AI能夠處理和分析復(fù)雜的數(shù)

發(fā)表于 10-14 09:16

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

人工智能：科學(xué)研究的加速器第一章清晰地闡述了人工智能作為科學(xué)研究工具的強(qiáng)大功能。通過機(jī)器學(xué)習(xí)、深度學(xué)

發(fā)表于 10-14 09:12

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。大語言

發(fā)表于 08-02 11:03

NVIDIA推出全新深度學(xué)習(xí)框架fVDB

在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。

發(fā)表于 08-01 14:31 ?526次閱讀

深度學(xué)習(xí)模型量化方法

深度學(xué)習(xí)模型量化是一種重要的模型輕量化技術(shù)，旨在通過減少網(wǎng)絡(luò)參數(shù)的比特寬度來減小模型大小和加速推理

發(fā)表于 07-15 11:01 ?457次閱讀

深度學(xué)習(xí)中的模型權(quán)重

在深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中，模型權(quán)重（Weights）作為其核心組成部分，扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石，更是

發(fā)表于 07-04 11:49 ?956次閱讀

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)

發(fā)表于 07-01 16:13 ?1096次閱讀

深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化

等，需要調(diào)整優(yōu)化網(wǎng)絡(luò)中使用的算子或算子組合，這就是深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化。圖優(yōu)化是指對深度學(xué)習(xí)

發(fā)表于 05-16 14:24 ?845次閱讀

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領(lǐng)域的尖端技術(shù)，憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí)，利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然語言文本。這些模型通過訓(xùn)練海量的文本

發(fā)表于 05-04 23:55

【技術(shù)科普】主流的深度學(xué)習(xí)模型有哪些？AI開發(fā)工程師必備！

接近于人工智能。它通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次，對文字、圖像和聲音等數(shù)據(jù)進(jìn)行解釋。深度學(xué)習(xí)的目標(biāo)是

發(fā)表于 01-30 15:26 ?582次閱讀

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

場景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設(shè)備 AI 模型推理的功能，目前已經(jīng)在圖像分類、目標(biāo)識別、人臉識別、文字識別等應(yīng)用中廣泛使用。本文介紹

發(fā)表于 12-14 11:41

多語言的開放式問答數(shù)據(jù)集構(gòu)建過程

從評測能力上來看，由于目前的評測數(shù)據(jù)集主要是利用人類試題及其標(biāo)準(zhǔn)答案進(jìn)行評測，這種評價(jià)方式更偏向?qū)?b class='flag-5'>推理能力的評估，存在評估結(jié)果和模型真實(shí)能力有

發(fā)表于 12-11 11:15 ?583次閱讀

深度學(xué)習(xí)如何訓(xùn)練出好的模型

算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來得到了廣泛的應(yīng)用，從圖像識別、語音識別到自然語言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是，要訓(xùn)練出一個(gè)高效準(zhǔn)確的深度

發(fā)表于 12-07 12:38 ?1060次閱讀

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來趨勢

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個(gè)領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)

發(fā)表于 12-06 15:28 ?1588次閱讀