国产韩日欧美在线,欧美国产成人在线免费,亚洲一日国产日韩欧美,久久欧美日韩国产

研究背景

近年來，隨著大語言模型（Large Language Model, LLM）在自然語言處理任務(wù)上展現(xiàn)出優(yōu)秀表現(xiàn)，大模型的安全問題應(yīng)該得到重視。近期的工作表明[1][2][3]。LLM在生成過成中有概率輸出包含毒性的文本，包括冒犯的，充滿仇恨的，以及有偏見的內(nèi)容，這對用戶的使用是有風(fēng)險的。毒性是LLM的一種固有屬性，因為在訓(xùn)練過程中，LLM不可避免會學(xué)習(xí)到一些有毒的內(nèi)容。誠然，對大模型的解毒（detoxification）是困難的，因為不僅需要語言模型保留原始的生成能力，還需要模型避免生成一些“特定的”內(nèi)容。同時，傳統(tǒng)的解毒方法通常對模型生成的內(nèi)容進行編輯[4][5]，或?qū)δＰ驮黾右欢ǖ钠肹6][7]，這些方法往往把解毒任務(wù)當(dāng)成一種特定的下游任務(wù)看待，損害了大語言模型最本質(zhì)的能力——生成能力，導(dǎo)致解毒過后模型生成的結(jié)果不盡人意。

本篇工作將解毒任務(wù)和傳統(tǒng)的生成任務(wù)（例如開放域生成）通過思維鏈結(jié)合到一起，使得模型可以根據(jù)不同的情景選擇是否解毒以及解毒的粒度，同時，模型會根據(jù)解毒過后的文本進行生成，盡可能保證輸出高質(zhì)量的內(nèi)容。

相關(guān)工作

我們首先對目前大模型的解毒工作進行分類。

圖1：已有解毒方法分類

考慮到強化學(xué)習(xí)[10]訓(xùn)練大語言模型的困難性，我們從語言建模的角度對大語言模型進行解毒。已有工作將解毒視為單一的任務(wù)，可以實現(xiàn)從有毒內(nèi)容到無毒內(nèi)容的直接轉(zhuǎn)換。根據(jù)方法不同，具體可以分為后訓(xùn)練、修改生成概率分布、風(fēng)格轉(zhuǎn)換。

然而前期結(jié)果結(jié)果顯示這種一步到位的方法會影響模型的生成質(zhì)量，比如影響生成內(nèi)容的流暢性和一致性[8]。我們分析這是由于解毒目標和模型的生成目標之間存在不一致性，即語言模型會沿著有毒的提示繼續(xù)生成而解毒方法又迫使模型朝著相反的方向生成（防止模型生成有毒內(nèi)容），從而導(dǎo)致生成的內(nèi)容要么和前文不一致，要么流暢性降低（圖2 d）。所以我們從語言模型生成范式的角度思考，首先將輸入進行手動解毒，然后利用解毒后的提示引導(dǎo)模型生成，實驗結(jié)果表明這種方法不僅能提升解毒的效果，還能使得生成的文本質(zhì)量提升。

圖2：初期實驗

可惜的是，盡管上述的做法理論可行，目前的大語言模型缺失對有毒引導(dǎo)文本的解毒能力，包括毒性檢測和風(fēng)格轉(zhuǎn)換的能力（表1）。

表1：大模型解毒任務(wù)表現(xiàn)

方法技術(shù)

基于此上述的發(fā)現(xiàn)，我們首先對解毒任務(wù)進行分解，使其與其他生成任務(wù)更好的結(jié)合在一起，并且設(shè)計了如下（圖3）的思維鏈（又稱為Detox-Chain）去激發(fā)模型的在解毒過程中的不同能力，包括輸入端毒性檢測、風(fēng)格轉(zhuǎn)換、根據(jù)解毒文本繼續(xù)生成的能力。我們提供了兩種構(gòu)造數(shù)據(jù)的方法，分別是利用多個開源模型進行生成和利用prompt engineering引導(dǎo)ChatGPT生成。

圖3：Detox-Chain概述

3.1 毒性片段檢測

使用現(xiàn)成的API能讓我們很方便地檢測文本中的有毒內(nèi)容。然而，當(dāng)我們處理大量數(shù)據(jù)時，使用這些API可能會花費更多的時間（需要對原始數(shù)據(jù)進行切片處理操作）。因此，我們訓(xùn)練了一個 Span-CNN 模型（圖4）可以自動評估文本中每個n-gram的毒性。其中，全局特征提取器獲取句子級的毒性分數(shù)，1-D CNN 模型[9]以及一個局部特征提取器可以獲取片段級的毒性分數(shù) 。訓(xùn)練時，給定一條包含n個片段的文本，以及卷積核，損失函數(shù)可以定義為：

對于標簽和，我們均使用Perspective API計算毒性分數(shù)。同時，為了解決訓(xùn)練時有毒片段過少和無毒片段過多導(dǎo)致的數(shù)據(jù)不均衡的問題，我們通過數(shù)據(jù)增強以及提高有毒片段的懲罰系數(shù)來提升片段毒性預(yù)測的準確度。

最終的片段級毒性分數(shù)s可以表示為

圖4：Span-CNN模型結(jié)構(gòu)

3.2 毒性片段重構(gòu)

為了解毒prompt中的有毒部分，我們引入毒性片段重構(gòu)，具體可以分為Span Masking和Span Fulfilling兩個步驟。

（1）Span Masking：使用特殊標簽“”替換檢測出的有毒片段。

（2）Span Fulfilling：使用現(xiàn)成的mask-filling模型，將mask后的prompt還原為無毒的prompt，盡可能地保留原來的語義信息。由于mask-filling模型可能會生成有毒的內(nèi)容，我們采取迭代生成（圖5）的方法確保生成的內(nèi)容無毒。

圖5：迭代生成過程

3.3 文本續(xù)寫

我們使用現(xiàn)成的模型對改寫后的無毒prompt進行續(xù)寫操作，并采用了迭代生成的方法確保續(xù)寫的內(nèi)容無毒。為了避免上述步驟替換過多原始內(nèi)容而導(dǎo)致的語義不一致性，我們根據(jù)相似度和困惑度分數(shù)過濾生成的結(jié)果。具體來說，我們認為那些相似度分數(shù)較低或者困惑度分數(shù)較高的輸出是不相關(guān)內(nèi)容，使用特殊文本替代模型輸出。

3.4 ChatGPT構(gòu)造解毒思維鏈

此外，我們還使用OpenAI的模型[10]。在上述每步中，通過設(shè)計prompt引導(dǎo)模型生成對應(yīng)步驟的內(nèi)容，具體構(gòu)建過程可以參考我們的論文。

實驗結(jié)果

我們選取RealToxicityPrompts（RTP）和WrittingPrompt（WP）的測試集來評估模型的表現(xiàn)（表2，3），在Expected Maximum Toxicity Probability，SIM，Edit和PPL上均取得SOAT的表現(xiàn)。

表2：RealToxicityPrompts數(shù)據(jù)集上各模型表現(xiàn)

表3：WrittingPrompts數(shù)據(jù)集上各模型表現(xiàn)

4.1 模型參數(shù)量的影響

相比模型大小，模型的毒性生成概率與訓(xùn)練數(shù)據(jù)更相關(guān)，這也與之前工作的結(jié)論一致（cite）。此外，通過研究7B、13B和33B的LLaMA模型的表現(xiàn)，我們發(fā)現(xiàn)更大的模型受到有毒prompt的誘導(dǎo)時傾向于生成更有毒的內(nèi)容。

4.2 指令微調(diào)大模型的改善

Alpaca-7B模型最大毒性分數(shù)（Expected Maximum Toxicity）和毒性生成概率（Toxicity Probability）都比LLaMA-7B更小，說明指令微調(diào)后的模型解毒能力更強[11]。

4.3 不同模型結(jié)構(gòu)的泛化

除了像GPT2和LLaMA這種decoder-only的模型，我們發(fā)現(xiàn)Detox-Chain也能泛化到encoder-decoder的結(jié)構(gòu)，比如Flan-T5，而且Flan-T5-XL在毒性生成概率（Toxicity probability）的提升最大，分別在RTP數(shù)據(jù)集上達到了90.44%和在WP數(shù)據(jù)集上達到了72.17%。

實驗分析

我們設(shè)計了消融實驗比較了用開源模型（Pipeline）制作的解毒數(shù)據(jù)集和ChatGPT制作的數(shù)據(jù)集訓(xùn)練的模型表現(xiàn)之間的差異。此外，我們還展示了推理階段每個中間步驟的成功率。具體細節(jié)可以參考原文。

5.1 思維鏈數(shù)據(jù)集構(gòu)造之間的比較

表4：Pipeline數(shù)據(jù)和ChatGPT數(shù)據(jù)分別訓(xùn)練的模型表現(xiàn)對比

使用ChatGPT數(shù)據(jù)訓(xùn)練模型的生成內(nèi)容展現(xiàn)出更低的平均毒性分數(shù)。另一方面，Pipeline數(shù)據(jù)訓(xùn)練的模型則表現(xiàn)出更低的毒性生成的概率以及更高的語義相似性、多樣性和流暢性。這可能是因為在文本續(xù)寫步驟中續(xù)寫部分是大模型自身生成的而不是由ChatGPT生成的[6]。

5.2 中間推理步驟分析

表5：推理階段每步的成功率

在Toxic Detection部分，Pipeline數(shù)據(jù)和ChatGPT數(shù)據(jù)訓(xùn)練的模型在識別有毒內(nèi)容方面同樣有效，但在識別有毒片段時，Pipeline數(shù)據(jù)訓(xùn)練的模型能夠更加全面地定位有毒片段。對于Span Masking任務(wù)，更高的編輯距離和更低的毒性說明pipeline數(shù)據(jù)進行mask時比ChatGPT數(shù)據(jù)更加激進。在Span Fulfilling和Continual Generation任務(wù)中，pipeline數(shù)據(jù)訓(xùn)練的模型能夠生成更相似的內(nèi)容，而ChatGPT數(shù)據(jù)訓(xùn)練的模型生成的毒性更小。可能的原因是ChatGPT經(jīng)過強化學(xué)習(xí)（RLHF）[10]減小毒性，因此生成的數(shù)據(jù)毒性更小。

總結(jié)與展望

在這項工作中，我們發(fā)現(xiàn)單步解毒方法雖然有效地降低了模型的毒性，但由于自回歸生成方式的固有缺陷，它們卻降低了大語言模型的生成能力。這是因為模型傾向于沿著有毒的提示生成內(nèi)容，而解毒方法則朝著相反的方向發(fā)展。為了解決這個問題，我們將解毒過程分解為有序的子步驟，模型首先解毒輸入，然后根據(jù)無毒提示持續(xù)生成內(nèi)容。我們還通過將這些子步驟與Detox-Chain相連，校準了LLM的強大推理能力，使模型能夠逐步解毒。通過使用Detox-Chain進行訓(xùn)練，六個不同架構(gòu)的強大開源大語言模型（從1B到33B不等）都表現(xiàn)出顯著的改進。我們的研究和實驗還表明，LLM在提高其毒性檢測能力和對有毒提示作出適當(dāng)反應(yīng)方面還有很大的提升空間。我們堅信，使大語言模型能夠生成安全內(nèi)容至關(guān)重要，朝著這個目標還有很長的路要走。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

API

API

+關(guān)注

關(guān)注
2

文章
1485

瀏覽量
61814
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
506

瀏覽量
10245
強化學(xué)習(xí)

強化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
266

瀏覽量
11213

原文標題：為應(yīng)對輸出風(fēng)險文本的情況，提出一種針對LLMs簡單有效的思維鏈解毒方法

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一種簡單的可控硅好壞判斷方法

發(fā)表于 07-28 08:17 ?6277次閱讀

一種簡單的OpenHarmony環(huán)境搭建方法

本文介紹一種簡單的OpenHarmony環(huán)境搭建方法。

發(fā)表于 03-14 13:58 ?3389次閱讀

<b class='flag-5'>一種</b><b class='flag-5'>簡單</b>的OpenHarmony環(huán)境搭建<b class='flag-5'>方法</b>

一種簡單的逆變器輸出直流分量消除方法

進行實驗,驗證了該方法的有效性。實驗結(jié)果表明,該方案產(chǎn)生的基準正弦波質(zhì)量高,直流分量消除效果明顯。一種簡單的逆變器輸出直流分量消除方法[hi

發(fā)表于 12-27 11:20

一種簡單有效的限流保護電路的設(shè)計

發(fā)表于 08-20 16:00

編程是一種思維方式，而代碼是一種表現(xiàn)形式，硬件只不過是對思維方式的物理體現(xiàn)

編程是一種思維方式，而代碼是一種表現(xiàn)形式，硬件只不過是對思維方式的物理體現(xiàn)關(guān)于這句話，你怎么看？

發(fā)表于 08-25 13:18

介紹一種簡單的數(shù)據(jù)解析方法

JSON。? 下面我將介紹一種簡單的數(shù)據(jù)解析方法，通過編寫函數(shù)，將字符串解析取得目標數(shù)據(jù)。解析字符型數(shù)據(jù)函數(shù)原型/*** @brief從一段字符串中解析期望的字符串* @parampB

發(fā)表于 02-28 06:15

介紹一種解決overconfidence簡潔但有效的方法

會在模型部署期間帶來一些問題。所以我們希望能夠設(shè)計一個有效的智能模型，使其能夠識別出 OOD 數(shù)據(jù)，對其進行一系列的干預(yù)。本文介紹一種非常有

發(fā)表于 08-24 15:11

一種基于事件的Web服務(wù)組合方法

為獲得一種既易于實現(xiàn)又能滿足用戶多樣化需求的服務(wù)組合的有效途徑,提出一種基于事件的服務(wù)組合方法.首先定義了一種基于ECA(event-con

發(fā)表于 12-30 10:31 ?15次下載

一種基于迷宮算法的有效FPGA布線方法

在本篇論文中，我們介紹了在標準對稱陣列（隔離島狀）現(xiàn)場可編程邏輯陣列結(jié)構(gòu)下的一種基于迷宮布線算法的新型有效布線方法， Pathfinder。實驗結(jié)果顯示，相比普通的迷宮布線法

發(fā)表于 08-06 14:36 ?16次下載

一種簡單有效的限流保護電路

一種簡單有效的限流保護電路摘要：提出了一種簡單有效

發(fā)表于 07-11 10:52 ?3359次閱讀

一種有效的視頻序列拼接方法

針對視頻序列拼接中容易造成拼接耗時較長、拼接效果不佳等問題，提出一種有效的視頻序列拼接方法，首先，利用時域檢測窗口對視頻序列進行關(guān)鍵幀的提取，其次，利用相鄰關(guān)鍵幀

發(fā)表于 09-03 16:24 ?30次下載

針對SVPWM死區(qū)問題一種新的控制方法

針對SVPWM死區(qū)問題一種新的控制方法。

發(fā)表于 03-30 14:40 ?11次下載

一種有效的異態(tài)漢字識別方法

復(fù)雜圖像文字識別是基于內(nèi)容圖像檢索的一個重要研究方向．針對圖像中的文字可能存在傾斜、光照不均、噪音干擾和邊緣柔化等多種異態(tài)問題，提出一種有效的異態(tài)漢字識別

發(fā)表于 02-24 15:53 ?0次下載

一種從患者血液樣本中有效分離異質(zhì)性CTCs的簡單、廣譜的方法

針對上述挑戰(zhàn)，中國科學(xué)院蘇州納米所裴仁軍研究團隊利用單寧酸（TA）功能化磁性納米顆粒（MNPs），建立了一種從患者血液樣本中有效分離異質(zhì)性CTCs的簡單、廣譜的

發(fā)表于 06-11 09:19 ?2088次閱讀

一種簡單高效配置FPGA的方法

本文描述了一種簡單高效配置FPGA的方法，該方法利用微處理器從串行外圍接口（SPI）閃存配置FPGA設(shè)備。這種方法減少了硬件組件、板空間和成

發(fā)表于 10-24 14:57 ?370次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

一種針對LLMs簡單有效的思維鏈解毒方法

評論

一種簡單的可控硅好壞判斷方法

一種簡單的OpenHarmony環(huán)境搭建方法

一種簡單的逆變器輸出直流分量消除方法

一種簡單有效的限流保護電路的設(shè)計

編程是一種思維方式，而代碼是一種表現(xiàn)形式，硬件只不過是對思維方式的物理體現(xiàn)

介紹一種簡單的數(shù)據(jù)解析方法

介紹一種解決overconfidence簡潔但有效的方法

一種基于事件的Web服務(wù)組合方法

一種基于迷宮算法的有效FPGA布線方法

一種簡單有效的限流保護電路

一種有效的視頻序列拼接方法

針對SVPWM死區(qū)問題一種新的控制方法

一種有效的異態(tài)漢字識別方法

一種從患者血液樣本中有效分離異質(zhì)性CTCs的簡單、廣譜的方法

一種簡單高效配置FPGA的方法