欧美日韩成人精品久久久免费看_欧美日韩国产中文精品字幕自在自线_欧美日韩激情无码专区_欧美日韩精品一区二区三区不卡_亚洲精品国产日韩无码av永久免费网

badcase 定義

首先我們定義什么是大模型的badcase，大模型badcase是指在應(yīng)用場(chǎng)景中，出現(xiàn)不符合預(yù)期的答復(fù)。但實(shí)際上不符合預(yù)期的答復(fù)可能多種多樣，原因也各不相同，有沒(méi)有什么統(tǒng)一的思路能處理這些badcase呢？

badcase修復(fù)思路

首先在處理badcase流程上有個(gè)基本的套路，就是發(fā)現(xiàn)問(wèn)題，總結(jié)規(guī)律，評(píng)估影響，設(shè)法修復(fù)。這個(gè)套路如果泛化一點(diǎn)的話(huà)，大概就是解決問(wèn)題的基本思路。

發(fā)現(xiàn)的問(wèn)題對(duì)應(yīng)著大模型的評(píng)估，測(cè)試等?；镜陌l(fā)現(xiàn)問(wèn)題手段有自動(dòng)化和非自動(dòng)化的方式，主要體現(xiàn)在樣本的構(gòu)造過(guò)程中。非自動(dòng)化對(duì)應(yīng)著手工測(cè)試，標(biāo)注錄入，收集用戶(hù)反饋等；自動(dòng)化的方式對(duì)應(yīng)著用戶(hù)模擬器，固定測(cè)試集推斷等。有了樣本之后，我們進(jìn)入了第二步，總結(jié)規(guī)律。

解決badcase問(wèn)題的關(guān)鍵在于通過(guò)歸類(lèi)的方式總結(jié)模式和規(guī)律，然后在badcase分布下解決關(guān)鍵的幾種特定問(wèn)題，比如典型的幻覺(jué)，復(fù)讀機(jī)等。在自己具體的應(yīng)用場(chǎng)景下，往往有不一樣的特殊的要求，比如場(chǎng)景是RAG的應(yīng)用，會(huì)存在檢索知識(shí)不符合預(yù)期等問(wèn)題?？偨Y(jié)規(guī)律的方式上可以靠專(zhuān)家經(jīng)驗(yàn)，對(duì)預(yù)期之外的結(jié)果進(jìn)行歸類(lèi)，并形成明確的可執(zhí)行標(biāo)準(zhǔn)，將標(biāo)準(zhǔn)傳達(dá)給標(biāo)注團(tuán)隊(duì)，進(jìn)行一定規(guī)模的標(biāo)注分析。

評(píng)估影響對(duì)應(yīng)著兩方面，一個(gè)是問(wèn)題發(fā)生的概率，對(duì)應(yīng)的是步驟二中總結(jié)問(wèn)題的分布。另一方面是badcase對(duì)應(yīng)的嚴(yán)重性，badcase概率乘上badcase嚴(yán)重性就是處理問(wèn)題的優(yōu)先級(jí)排序。確定好優(yōu)先級(jí)之后，我們就可以按部就班進(jìn)入第四步，嘗試解決。

修復(fù)大模型的badcase，從解決問(wèn)題的方式分類(lèi)有兩種，一種是徹底解決，從大模型生成的機(jī)理上削減此類(lèi)問(wèn)題發(fā)生的概率。另一種是掩蓋問(wèn)題，不在模型的生成的過(guò)程中根本解決，通過(guò)手段規(guī)避發(fā)生，事后修復(fù)等方法掩蓋問(wèn)題。

重點(diǎn)是第四步，解決對(duì)應(yīng)問(wèn)題的badcase，我們對(duì)這部分進(jìn)行展開(kāi)講解。

實(shí)踐解法

首先是機(jī)理上解決方法，機(jī)理上解決對(duì)應(yīng)著大模型訓(xùn)練的四個(gè)階段，預(yù)訓(xùn)練，sft，對(duì)齊，推斷。

屬于預(yù)訓(xùn)練階段的問(wèn)題大概率是難啃的骨頭，也對(duì)應(yīng)著大模型能力的上限，解決這些問(wèn)題并讓他生成非兜底的預(yù)期答復(fù)，基本等同于基座能力的提升，類(lèi)似gpt3.5提升到gpt4，這也是一種非常通用但是成本非常高，難度非常大的方式。

這類(lèi)問(wèn)題典型的比如復(fù)讀機(jī)，在gpt3.5我們還是比較容易觸發(fā)大模型的復(fù)讀機(jī)行為，但是在4.0幾乎就看不到了。

除了此類(lèi)問(wèn)題，我們?nèi)绻槍?duì)某些問(wèn)題有些特定的badcase并不需要提升基座的基礎(chǔ)能力，如安全方面用戶(hù)引誘回答政治敏感類(lèi)問(wèn)題。那么我們期望的答復(fù)可以簡(jiǎn)化為兜底的拒絕回答，在sft和對(duì)齊階段都有對(duì)應(yīng)的方案。

sft和對(duì)齊階段對(duì)應(yīng)方案最簡(jiǎn)單直觀的方法就是強(qiáng)化訓(xùn)練數(shù)據(jù)，讓大模型“記住“更多的這種類(lèi)型的模式，比如構(gòu)造正確的數(shù)據(jù)進(jìn)行強(qiáng)化訓(xùn)練。對(duì)應(yīng)在對(duì)齊中，就是使用正例構(gòu)造reward model的正樣本，badcase構(gòu)造負(fù)樣本，使用ppo或者dpo等方法強(qiáng)化大模型的認(rèn)知，這種打補(bǔ)丁的方式對(duì)一些模式明顯的問(wèn)題又一定幫助，但復(fù)雜的問(wèn)題還是無(wú)能為力。

在推斷階段可以解決的問(wèn)題，可以分成兩類(lèi)，第一類(lèi)是生成參數(shù)調(diào)整上，第二類(lèi)是通過(guò)prompt層面調(diào)整解決。

生成參數(shù)調(diào)整能一定程度上解決一類(lèi)特定問(wèn)題，典型的是復(fù)讀機(jī)問(wèn)題等。復(fù)讀機(jī)問(wèn)題可以通過(guò)生成函數(shù)的多樣性參數(shù)增加多樣性，重復(fù)懲罰參數(shù)等后置概率調(diào)整手段一定程度上減輕。當(dāng)然，復(fù)讀機(jī)問(wèn)題的本質(zhì)還是模型訓(xùn)練的“不夠好”，最好能在數(shù)據(jù)，訓(xùn)練，對(duì)齊全流程上進(jìn)行優(yōu)化，從根本上解決。

prompt調(diào)整層面對(duì)應(yīng)的典型方案是使用RAG方案對(duì)抗幻覺(jué)，RAG方案就是承認(rèn)基座能力的局限性，也不期望短期通過(guò)提升基座能力，從根本上解決大模型幻覺(jué)問(wèn)題，而是給模型更多的“參考信息”，讓模型有一定的外部知識(shí)儲(chǔ)備。除此之外，RAG還有動(dòng)態(tài)更新，外部知識(shí)增強(qiáng)的能力，在實(shí)際應(yīng)用上有很多價(jià)值。

通過(guò)cot，tool use等構(gòu)建的agent能力也是承認(rèn)大模型的局限性，一定程度在prompt上給更多的過(guò)程提示，工具調(diào)用參考等，期望大模型通過(guò)任務(wù)規(guī)劃，調(diào)用外部工具一定程度上彌補(bǔ)模型能力的不足。

此類(lèi)方案在大家的探索中都已經(jīng)演進(jìn)成為成熟的落地解決方案。

除了通過(guò)各種手段解決badcase，模型直接輸出正確的內(nèi)容之外，還有一種線(xiàn)上更實(shí)用的前后置處理方案，這類(lèi)方案在模型的風(fēng)控和安全上有典型的應(yīng)用。

比如，模型上線(xiàn)的前后置風(fēng)控處理上。前置風(fēng)控主要面向的內(nèi)容是用戶(hù)輸入prompt的檢查上，進(jìn)行相關(guān)的風(fēng)險(xiǎn)評(píng)級(jí)，可以設(shè)定為通過(guò)，拒絕回答，通過(guò)且增加限制的system prompt等幾種典型策略，確保用戶(hù)輸入到大模型的內(nèi)容不會(huì)觸發(fā)大模型產(chǎn)生不合規(guī)，不安全的答復(fù)。

后置處理主要面向的內(nèi)容是大模型的輸出，確保大模型輸出內(nèi)容送達(dá)用戶(hù)端的時(shí)候保證合規(guī)性。最簡(jiǎn)單的方式為檢測(cè)大模型輸出內(nèi)容不合規(guī)的時(shí)候，對(duì)輸出內(nèi)容進(jìn)行整體替換。通常為了保證大模型的交互體驗(yàn)，會(huì)流式送達(dá)用戶(hù)端，因此針對(duì)大模型輸出內(nèi)容的質(zhì)檢有一定的滯后性，這也是我們?cè)谝恍?a target="_blank">產(chǎn)品體驗(yàn)中流式生成一頓后，會(huì)整體覆蓋替換為另一段固定話(huà)術(shù)的原因。

整體來(lái)看，天下沒(méi)有免費(fèi)的午餐，打補(bǔ)丁的方式可以快速解決某類(lèi)特定的問(wèn)題，但是想從根本上提高模型能力，應(yīng)對(duì)各種case，又是一個(gè)難度和成本都非常高的路徑。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模擬器

模擬器

+關(guān)注

關(guān)注
2

文章
870

瀏覽量
43167
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2339

瀏覽量
2498

原文標(biāo)題：大模型如何修復(fù)badcase

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

大語(yǔ)言模型的評(píng)測(cè)是確保模型性能和應(yīng)用適應(yīng)性的關(guān)鍵環(huán)節(jié)。從基座模型到微調(diào)模型，再到行業(yè)模型和整體能力，每個(gè)階段都需要精確的評(píng)測(cè)來(lái)指導(dǎo)

發(fā)表于 05-07 17:12

無(wú)仿真模型問(wèn)題？？

我在調(diào)用LF398采樣保持器時(shí)，沒(méi)有仿真模型，不能進(jìn)行仿真，但是點(diǎn)擊下面選項(xiàng)后可以運(yùn)行仿真，請(qǐng)教：這個(gè)選項(xiàng)是什么意思呢？？不管這個(gè)仿真模型的意思？這個(gè)器件也不起作用？？是這個(gè)意思嗎。。另外對(duì)于沒(méi)有仿真

發(fā)表于 04-24 20:49

為什么沒(méi)有模型呢

by J_J1 is undefinedCircuit has errors ... run abortedSee output file for detailsINFO(ORPROBE-3188): Simulation aborted為什么spice中沒(méi)有模型呢

發(fā)表于 05-08 09:57

我的差分對(duì)模型不對(duì)，怎么更新到PCB呢？

請(qǐng)教各位我的差分對(duì)模型不對(duì) 我主要原理圖中調(diào)整了管腳位置請(qǐng)問(wèn)這種情況怎么更新到PCB呢？我導(dǎo)入網(wǎng)表這個(gè)就是不變我的差分對(duì)模型不對(duì) 我主要原理圖中調(diào)整了管腳位置請(qǐng)問(wèn)這種情況怎么更新到PCB

發(fā)表于 01-29 14:35

3d模型問(wèn)題

錯(cuò)。我修改了wrl中的url連接也不行。請(qǐng)問(wèn)，有貼圖的模型要怎么樣才能正確轉(zhuǎn)成wrl呢？2.ase模型的讀取因?yàn)椴荒苻D(zhuǎn)成wrl，我就又換成了ase格式的，這時(shí)候貼圖不丟失。但是，不知道該如何導(dǎo)入ase

發(fā)表于 11-12 17:14

什么是模型呢？模型給我們帶來(lái)了什么？

什么是模型呢？什么是關(guān)系？怎樣確定一個(gè)模型？模型給我們帶來(lái)了什么？

發(fā)表于 07-02 07:13

模型預(yù)測(cè)控制介紹

是model-based。有人會(huì)問(wèn)，我這個(gè)系統(tǒng)的模型怎么來(lái)呢？我想到兩點(diǎn)解決方法：1. 文獻(xiàn)上去找別人已經(jīng)建好的，公認(rèn)的模型；2. 首先進(jìn)行系統(tǒng)辨識(shí)，再進(jìn)行建模。（難度太大，不建議）下面給上經(jīng)...

發(fā)表于 08-18 06:21

MRAS模型和可調(diào)模型參考

1、簡(jiǎn)寫(xiě)MRAS參考模型和可調(diào)模型參考模型和可調(diào)模型方程：簡(jiǎn)寫(xiě)為如下形式：參考模型：可調(diào)模型：定

發(fā)表于 08-27 06:44

如何利用MATLAB的simulink建立仿真模型呢

如何利用MATLAB的simulink建立仿真模型呢？并與stm32cubemx搭建數(shù)據(jù)鏈呢？

發(fā)表于 11-18 07:17

怎樣去解決pytorch模型一直無(wú)法加載的問(wèn)題呢

rknn的模型轉(zhuǎn)換過(guò)程是如何實(shí)現(xiàn)的？怎樣去解決pytorch模型一直無(wú)法加載的問(wèn)題呢？

發(fā)表于 02-11 06:03

為什么RK3399Pro平臺(tái)YOLOv4 pytorch模型轉(zhuǎn)RKNN模型會(huì)失敗呢

為什么RK3399Pro平臺(tái)YOLOv4 pytorch模型轉(zhuǎn)RKNN模型會(huì)失敗呢？有何解決辦法？

發(fā)表于 02-11 09:29

基于Gauss濾波和Euler修復(fù)模型的SAR圖像去噪

基于Gauss濾波和Euler修復(fù)模型的SAR圖像去噪_王田芳

發(fā)表于 01-07 16:24 ?2次下載

基于深度學(xué)習(xí)的圖像修復(fù)模型及實(shí)驗(yàn)對(duì)比

深度學(xué)習(xí)技術(shù)在解決¨大面積缺失圖像修復(fù)”問(wèn)題時(shí)具有重要作用并帶來(lái)了深遠(yuǎn)影響，文中在簡(jiǎn)要介紹傳統(tǒng)圖像修復(fù)方法的基礎(chǔ)上，重點(diǎn)介紹了基于深度學(xué)習(xí)的修復(fù)模型，主要包括

發(fā)表于 04-08 09:38 ?20次下載

基于改進(jìn)曲率驅(qū)動(dòng)模型的敦煌壁畫(huà)修復(fù)算法

針對(duì)敦煌壁畫(huà)裂紋形狀復(fù)雜、劃痕不規(guī)則，采用CDD曲率擴(kuò)散算法修復(fù)時(shí)易出現(xiàn)假邊緣、階梯效應(yīng)以及修復(fù)時(shí)間長(zhǎng)的問(wèn)題，提岀一種改進(jìn)曲率驅(qū)動(dòng)模型的自適應(yīng)敦煌壁畫(huà)修復(fù)算法。首先對(duì)CυD算法中梯度消

發(fā)表于 06-07 11:11 ?6次下載

是德科技如何賦能醫(yī)療AI大模型應(yīng)用呢？

自從ChatGPT爆火以來(lái)，各種AI大模型紛紛亮相，如百度科技的文心一言，科大訊飛的訊飛星火，華為的盤(pán)古AI大模型，騰訊的混元AI大模型、阿里哪吒大模型等。

發(fā)表于 02-28 09:35 ?2327次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

什么是大模型的badcase？如何修復(fù)大模型的badcase呢？

評(píng)論

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

無(wú)仿真模型問(wèn)題？？

為什么沒(méi)有模型呢

我的差分對(duì)模型不對(duì)，怎么更新到PCB呢？

3d模型問(wèn)題

什么是模型呢？模型給我們帶來(lái)了什么？

模型預(yù)測(cè)控制介紹

MRAS模型和可調(diào)模型參考

如何利用MATLAB的simulink建立仿真模型呢

怎樣去解決pytorch模型一直無(wú)法加載的問(wèn)題呢

為什么RK3399Pro平臺(tái)YOLOv4 pytorch模型轉(zhuǎn)RKNN模型會(huì)失敗呢

基于Gauss濾波和Euler修復(fù)模型的SAR圖像去噪

基于深度學(xué)習(xí)的圖像修復(fù)模型及實(shí)驗(yàn)對(duì)比

基于改進(jìn)曲率驅(qū)動(dòng)模型的敦煌壁畫(huà)修復(fù)算法

是德科技如何賦能醫(yī)療AI大模型應(yīng)用呢？

搜索歷史

什么是大模型的badcase？如何修復(fù)大模型的badcase呢？

評(píng)論

什么是大模型的badcase？如何修復(fù)大模型的badcase呢？