badcase 定義
首先我們定義什么是大模型的badcase,大模型badcase是指在應(yīng)用場(chǎng)景中,出現(xiàn)不符合預(yù)期的答復(fù)。但實(shí)際上不符合預(yù)期的答復(fù)可能多種多樣,原因也各不相同,有沒(méi)有什么統(tǒng)一的思路能處理這些badcase呢?
badcase修復(fù)思路
首先在處理badcase流程上有個(gè)基本的套路,就是發(fā)現(xiàn)問(wèn)題,總結(jié)規(guī)律,評(píng)估影響,設(shè)法修復(fù)。這個(gè)套路如果泛化一點(diǎn)的話(huà),大概就是解決問(wèn)題的基本思路。
發(fā)現(xiàn)的問(wèn)題對(duì)應(yīng)著大模型的評(píng)估,測(cè)試等?;镜陌l(fā)現(xiàn)問(wèn)題手段有自動(dòng)化和非自動(dòng)化的方式,主要體現(xiàn)在樣本的構(gòu)造過(guò)程中。非自動(dòng)化對(duì)應(yīng)著手工測(cè)試,標(biāo)注錄入,收集用戶(hù)反饋等;自動(dòng)化的方式對(duì)應(yīng)著用戶(hù)模擬器,固定測(cè)試集推斷等。有了樣本之后,我們進(jìn)入了第二步,總結(jié)規(guī)律。
解決badcase問(wèn)題的關(guān)鍵在于通過(guò)歸類(lèi)的方式總結(jié)模式和規(guī)律,然后在badcase分布下解決關(guān)鍵的幾種特定問(wèn)題,比如典型的幻覺(jué),復(fù)讀機(jī)等。在自己具體的應(yīng)用場(chǎng)景下,往往有不一樣的特殊的要求,比如場(chǎng)景是RAG的應(yīng)用,會(huì)存在檢索知識(shí)不符合預(yù)期等問(wèn)題??偨Y(jié)規(guī)律的方式上可以靠專(zhuān)家經(jīng)驗(yàn),對(duì)預(yù)期之外的結(jié)果進(jìn)行歸類(lèi),并形成明確的可執(zhí)行標(biāo)準(zhǔn),將標(biāo)準(zhǔn)傳達(dá)給標(biāo)注團(tuán)隊(duì),進(jìn)行一定規(guī)模的標(biāo)注分析。
評(píng)估影響對(duì)應(yīng)著兩方面,一個(gè)是問(wèn)題發(fā)生的概率,對(duì)應(yīng)的是步驟二中總結(jié)問(wèn)題的分布。另一方面是badcase對(duì)應(yīng)的嚴(yán)重性,badcase概率乘上badcase嚴(yán)重性就是處理問(wèn)題的優(yōu)先級(jí)排序。確定好優(yōu)先級(jí)之后,我們就可以按部就班進(jìn)入第四步,嘗試解決。
修復(fù)大模型的badcase,從解決問(wèn)題的方式分類(lèi)有兩種,一種是徹底解決,從大模型生成的機(jī)理上削減此類(lèi)問(wèn)題發(fā)生的概率。另一種是掩蓋問(wèn)題,不在模型的生成的過(guò)程中根本解決,通過(guò)手段規(guī)避發(fā)生,事后修復(fù)等方法掩蓋問(wèn)題。
重點(diǎn)是第四步,解決對(duì)應(yīng)問(wèn)題的badcase,我們對(duì)這部分進(jìn)行展開(kāi)講解。
實(shí)踐解法
首先是機(jī)理上解決方法,機(jī)理上解決對(duì)應(yīng)著大模型訓(xùn)練的四個(gè)階段,預(yù)訓(xùn)練,sft,對(duì)齊,推斷。
屬于預(yù)訓(xùn)練階段的問(wèn)題大概率是難啃的骨頭,也對(duì)應(yīng)著大模型能力的上限,解決這些問(wèn)題并讓他生成非兜底的預(yù)期答復(fù),基本等同于基座能力的提升,類(lèi)似gpt3.5提升到gpt4,這也是一種非常通用但是成本非常高,難度非常大的方式。
這類(lèi)問(wèn)題典型的比如復(fù)讀機(jī),在gpt3.5我們還是比較容易觸發(fā)大模型的復(fù)讀機(jī)行為,但是在4.0幾乎就看不到了。
除了此類(lèi)問(wèn)題,我們?nèi)绻槍?duì)某些問(wèn)題有些特定的badcase并不需要提升基座的基礎(chǔ)能力,如安全方面用戶(hù)引誘回答政治敏感類(lèi)問(wèn)題。那么我們期望的答復(fù)可以簡(jiǎn)化為兜底的拒絕回答,在sft和對(duì)齊階段都有對(duì)應(yīng)的方案。
sft和對(duì)齊階段對(duì)應(yīng)方案最簡(jiǎn)單直觀的方法就是強(qiáng)化訓(xùn)練數(shù)據(jù),讓大模型“記住“更多的這種類(lèi)型的模式,比如構(gòu)造正確的數(shù)據(jù)進(jìn)行強(qiáng)化訓(xùn)練。對(duì)應(yīng)在對(duì)齊中,就是使用正例構(gòu)造reward model的正樣本,badcase構(gòu)造負(fù)樣本,使用ppo或者dpo等方法強(qiáng)化大模型的認(rèn)知,這種打補(bǔ)丁的方式對(duì)一些模式明顯的問(wèn)題又一定幫助,但復(fù)雜的問(wèn)題還是無(wú)能為力。
在推斷階段可以解決的問(wèn)題,可以分成兩類(lèi),第一類(lèi)是生成參數(shù)調(diào)整上,第二類(lèi)是通過(guò)prompt層面調(diào)整解決。
生成參數(shù)調(diào)整能一定程度上解決一類(lèi)特定問(wèn)題,典型的是復(fù)讀機(jī)問(wèn)題等。復(fù)讀機(jī)問(wèn)題可以通過(guò)生成函數(shù)的多樣性參數(shù)增加多樣性,重復(fù)懲罰參數(shù)等后置概率調(diào)整手段一定程度上減輕。當(dāng)然,復(fù)讀機(jī)問(wèn)題的本質(zhì)還是模型訓(xùn)練的“不夠好”,最好能在數(shù)據(jù),訓(xùn)練,對(duì)齊全流程上進(jìn)行優(yōu)化,從根本上解決。
prompt調(diào)整層面對(duì)應(yīng)的典型方案是使用RAG方案對(duì)抗幻覺(jué),RAG方案就是承認(rèn)基座能力的局限性,也不期望短期通過(guò)提升基座能力,從根本上解決大模型幻覺(jué)問(wèn)題,而是給模型更多的“參考信息”,讓模型有一定的外部知識(shí)儲(chǔ)備。除此之外,RAG還有動(dòng)態(tài)更新,外部知識(shí)增強(qiáng)的能力,在實(shí)際應(yīng)用上有很多價(jià)值。
通過(guò)cot,tool use等構(gòu)建的agent能力也是承認(rèn)大模型的局限性,一定程度在prompt上給更多的過(guò)程提示,工具調(diào)用參考等,期望大模型通過(guò)任務(wù)規(guī)劃,調(diào)用外部工具一定程度上彌補(bǔ)模型能力的不足。
此類(lèi)方案在大家的探索中都已經(jīng)演進(jìn)成為成熟的落地解決方案。
除了通過(guò)各種手段解決badcase,模型直接輸出正確的內(nèi)容之外,還有一種線(xiàn)上更實(shí)用的前后置處理方案,這類(lèi)方案在模型的風(fēng)控和安全上有典型的應(yīng)用。
比如,模型上線(xiàn)的前后置風(fēng)控處理上。前置風(fēng)控主要面向的內(nèi)容是用戶(hù)輸入prompt的檢查上,進(jìn)行相關(guān)的風(fēng)險(xiǎn)評(píng)級(jí),可以設(shè)定為通過(guò),拒絕回答,通過(guò)且增加限制的system prompt等幾種典型策略,確保用戶(hù)輸入到大模型的內(nèi)容不會(huì)觸發(fā)大模型產(chǎn)生不合規(guī),不安全的答復(fù)。
后置處理主要面向的內(nèi)容是大模型的輸出,確保大模型輸出內(nèi)容送達(dá)用戶(hù)端的時(shí)候保證合規(guī)性。最簡(jiǎn)單的方式為檢測(cè)大模型輸出內(nèi)容不合規(guī)的時(shí)候,對(duì)輸出內(nèi)容進(jìn)行整體替換。通常為了保證大模型的交互體驗(yàn),會(huì)流式送達(dá)用戶(hù)端,因此針對(duì)大模型輸出內(nèi)容的質(zhì)檢有一定的滯后性,這也是我們?cè)谝恍?a target="_blank">產(chǎn)品體驗(yàn)中流式生成一頓后,會(huì)整體覆蓋替換為另一段固定話(huà)術(shù)的原因。
整體來(lái)看,天下沒(méi)有免費(fèi)的午餐,打補(bǔ)丁的方式可以快速解決某類(lèi)特定的問(wèn)題,但是想從根本上提高模型能力,應(yīng)對(duì)各種case,又是一個(gè)難度和成本都非常高的路徑。
審核編輯:劉清
-
模擬器
+關(guān)注
關(guān)注
2文章
870瀏覽量
43167 -
大模型
+關(guān)注
關(guān)注
2文章
2339瀏覽量
2498
原文標(biāo)題:大模型如何修復(fù)badcase
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論