亚洲欧洲国产码专区在线观看_日韩精品电影综合区亚洲_国产成人亚洲综合无码精品_久久精品人妻人妻人人玩

作者：wkk

就像人類在做一件事情的時候，可能需要嘗試多次。LLM也是如此！這對于情感分析任務尤其如此，在情感分析任務中，LLM需要深入推理來處理輸入中的復雜語言現象（例如，從句組成、反諷等），單個LLM生成的單回合輸出可能無法提供完美的決策。

今天介紹的論文工作就上面提到的單一LLM框架在進行情感分析時的缺陷展開。

在博士畢業就有10篇ACL一作的師兄指導下是種什么體驗

簡介

LLM的發展為情感分析任務帶來的新的解決方案。有研究人員使用LLM，在上下文學習(in-context learning, ICL)的范式下，僅使用少量的訓練示例就能夠實現與監督學習策略旗鼓相當的性能表現。

缺點：但是單個LLM產生的單輪輸出可能無法提供完美的決策。針對情感分析任務，LLM通常需要闡明推理過程，以解決輸入句子中的復雜語言現象。

創新：為了解決這個問題，本文提出了一種用于情感分析的多LLM協商策略。所提出的策略的核心是生成器-鑒別器框架，其中一個LLM充當生成器做出情感決策，而另一個充當鑒別器，任務是評估第一個LLM生成的輸出的可信度。如下圖所示。

具體步驟：

推理生成器：一種LLM，它遵循結構化的推理鏈，增強生成器的ICL，同時為鑒別器提供評估其有效性的證據和見解；

推導鑒別器的解釋；其他LLM，旨在為其判斷提供評估后的理由；

協商：兩個LLM充當生成器和鑒別器的角色，執行協商直到達成共識。

在情感分析基準上的實驗表明，在所有基準中，所提出的算法始終比ICL基準產生更好的性能，甚至比Twitter和電影評論數據集上的監督基線更出色的性能。

相關工作

情感分析

情感分析是自然語言處理的熱門研究方向之一。其研究方法和思路由早期的“序列模型+分類器”演化到ICL，并逐漸成為一種新的NLP任務范式。研究人員發現在二分類的情感分析中，ICL取得了出色的性能。然而在一些更加復雜的任務(如方面級情感分析)中，ICL的表現不如監督基線模型。

LLM and In-context Learning

LLM訓練來自大規模的未標注語料庫。LLM可以劃分為三類：only Encoder，only Decoder and Encoder-Decoder模型。從GPT3.0開始，LLM通過ICL在許多自然語言處理任務中展現出了出色的性能。

LLM協作

LLM協作涉及多個LLM協同工作以解決給定任務。具體來說，任務被分解為幾個中間任務，每個LLM被分配獨立完成一個中間任務。給定的任務是在對這些中間結果進行集成或匯總后解決的。LLM協作方法可以利用LLM的能力，提高復雜任務的性能，并能夠構建復雜的系統。

LLM情感分析協商

使用兩個LLM充當答案生成器和鑒別器。將生成器和鑒別器之間的交互稱為協商。協商將重復進行，直到達成共識或超過最大協商次數。圖示如下圖所示。

生成器

生成器由一個LLM扮演。通過提示詢問基于ICL范式的答案生成器，旨在生成一個循序漸進的推理鏈，并對測試輸入的情緒極性做出決定。提示由三個元素組成：任務描述、演示和測試輸入。任務描述是用自然語言對任務的描述（如，“請確定測試輸入的整體情感傾向。”）；測試輸入是測試集中的文本輸入（例如，“天空是藍色的”）；演示是從訓練中完成的任務。每一個都包含三個元素：輸入、推理鏈和情感決策。對于每個測試輸入，首先從訓練集中檢索K nearest鄰居作為演示。然后，我們通過提示生成器生成推理鏈，將演示轉換為（輸入、推理過程、情緒決策）三元組。在連接任務描述、演示和測試輸入后，將提示轉發給生成器，生成器將以逐步推理鏈和情感決策作為響應。

鑒別器

鑒別器則是由另一個LLM扮演。在完成答案生成過程后，使用答案鑒別器來判斷生成器所做的決定是否正確，并提供合理的解釋。為了實現這個目標，首先為答案鑒別器構造提示。提示由四個元素組成：任務描述、演示、測試輸入和來自答案生成器的響應。任務描述是一段用自然語言描述任務的文本（例如，“請確定決策是否正確?！埃?。每個演示由六個元素組成：（輸入文本、推理鏈、情感決策、鑒別者態度、鑒別器解釋、鑒別器決策）并且通過提示回答鑒別器提供為什么情緒決定對于輸入文本是正確的解釋來構造。然后使用構造提示詢問鑒別器。答案鑒別器將用文本字符串進行響應，該文本字符串包含表示鑒別器是否同意生成器的態度（即，是，否）、解釋鑒別器為什么同意/不同意生成器的解釋，以及確定測試輸入情緒的鑒別器決定。

Why Two LLMs but Not One?

本文工作為何使用兩個不同的LLM分別扮演生成器和鑒別器的原因：

如果LLM由于錯誤的推理而作為生成器出錯，它更有可能也會犯與鑒別器相同的錯誤，因為來自同一模型的生成器和鑒別器很可能會犯類似的理由；

通過使用兩個獨立的模型，能夠利用這兩個模型的互補能力。

角色轉換

在兩個LLM以協商結束后，要求它們轉換角色并啟動新的協商，其中第二個LLM充當生成器，第一個LLM用作鑒別器。同樣，角色轉換協商也會結束，直到達成共識或超過最大協商次數。當兩次協商達成協議，并且他們的決定相同時，選擇其中一個決定作為最終決定，因為它們是相同的。如果一個協商未能達成共識，而另一個協商達成決定，將從達成共識的協商中選擇一個決定作為最終決定。然而，如果雙方協商達成共識，但雙方的決定不一致，將需要額外的LLM幫助。

引入第三個LLM

如果兩次協商的決定不一致，將引入第三個LLM，并與上述兩個LLM中的每一個進行協商和角色轉換協商。隨后，將得到6個協商結果，并對這些結果進行投票：將最頻繁出現的決策作為輸入測試的情感極性。

實驗

實驗選擇GPT3.5和GPT4.0作為骨干，并且使用以下三種不同的ICL方法。

Vanilla ICL

Self-Negotiation

Negotiation with two LLMs

Dataset and methods

本文在六個數據集上進行實驗，分別為：SST-2，Movie Review，Twitter，Yelp-Binary，Amazon-Binary和IMDB數據集。并選擇了以下Baselines。

supervised methods:DRNN, RoBERTa, XLNet, UDA, BERTweet和EFL。

ICL methods:FLan-UL2, T5, ChatGPT, InstructGPT-3.5, IDS, GPT-4和Self-negotiation。

實驗結果與分析

本文實驗結果如下表所示：

從表中可以看出，與普通ICL相比，使用一個LLM(Self-negotiation)遵循generate-discriminate范式在六個情緒分析數據集上獲得了性能增益：GPT-3.5增益平均+0.9；GPT-4增益平均+1.0 acc。這種現象表明，LLM作為答案鑒別器，可以校正由任務生成器引起的一部分錯誤。

此外，與僅使用一個模型相比，使用兩個不同的LLM作為任務生成器和鑒別器反過來又帶來了顯著的性能改進。在MR、Twitter和IMDB數據集上，使用兩個LLM的協商在準確性方面分別優于Self-negotiation方法+1.7、+2.1和+2.3。出現這種現象的原因是，使用兩個不同的LLM通過協商完成情感分析任務，可以利用對給定輸入的不同理解，釋放兩個LLM的力量，從而做出更準確的決策。

還發現，當引入第三個LLM來解決轉換角色協商之間的分歧時，可以獲得額外的性能提升。這表明第三個LLM可以通過多次協商解決兩個LLM之間的沖突，并提高情緒分析任務的性能。值得注意的是，多模型協商方法在MR數據集上比監督方法RoBERTa Large高出+0.9，并彌合了普通ICL與監督方法之間的差距：在SST-2上實現94.1(+1.4)的準確度；Twitter上92.1(+2.7)；對Yelp-Binary為96.3(+2.5)；Amazon-Binary的87.2(+3.7)；在IMDB數據集上為94.5(+6.0)。

本文在Twitter數據集上的消融實驗結果如下表所示：

結果表明：

利用異構LLM扮演不同的角色可以優化協商的性能。

GPT-4的推理過程比3.5更明智，使前者的決策更有可能達成一致。

在協商過程中，LLM被要求闡明其推理原因過程具有重大的意義。

總結

在本文中，分析了基于單一LLM的情感分析方法的局限性，并引入了一種新的角色轉換的多LLM協商方法，以提高情感分類的準確性和可解釋性。在多個基準上的實驗表明，與傳統的ICL和許多監督方法相比，本文提出的方法具有優勢。未來的工作可以探索優化速度和資源消耗的框架，使基本原則適應其他NLP任務，并設計明確的協商模塊，以識別和減輕單個LLM中存在的偏見和解碼錯誤的影響。

審核編輯：黃飛

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴