精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于單一LLM的情感分析方法的局限性

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-11-23 11:14 ? 次閱讀

作者:wkk

就像人類在做一件事情的時候,可能需要嘗試多次。LLM也是如此!這對于情感分析任務尤其如此,在情感分析任務中,LLM需要深入推理來處理輸入中的復雜語言現象(例如,從句組成、反諷等),單個LLM生成的單回合輸出可能無法提供完美的決策。

今天介紹的論文工作就上面提到的單一LLM框架在進行情感分析時的缺陷展開。

13af5e14-7eac-11ee-939d-92fbcf53809c.png

在博士畢業就有10篇ACL一作的師兄指導下是種什么體驗

簡介

LLM的發展為情感分析任務帶來的新的解決方案。有研究人員使用LLM,在上下文學習(in-context learning, ICL)的范式下,僅使用少量的訓練示例就能夠實現與監督學習策略旗鼓相當的性能表現。

缺點:但是單個LLM產生的單輪輸出可能無法提供完美的決策。針對情感分析任務,LLM通常需要闡明推理過程,以解決輸入句子中的復雜語言現象。

創新:為了解決這個問題,本文提出了一種用于情感分析的多LLM協商策略。所提出的策略的核心是生成器-鑒別器框架,其中一個LLM充當生成器做出情感決策,而另一個充當鑒別器,任務是評估第一個LLM生成的輸出的可信度。如下圖所示。

13dfc45a-7eac-11ee-939d-92fbcf53809c.png

具體步驟

推理生成器:一種LLM,它遵循結構化的推理鏈,增強生成器的ICL,同時為鑒別器提供評估其有效性的證據和見解;

推導鑒別器的解釋;其他LLM,旨在為其判斷提供評估后的理由;

協商:兩個LLM充當生成器和鑒別器的角色,執行協商直到達成共識。

在情感分析基準上的實驗表明,在所有基準中,所提出的算法始終比ICL基準產生更好的性能,甚至比Twitter和電影評論數據集上的監督基線更出色的性能。

相關工作

情感分析

情感分析是自然語言處理的熱門研究方向之一。其研究方法和思路由早期的“序列模型+分類器”演化到ICL,并逐漸成為一種新的NLP任務范式。研究人員發現在二分類的情感分析中,ICL取得了出色的性能。然而在一些更加復雜的任務(如方面級情感分析)中,ICL的表現不如監督基線模型。

LLM and In-context Learning

LLM訓練來自大規模的未標注語料庫。LLM可以劃分為三類:only Encoder,only Decoder and Encoder-Decoder模型。從GPT3.0開始,LLM通過ICL在許多自然語言處理任務中展現出了出色的性能。

LLM協作

LLM協作涉及多個LLM協同工作以解決給定任務。具體來說,任務被分解為幾個中間任務,每個LLM被分配獨立完成一個中間任務。給定的任務是在對這些中間結果進行集成或匯總后解決的。LLM協作方法可以利用LLM的能力,提高復雜任務的性能,并能夠構建復雜的系統。

LLM情感分析協商

使用兩個LLM充當答案生成器和鑒別器。將生成器和鑒別器之間的交互稱為協商。協商將重復進行,直到達成共識或超過最大協商次數。圖示如下圖所示。

13fe98f8-7eac-11ee-939d-92fbcf53809c.png

生成器

生成器由一個LLM扮演。通過提示詢問基于ICL范式的答案生成器,旨在生成一個循序漸進的推理鏈,并對測試輸入的情緒極性做出決定。提示由三個元素組成:任務描述、演示測試輸入。任務描述是用自然語言對任務的描述(如,“請確定測試輸入的整體情感傾向。”);測試輸入是測試集中的文本輸入(例如,“天空是藍色的”);演示是從訓練中完成的任務。每一個都包含三個元素:輸入、推理鏈和情感決策。對于每個測試輸入,首先從訓練集中檢索K nearest鄰居作為演示。然后,我們通過提示生成器生成推理鏈,將演示轉換為(輸入、推理過程、情緒決策)三元組。在連接任務描述、演示和測試輸入后,將提示轉發給生成器,生成器將以逐步推理鏈和情感決策作為響應。

鑒別器

鑒別器則是由另一個LLM扮演。在完成答案生成過程后,使用答案鑒別器來判斷生成器所做的決定是否正確,并提供合理的解釋。為了實現這個目標,首先為答案鑒別器構造提示。提示由四個元素組成:任務描述、演示、測試輸入來自答案生成器的響應。任務描述是一段用自然語言描述任務的文本(例如,“請確定決策是否正確?!埃?。每個演示由六個元素組成:(輸入文本、推理鏈、情感決策、鑒別者態度、鑒別器解釋、鑒別器決策)并且通過提示回答鑒別器提供為什么情緒決定對于輸入文本是正確的解釋來構造。然后使用構造提示詢問鑒別器。答案鑒別器將用文本字符串進行響應,該文本字符串包含表示鑒別器是否同意生成器的態度(即,是,否)、解釋鑒別器為什么同意/不同意生成器的解釋,以及確定測試輸入情緒的鑒別器決定。

Why Two LLMs but Not One?

本文工作為何使用兩個不同的LLM分別扮演生成器和鑒別器的原因:

如果LLM由于錯誤的推理而作為生成器出錯,它更有可能也會犯與鑒別器相同的錯誤,因為來自同一模型的生成器和鑒別器很可能會犯類似的理由;

通過使用兩個獨立的模型,能夠利用這兩個模型的互補能力。

角色轉換

在兩個LLM以協商結束后,要求它們轉換角色并啟動新的協商,其中第二個LLM充當生成器,第一個LLM用作鑒別器。同樣,角色轉換協商也會結束,直到達成共識或超過最大協商次數。當兩次協商達成協議,并且他們的決定相同時,選擇其中一個決定作為最終決定,因為它們是相同的。如果一個協商未能達成共識,而另一個協商達成決定,將從達成共識的協商中選擇一個決定作為最終決定。然而,如果雙方協商達成共識,但雙方的決定不一致,將需要額外的LLM幫助。

引入第三個LLM

如果兩次協商的決定不一致,將引入第三個LLM,并與上述兩個LLM中的每一個進行協商和角色轉換協商。隨后,將得到6個協商結果,并對這些結果進行投票:將最頻繁出現的決策作為輸入測試的情感極性。

實驗

實驗選擇GPT3.5和GPT4.0作為骨干,并且使用以下三種不同的ICL方法。

Vanilla ICL

Self-Negotiation

Negotiation with two LLMs

Dataset and methods

本文在六個數據集上進行實驗,分別為:SST-2,Movie ReviewTwitter,Yelp-Binary,Amazon-BinaryIMDB數據集。并選擇了以下Baselines。

supervised methods:DRNN, RoBERTa, XLNet, UDA, BERTweetEFL。

ICL methods:FLan-UL2, T5, ChatGPT, InstructGPT-3.5, IDS, GPT-4Self-negotiation

實驗結果與分析

本文實驗結果如下表所示:

142449cc-7eac-11ee-939d-92fbcf53809c.png

從表中可以看出,與普通ICL相比,使用一個LLM(Self-negotiation)遵循generate-discriminate范式在六個情緒分析數據集上獲得了性能增益:GPT-3.5增益平均+0.9;GPT-4增益平均+1.0 acc。這種現象表明,LLM作為答案鑒別器,可以校正由任務生成器引起的一部分錯誤。

此外,與僅使用一個模型相比,使用兩個不同的LLM作為任務生成器和鑒別器反過來又帶來了顯著的性能改進。在MR、Twitter和IMDB數據集上,使用兩個LLM的協商在準確性方面分別優于Self-negotiation方法+1.7、+2.1和+2.3。出現這種現象的原因是,使用兩個不同的LLM通過協商完成情感分析任務,可以利用對給定輸入的不同理解,釋放兩個LLM的力量,從而做出更準確的決策。

還發現,當引入第三個LLM來解決轉換角色協商之間的分歧時,可以獲得額外的性能提升。這表明第三個LLM可以通過多次協商解決兩個LLM之間的沖突,并提高情緒分析任務的性能。值得注意的是,多模型協商方法在MR數據集上比監督方法RoBERTa Large高出+0.9,并彌合了普通ICL與監督方法之間的差距:在SST-2上實現94.1(+1.4)的準確度;Twitter上92.1(+2.7);對Yelp-Binary為96.3(+2.5);Amazon-Binary的87.2(+3.7);在IMDB數據集上為94.5(+6.0)。

本文在Twitter數據集上的消融實驗結果如下表所示:

144d9bb0-7eac-11ee-939d-92fbcf53809c.png

1454f568-7eac-11ee-939d-92fbcf53809c.png

14601ce0-7eac-11ee-939d-92fbcf53809c.png

結果表明:

利用異構LLM扮演不同的角色可以優化協商的性能。

GPT-4的推理過程比3.5更明智,使前者的決策更有可能達成一致。

在協商過程中,LLM被要求闡明其推理原因過程具有重大的意義。

總結

在本文中,分析了基于單一LLM的情感分析方法的局限性,并引入了一種新的角色轉換的多LLM協商方法,以提高情感分類的準確性和可解釋性。在多個基準上的實驗表明,與傳統的ICL和許多監督方法相比,本文提出的方法具有優勢。未來的工作可以探索優化速度和資源消耗的框架,使基本原則適應其他NLP任務,并設計明確的協商模塊,以識別和減輕單個LLM中存在的偏見和解碼錯誤的影響。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 生成器
    +關注

    關注

    7

    文章

    313

    瀏覽量

    20982
  • 自然語言處理

    關注

    1

    文章

    614

    瀏覽量

    13513
  • 半監督學習
    +關注

    關注

    0

    文章

    20

    瀏覽量

    2514
  • LLM
    LLM
    +關注

    關注

    0

    文章

    276

    瀏覽量

    306

原文標題:情感分析與LLMs角色扮演

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    34063的局限性

    由34063構成的開關電源雖然價格便宜、應用廣泛,但它的局限性也是顯而易見的。主要有以下幾點:(1)效率偏低。對于降壓應用,效率般只有70%左右,輸出電壓低時效率更低。這就使它不能用在某些對功耗
    發表于 06-12 10:41

    FPGA的優勢與局限性

    。減少板級走線,有效降低布局布線難度。當然了,在很多情況下,FPGA不是萬能的。FPGA技術也存在著些固有的局限性。從以下這些方面看,選擇FPGA技術來實現產品的開發設計有時并不是明智的決定?!裨谀承?/div>
    發表于 12-20 10:07

    無線網絡有什么局限性?

    以無線方式發送數據的方法有很多。從遙控無鑰匙進入(RKE)和車庫開門裝置(GDO)等簡單命令和控制方案到WLAN,您有很多種選擇。本文主要探討各種可用的無線網絡選項和必須在應用過程中解決的局限性,旨在為設計師提供些選擇工業應用
    發表于 08-23 06:13

    MySQL優化之查詢性能優化之查詢優化器的局限性與提示

    MySQL優化三:查詢性能優化之查詢優化器的局限性與提示
    發表于 06-02 06:34

    超聲波液位計的局限性及安裝要求

    簡單方便,且性能可靠、維護量小、不受液體的粘度和密度影響等優點,在水處理、化工、石油、冶金等行業應用廣泛。不過,超聲波液位計也并非完美無缺,其也有自身所無法克服的局限性,使之在應用中受到定的限制。那么
    發表于 06-19 11:49

    運算放大器的精度局限性是什么

    日益普遍。本文將介紹運算放大器的精度局限性,以及如何選擇為數不多的有可能達到 1 ppm 精度的運算放大器。另外,我們還將介紹些針對現有運算放大器局限性的應用改善。
    發表于 03-11 06:10

    柵漏電流噪聲有哪幾種模型?這幾種模型有什么局限性?

    常見的柵漏電流噪聲模型有哪幾種,這幾種模型的特性是什么?有什么局限性?
    發表于 04-09 06:44

    貼片機轉塔式結構的優缺點是什么?有什么局限性?

    貼片機轉塔式結構的優缺點是什么貼片機轉塔式結構的局限性有哪些?
    發表于 04-25 06:12

    基于FPGA的神經網絡的性能評估及局限性

    FPGA實現神經網絡關鍵問題分析基于FPGA的ANN實現方法基于FPGA的神經網絡的性能評估及局限性
    發表于 04-30 06:58

    RS-485自動換向電路設計的局限性

    RS-485自動換向電路設計的局限性,RS-485
    發表于 12-21 14:45 ?0次下載

    紅外顯微鏡用于測量高性能微波GaN HEMT器件和MMIC的有什么局限性

    本文討論了紅外顯微鏡用于測量高性能微波GaN HEMT器件和MMIC的局限性。它還將描述Qorvo的熱分析集成方法,它利用建模、經驗測量(包括顯微拉曼熱成像)和有限元分析(FEA)。該
    發表于 08-02 11:29 ?11次下載
    紅外顯微鏡用于測量高性能微波GaN HEMT器件和MMIC的有什么<b class='flag-5'>局限性</b>?

    WSN中LEACH協議局限性分析與改進

    WSN中LEACH協議局限性分析與改進(電源技術答案)-WSN中LEACH協議局限性分析與改進? ? ? ? ? ? ? ?
    發表于 09-15 11:12 ?3次下載
    WSN中LEACH協議<b class='flag-5'>局限性</b>的<b class='flag-5'>分析</b>與改進

    千兆光模塊存在哪些局限性

    千兆光模塊,作為網絡設備中常用的個配件,在實際應用中,由于其存在定的局限性,可能會對網絡傳輸速度、信號接收等方面產生影響。本文將就千兆光模塊的局限性進行探討,并提供
    的頭像 發表于 10-16 12:10 ?556次閱讀

    碳化硅二極管的優點和局限性分析

    碳化硅二極管的優點和局限性分析 碳化硅(SiC)二極管是種新型半導體材料,在高頻電源電子裝置中得到了廣泛應用。與傳統的硅(Si)材料相比,碳化硅二極管具有許多優點和局限性。下面是對碳
    的頭像 發表于 12-21 11:31 ?2297次閱讀

    WDM技術的缺點和局限性

    和效率。然而,盡管WDM技術具有諸多優勢,但它也存在些缺點和局限性。以下是對WDM技術缺點和局限性的詳細分析
    的頭像 發表于 08-09 11:42 ?634次閱讀