精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何對挑選出的demonstration示例進行排序

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-23 14:51 ? 次閱讀

1 簡介?????????

在demonstration selection的方法中,其中有部分方法也考慮到demonstration內部示例之間的順序,雖然有的論文里提及他們的ICL方法對于demonstration內部示例順序不敏感,但這些實驗中考慮到的排列順序還是不夠全面,從而導致某些結論比較片面。毋庸置疑,如何對挑選出的demonstration示例進行排序是demonstration organization的重要部分。對于同樣樣本組成的demonstration,好的樣本順序可以讓LLM有接近于SOTA的性能,而糟糕的樣本順序會讓LLM的表現接近于隨機猜測。就跟打牌一樣,再好的手牌,不合理安排規劃出牌順序,很容易就會一敗涂地。

2 Demonstration ordering

為了更好的研究demonstration樣本排列的影響,需要考慮在不同模型規模,樣本數量以及不同模型上的表現。研究發現,隨著模型規模的增加,demonstration不同樣本排列的效果的方差有所縮小,但是依舊差距明顯,即demonstration好的排列跟壞的排列之間的效果距離很大(見Subj數據集)。增加樣本數量,依舊不能顯著降低這其中的方差。另外,在A模型上表現良好的demonstration排列,在其他的模型效果往往不能得到保證,也就是好的demonstration排列并不能遷移到更多模型中去。

bbc32e6c-f885-11ed-90ce-dac502259ad0.png

圖1:不同模型尺寸下demonstration ordering的影響

bbc859d2-f885-11ed-90ce-dac502259ad0.png

圖2: demonstration ordering在不同模型見的遷移能力

關于demonstration的排列,最簡單的方式就是按照跟當前問題x的關系來排序。由于in-context learning中模型的輸入都是demonstration+x(當前問題),在demonstration中越靠后的示例距離當前的問題x的距離就越近,于是可以通過示例跟當前問題x的相似程度來對示例進行排序,跟當前問題x越相似的示例就放在demonstration越靠后的位置。

目前確實存在若干種demonstration ordering的方法,但是最大的問題是在缺乏監督驗證集的情況下自動選擇更優的demonstration排列。于是就有研究提出自動構建探測集(probing set),具體流程如下 a)給定一個訓練集S={xi, yi},i=1…n,利用一個模版轉換函數(將樣本數據轉換成某種自然語言)獲得一個自然語言數據集S’={ti}, ti=input:xi,type:yi。 b)定義n個訓練樣本的所有排列函數(也就是demonstration的所有排列),F={fm},cm=fm(S’),m=1,…,n!。每個cm都是n個t組成的一種排列。 c)對于每一個候選排列cm,利用語言模型生成后續的序列,生成新的樣本,對生成結果解析后得到模型生成測試集D。

bbcf413e-f885-11ed-90ce-dac502259ad0.png

圖3: probing set構造流程

有了模型生成數據集后,研究者就提出了兩種用于選擇最佳demonstration排列的方法Global entropy(GlobalE)以及Local entropy(LocalE)。對于每個demonstration排列cm,在給定demonstration排列cm跟當前問題x的條件下,會預測所有標簽y的概率,將概率最大的標簽作為當前問題x的預測結果,從而計算整個探測集中所有預測標簽分布的交叉熵作為排列cm的GlobalE得分。而LocalE得分則是計算每個探測集數據的預測交叉熵的平均值。簡單的理解就是,如果在探測集上預測的標簽分布相對平衡,那么對應的得分就比較高,作者就認為是比較好的demonstration排列。

通過這兩種方式選擇的demonstration排列,效果上得到明顯提升,并且這種方法還是比較魯棒的,加入更多不好的demonstration排列只會讓效果越來越差。

bbd709d2-f885-11ed-90ce-dac502259ad0.png

圖4: 不同demonstration策略的效果對比

bbddef22-f885-11ed-90ce-dac502259ad0.png

圖5:基于demonstration ordering選擇的demonstration排列的的平均效果

3 總結????????

Demonstration ordering目前看來還是一個值得進一步研究的問題,即便模型規模達到一定程度,依舊對此敏感。考慮到demonstration排列的數量跟訓練樣本庫之間是一個指數關系,而目前看到絕大多數Demonstration ordering都是針對每個排列進行的,即便可以自動構建探測集,計算成本還是比較高的,很難考慮所有demonstration排列,目前除了根據與當前問題的相似度進行排序以及上一篇文章提到的馬爾可夫決策過程可以處理,其他的方法都只停留在理論層面,很難在實際中大范圍使用。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3029

    瀏覽量

    48344
  • icl
    icl
    +關注

    關注

    0

    文章

    28

    瀏覽量

    17202
  • 數據集
    +關注

    關注

    4

    文章

    1197

    瀏覽量

    24526

原文標題:In-context系列之demonstration ordering

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    求大神幫忙,感激不盡

    如何把TXT格式的數據錄入LabVIEW中,并將某一列挑選出來用于循環計算,感激不盡
    發表于 05-09 12:47

    復合材料敲擊檢測儀數據分析與處理系統

    敲擊探頭敲擊材料,信號通過信號采集卡輸入經過觸發與門限,記錄各點的時間并挑選出有損傷的點(損傷處波形寬度會變化),求教各位大神怎么挑選和記錄[img=110,0][/img]
    發表于 05-21 15:36

    數據的比較和處理怎么完成

    敲擊探頭敲擊材料,信號通過信號采集卡輸入經過觸發與門限,記錄各點的時間并挑選出有損傷的點(損傷處波形寬度會變化),求教各位大神怎么挑選和記錄
    發表于 05-21 15:50

    3C認證檢測中EMC問題實例分析(129頁PPT精品)

    3C認證檢測中EMC問題實例分析(129頁PPT)PPT中案例均為挑選出來的典型類。。回復后下載。[hide][/hide]
    發表于 08-24 11:46

    怎樣在采集到的音頻信號生成的波形圖中挑選出幅值最大的五條??

    本帖最后由 zj121212 于 2015-12-15 16:57 編輯 如標題,怎樣在采集到的音頻信號生成的波形圖中挑選出幅值最大的五條并要求寫入文本,文本中包括這五條的幅值和對應頻率??謝謝啦
    發表于 12-13 15:01

    復習c/c++之排序算法

    最小的排在前面3. 依次挑選出剩下的數據中最小,進行排序 在VS 2013中編寫調試的程序程序代碼如下:#include #include #include #include using
    發表于 10-12 09:06

    CAD如何繪制房間排序

    `我們在使用CAD制圖軟件繪制圖形的時候,對于浩辰CAD建筑軟件來說可以直接對房間進行排序,今天的CAD教程,小編就來給CAD制圖初學入門者介紹一下關于浩辰建筑CAD如何繪制房間排序?建筑設計→房間
    發表于 02-26 17:48

    如何挑選出好的場效應晶體管?

    如何挑選出好的場效應晶體管?晶體三極管選用技巧有哪些?
    發表于 06-18 06:50

    STM32F429的時鐘走向

    上圖從左往右看,就是整個 STM32F429的時鐘走向。這里,我們挑選出 13個重要的地方進行介紹(圖 5.2.2.1 中標出的1~13)。1, 這是進入 PLL之前的時鐘分頻系數(M),取值范圍
    發表于 08-09 06:25

    開關電源工作頻率是依據什么挑選

    癥”。我來給你診斷一下病因,一是因為自己不夠清楚自己的實在需求,二是一些性能參數不夠了解,沒有比較專業的指引。電源工程師在挑選主控IC時,因為廠家很多,參數挑選也多種多樣,然后很難挑選出合適自己運用的電源IC。
    發表于 10-28 06:50

    如何挑選出最佳的LDO

    本文所述的概念將使設計人員能夠根據系統要求挑選最佳的LDO。
    發表于 10-29 06:26

    谷歌Play Music大更新!用深度學習挑選出最應景的BGM

    下雨天和什么歌最配?去健身房聽什么歌能讓你在跑步機上堅持半小時以上?對于酷愛音樂的選擇困難癥來說,在不同的環境里挑選什么樣的播放列表實在是件太燒腦的事兒。而現在,谷歌要用人工智能來幫你做出選擇。
    發表于 11-16 11:18 ?731次閱讀

    精選10個Python開源項目

    過去一個月里,我們對近 250 個 Python 開源項目進行了排名,并挑選出熱度前 10 的項目。
    的頭像 發表于 11-12 09:47 ?6233次閱讀

    如何從13個Kaggle比賽中挑選出的最好的Kaggle kernel

    。機器學習和圖像分類也不例外,工程師們可以通過參加像Kaggle這樣的競賽來展示最佳實踐。在這篇文章中,我將給你很多資源來學習,聚焦于從13個Kaggle比賽中挑選出的最好的Kaggle kernel。 這些比賽是: Intel Image Classification:https://w
    的頭像 發表于 06-27 09:26 ?1935次閱讀

    挑選開關電源的工作頻率是依據什么?

    癥”。我來給你診斷一下病因,一是因為自己不夠清楚自己的實在需求,二是一些性能參數不夠了解,沒有比較專業的指引。電源工程師在挑選主控IC時,因為廠家很多,參數挑選也多種多樣,然后很難挑選出合適自己運用的電源IC。
    發表于 10-21 14:51 ?8次下載
    <b class='flag-5'>挑選</b>開關電源的工作頻率是依據什么?