精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺析MAK基于開放世界取樣提升不平衡對比學習

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:Garfield ? 2022-12-02 09:46 ? 次閱讀

3. 引言

眾所周知,對比學習現在已經成功地在無監督任務中成功應用,通過學習到泛化能力較強的visual representations。然而,如果要使用大量未標記數據進行預訓練訓練卻顯得有些奢侈。由于是進行無監督的對比學習,需要很長的時間收斂,所以對比學習比傳統的全監督學習需要更大的模型和更長時間的訓練。隨著數據量的增加,它也需要更多的計算資源。而計算資源有限的條件下,wild unbalanced distribution的數據很可能會抑制對相關特征的學習。

采樣的外部未標注數據通常呈現隱式長尾分布(因為真實世界的場景中,數據就呈現長尾分布,從真實世界中收集數據顯然也會服從長尾分布),加入學習的樣本很可能跟原始任務沒任何關聯,這些噪聲就會比較大程度地影響表征的學習和收斂。本文就旨在設計一種算法來解決上述情景帶來的問題。

論文的問題設定還是比較特別的,首先具體介紹一下:假設我們從一個相對較小的(“種子”)未標記的訓練數據集開始,其中數據分布可能高度biased,但未指定相應的分布。我們的目標是在給定的采樣樣本限制下,從一些外源數據檢索額外信息,以增強針對目標分布(種子集)的自監督representation learning。

通過對檢索到的unlabeled samples進行訓練,本文的目標是學習“stronger and fairer”的representation。

我們可能從一個bias的sample set開始訓練,由于不知道相應的標注,傳統用來處理不平衡數據集的方法,如偽標簽、重采樣或重加權不適用。

采用預訓練的backbone訓練不平衡的seed data。

在缺乏label信息的情況下,探索open world中廣泛存在的irrelevant outlier samples檢測

因此,我們的目標是尋求一個有原則的開放世界無標簽數據采樣策略。論文的出發點非常好概括,就是保證三個采樣的原則其核心:

tailness:保證采樣的樣本頻率盡可能是原任務中的長尾數據,保證采樣規則盡可能服從原有的分布;

proximity:保證采樣的樣本盡可能是原任務是相關的,過濾掉分布之外的樣本,解決OOD問題。

diversity:讓采樣的數據類型更加豐富,體現一定的差異性,這樣能比較好的提升泛化性和魯棒性。

3. 方法

c3a19244-717c-11ed-8abf-dac502259ad0.png

如上圖,論文的方法其實很清晰,是分多階段的。首先定義一個原始的訓練集,以圖中情景為例,在原始數據中,狗屬于Head class,豹屬于Tail class,所以在采樣時不考慮狗的樣本,保證tailness;接著排除掉跟原始數據高度相似的樣本,保證diversity;最后刪掉跟識別中出現的unrelated的樣本,使得采樣具有proximity。

3.1 Tailness

初步:在對比學習中,通過強制一個樣本v與另一個正樣本相似而與負樣本不同來學習representation。在各種流行的對比學習框架中,SimCLR是最簡單容易實現,也可以產生較好的表現。它利用相同數據的兩個增強的image作為正對,而同一批中的所有其他增強樣本被視為負樣本。SimCLR的形式是:

c3d47e70-717c-11ed-8abf-dac502259ad0.png

下面來分析下上述的loss function。其實作者主要的目的就是完成對tail classes的特殊處理。而怎么完成呢?其實作者就定義在對比學習框架下hard examples(難樣本)可以視為tail的樣本。雖然沒有更多理論上的支撐,但某種程度上來講,也是很好理解的,因為在不平衡的數據集上,尾部類別更難分類,所以說有更高的誤分率。而對于hard samples,論文直接把contrastive loss最大的樣本作為hard sample。

c3e68eb2-717c-11ed-8abf-dac502259ad0.png

但由于對比損失受數據增強方式的影響,而通常增強方式都是采用隨機性,造成噪聲過大。因此作者引入了empirical contrastive loss expectation,也就是基于期望來計算SimCLR,從而來來判斷hard samples。

3.2 Proximity

c3fdeea4-717c-11ed-8abf-dac502259ad0.png

很直觀,這個loss就在拉近原始數據集和外部采樣數據集特征之間的期望,期望越小,表示未標注的open set和原任務越相關。

3.3 Diversity

c40af5b8-717c-11ed-8abf-dac502259ad0.png

為了追求采樣的多樣性,利用上述策略避免采樣的樣本跟原始樣本過于相似。

最后的loss如下所示:

c42028b6-717c-11ed-8abf-dac502259ad0.png

算法概括如下:

c441c8f4-717c-11ed-8abf-dac502259ad0.png

4. 實驗

實驗采用ImageNet-LT作為數據集:

c4629ce6-717c-11ed-8abf-dac502259ad0.png

可以大發現,在原始數據集上通過對外部數據集采樣進行提升,可以有效地改進模型處理open world中長尾效應的性能。

c4758644-717c-11ed-8abf-dac502259ad0.png

笑容實驗來看,其實Tailness和Proximity比較重要,而多樣性這種約束提升有限。個人覺得主要的原因還是,實際上還是在利用有限的close set來輔助訓練,模型本身的diversity也沒有很豐富,所以加入這個優化目標作用有限。

c48947b0-717c-11ed-8abf-dac502259ad0.png

利用t_SNE可視化的效果如上圖所示。

5. 結論

開放世界的樣本數據往往呈現長尾分布,進一步破壞了對比學習的平衡性。論文通過提出一個統一的采樣框架MAK來解決這個重要的問題。它通過抽樣額外的數據顯著地提高了對比學習的平衡性和準確性。論文提出的方法有助于在實際應用中提高長尾數據的平衡性。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Mak
    Mak
    +關注

    關注

    0

    文章

    2

    瀏覽量

    7146

原文標題:MAK 基于開放世界取樣提升不平衡對比學習

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何理解矢量測量中“平衡”與“不平衡

    在矢量測試中,經常需要測量信號的不平衡性,會遇到相關的幾個名詞:Balance(平衡),Unbalance(不平衡/非平衡)和Imbalance(
    發表于 03-29 10:51 ?2742次閱讀
    如何理解矢量測量中“<b class='flag-5'>平衡</b>”與“<b class='flag-5'>不平衡</b>

    三相不平衡治理裝置的應用優勢

    電力電氣行業的“新寵兒”。三相不平衡未來需求將爆發增漲三相不平衡治理需求是當前電能質量提升比較大的市場,很多企業看到了這個市場,面對這個機會,原有產品卻無法滿足相應需求,大批企業通過引入三相
    發表于 02-18 13:06

    對地不平衡測試電路

    對地不平衡測試電路
    發表于 03-04 20:40 ?883次閱讀
    對地<b class='flag-5'>不平衡</b>測試電路

    不平衡型AFC電路

    不平衡型AFC電路 如圖不平衡型AFC電路,它由鑒相器,比較鋸齒波形成電路,
    發表于 08-05 23:52 ?1689次閱讀
    <b class='flag-5'>不平衡</b>型AFC電路

    簡易平衡不平衡變換器

    簡易平衡不平衡變換器 可用廢棄
    發表于 09-07 16:48 ?1941次閱讀
    簡易<b class='flag-5'>平衡</b><b class='flag-5'>不平衡</b>變換器

    模擬信號平衡輸入/不平衡輸出電路

    模擬信號平衡輸入/不平衡輸出電路
    發表于 10-11 10:43 ?5856次閱讀
    模擬信號<b class='flag-5'>平衡</b>輸入/<b class='flag-5'>不平衡</b>輸出電路

    基于主動學習不平衡多分類AdaBoost改進算法

    針對不平衡分類中小類樣本識別率低問題,提出一種基于主動學習不平衡多分類AdaBoost改進算法。首先,利用主動學習方法通過多次迭代抽樣,選取少量的、對分類器最有價值的樣本作為訓練集;然
    發表于 11-30 17:12 ?3次下載

    三相電壓不平衡產生原因_三相電壓不平衡的治理措施

    電力系統中三相電壓不平衡產生的主要原因是負荷的不平衡和系統阻抗的不平衡。其中負荷的不平衡是造成三相電壓不平衡的主要原因,比較明顯的單相負荷由
    的頭像 發表于 10-28 16:43 ?2.5w次閱讀

    電機轉子不平衡對電機質量的影響大嗎

    轉子不平衡對電機質量的影響有哪些?小編將分析轉子機械不平衡產生的振動和噪聲問題。
    發表于 08-30 10:51 ?815次閱讀

    三相不平衡是什么意思?三相電壓不平衡怎么處理?

    三相不平衡是什么意思?三相電壓不平衡怎么處理?? 三相不平衡是指三相電壓或電流的幅度或相位不同,這會導致電力系統的不穩定、效率低下、設備壽命短等問題。在三相電力系統中,三相電壓應該相等且相位差為
    的頭像 發表于 09-25 17:36 ?3787次閱讀

    三相電壓不平衡是什么原因造成的?三相不平衡會跳閘嗎?

    三相電壓不平衡是什么原因造成的?三相不平衡會跳閘嗎?三相不平衡度允許范圍? 三相電壓不平衡是指三相電源電壓之間的差異,通常是由電源系統出現故障或不良設計引起的。
    的頭像 發表于 09-25 17:36 ?6969次閱讀

    I/Q不平衡的來源 IQ信道之間的不平衡會造成什么影響呢?

    I/Q不平衡的來源 IQ信道之間的不平衡會造成什么影響呢? I/Q不平衡是指在I(即“In-phase”)和Q(即“Quadrature-phase”)信道的輸出之間存在不平衡的狀態。
    的頭像 發表于 10-31 09:34 ?1088次閱讀

    三相電壓不平衡對電路的影響

    三相電壓不平衡對電路的影響 三相電壓不平衡是指三相電網中三個相電壓的幅值和相位不一致,造成電壓波形不對稱的情況。常見的三相電壓不平衡情況包括電壓幅值不平衡、相位
    的頭像 發表于 12-11 17:16 ?2448次閱讀

    三相不平衡最佳解決辦法 三相不平衡多少范圍內是合理的

    三相不平衡最佳解決辦法 在電力系統中,三相不平衡是指三個相之間電壓或電流不相等的現象。當三相不平衡的情況發生時,可能會導致線路過載、設備壽命縮短、電能損耗增加等問題。因此,解決三相不平衡
    的頭像 發表于 02-06 10:07 ?3009次閱讀

    三相不平衡調節裝置 三相不平衡會造成什么后果

    三相不平衡調節裝置是一種用于解決三相電力系統中三相電壓或電流不平衡問題的設備。在本文中,我們將探討三相不平衡的原因、后果和解決方案,并詳細介紹三相不平衡調節裝置的工作原理和應用。 引言
    的頭像 發表于 02-06 10:14 ?1772次閱讀