精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于通用的模型PADing解決三大分割任務

CVer ? 來源:CVer ? 2023-06-26 10:39 ? 次閱讀

1. 研究動機

圖像分割旨在將具有不同語義的像素進行分類進而分組,例如類別或實例,近年來取得飛速的發展。然而,由于深度學習方法是數據驅動的,對大規模標記訓練樣本的強烈需求導致了巨大的挑戰,這些訓練數據需要消耗巨大的時間以及人力成本。為處理上述難題,零樣本學習(Zero-Shot Learning,ZSL)被提出用于分類沒有訓練樣本的新對象,并擴展到分割任務中,例如零樣本語義分割(Zero-Shot Semantic Segmentation, ZSS)和零樣本實例分割(Zero-Shot Instance Segmentation, ZSI)。在此基礎上,本文進一步引入零樣本全景分割(Zero-Shot Panoptic Segmentation, ZSP)并旨在利用語義知識構建一個通用的零樣本全景/語義/實例分割框架,如圖1所示。

本文從為未知類別生成更好的偽特征出發來設計一個通用的模型PADing解決三大分割任務。針對通用分割存在的共性問題:視覺與語言差異以及類別偏見問題,旨在實現對于新類別的全景、實例和語義分割。本文基于零樣本通用分割方法PADing開展定量實驗和定性可視化,研究結果表明,相對于主流方法,該方法在定量實驗結果和定性可視化結果方面表現出色。

本文貢獻主要包括以下四點:

研究了通用的零樣本分割問題,并提出了一種名為基于協作關系對齊和特征解耦學習的基元生成(Primitive generation with collaborative relationship Alignment and feature Disentanglement learning,PADing)的統一框架來處理零樣本語義分割、實例分割和全景分割問題。

提出了一種基元生成器,它使用許多帶有細粒度屬性的學習基元來合成未見過類別的視覺特征,有助于解決偏差問題和域間差距問題。

提出了一種協作關系對齊和特征解耦學習方法,以促進生成器產生更好的合成特征。

提出的方法PADing在零樣本全景分割(ZSP)、零樣本實例分割(ZSI)和零樣本語義分割(ZSS)上取得了新的最先進性能。

2. 方法

2.1 方法概述

本文提出的方法基于協作關系對齊和特征解耦學習的基元生成PADing,其總體架構如圖2所示。首先,Backbone預測了一組與類無關的掩碼及其相應的類向量。接著,基元生成器經過訓練,可以從語義向量中合成類向量。然后,將真實的與合成類向量被分解為與語義相關和與語義無關的特征,并在語義相關的特征上進行關系對齊學習。最后,通過合成未知類別的向量,用實際已知類別的真實向量和未知類別的合成向量進行重新微調訓練分類器。

ac14b2a4-1371-11ee-962d-dac502259ad0.png

圖2: PADing框架結構圖

2.2 基元跨模態生成

由于缺乏未知類別的樣本,分類器不能使用未知類別的特征進行優化。因此,僅使用已知類別的特征進行訓練的分類器往往會將所有對象標記為已知類別,這稱為偏置問題。先前的方法提出利用生成模型來為未知類別合成假的視覺特征。雖然達到了良好的性能,但并未考慮特征粒度的視覺-語義差異。眾所周知,圖像通常包含比語言更豐富的信息。視覺信息提供了對象的非常精細的屬性,而文本信息通常提供抽象和高級別的屬性。這種差異導致了視覺特征和語義特征之間的不一致。為了解決這一挑戰,本文提出了一個基于基元的跨模態生成器,利用大量學習到的屬性基元來構建視覺表示。

先初始化一堆可學習的基元,希望它能學習到細粒度的信息,具體的方法是利用Transformer將語義向量和基元組都輸入到網絡中,首先語義向量先與基元組計算相似度,選擇其與語義向量最為相關型的基元后并加入高斯噪聲。這樣就得到由基元組成的特征,當輸入一個語義向量,能輸出生成相應的視覺向量。最后用MMD損失來拉近這兩個生成與真實的視覺向量特征。基元就像是語言與視覺之間的橋梁,消除兩者之間的域內差異。

ac2decec-1371-11ee-962d-dac502259ad0.png

圖3: 基元跨模態生成的結構示意圖

2.3 語義-視覺關系對齊

眾所周知,類別之間的關系自然上是不同的。例如,有三個對象:蘋果、橙子和奶牛。顯然,蘋果和橙子之間的關系比蘋果和奶牛之間的關系更緊密。語義空間中的類別關系是強大的先驗知識,而類別特定的特征生成并沒有明確利用這種關系。也就是語義空間中關系相近的物體,在視覺空間也應該相近,具有相似的分布。但通常的方法一般直接將語義空間的關系暴力地遷移到視覺空間中。這樣并不能有效的利用語義關系,因為語義和視覺本來就不是相互對齊的空間,視覺特征包含更多信息,而語義特征可以看作是信息的濃縮。也就是視覺特征中多了多余的信息。所以本文考慮到了將視覺特征進行解耦之后再進行關系對齊。解耦的方法也就是分成了語義相關特征與語義無關特征,然后將視覺的語義相關特征再與語義特征對齊。語義無關特征希望其符合正態分布刻畫著沒有具體語義信息的特征。而語義相關特征需要其能通過特征將其分到指定語義信息中。

ac537246-1371-11ee-962d-dac502259ad0.png

圖4: 語義-視覺關系對齊示意圖

3. 實驗

3.1 定量結果實驗

為了驗證本文方法的有效性,在COCO數據上針對全景分割、實例分割、語義分割上進行了對比實驗,見表1、2、3。實驗結果表明,本文方法PADing取得先進的性能。

ac757ee0-1371-11ee-962d-dac502259ad0.png

表1: 零樣本全景分割結果

ac86033c-1371-11ee-962d-dac502259ad0.png

表2: 零樣本語義分割結果

ac9328aa-1371-11ee-962d-dac502259ad0.png

表1: 零樣本實例分割結果

3.2 定性結果實驗

為了探究基元是否可以代表細微的細節元素,圖5可視化不同基元在圖片上的注意力響應。結果表明基元可以代表不同細粒度的屬性,例如在圖中的貓作為例子:關注到了耳朵、尾巴以及輪廓。

aca2f71c-1371-11ee-962d-dac502259ad0.png

圖5: 基元注意力響應圖

為了研究本文合成的未見特征的屬性,并展示本章提出的方法的有效性,圖6使用 t-SNE來展示合成的未知特征的分布情況。(a)由 GMMN 生成器生成的合成特征由于語義-視覺差異而雜亂無序。(b)引入了本文的基元生成器,同一類別的特征變得更加緊密,不同類別的特征則高度可分。此外,在語義相關特征上應用關系對齊約束后,(c),不同類別的特征相距更遠,分布結構更好,這表明結構關系已經嵌入到合成的特征中,合成的未見特征大大增強了較好的區分性。

acbab474-1371-11ee-962d-dac502259ad0.png

圖6: 不同生成器生成未知類別特征分布圖

圖7定性可視化了零樣本通用分割結果的例子,結果表明我們的方法可以取得很好的效果。

acd6b37c-1371-11ee-962d-dac502259ad0.png

圖7: 零樣本通用分割(全景、實例、語義分割)可視化結果

4. 總結

本文針對零樣本通用分割中存在的視覺與語言差異以及類別偏見問題,提出了基元生成、協作關系對齊與特征解耦學習的統一框架(PADing),以實現高效、實用的零樣本通用分割。首先,提出了基元生成器,用于合成未知類別的偽訓練特征。接著,提出了協作的特征解耦和關系對齊學習策略,幫助生成器產生更好的偽未知特征,前者將視覺特征解耦為語義相關部分和語義不相關部分,后者將跨類知識從語義空間傳輸到視覺空間。PADing在三個零樣本分割任務,包括語義、實例和全景分割上進行的廣泛實驗,都取得了最先進的結果。
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3178

    瀏覽量

    48731
  • 生成器
    +關注

    關注

    7

    文章

    313

    瀏覽量

    20982
  • 分割
    +關注

    關注

    0

    文章

    17

    瀏覽量

    11892

原文標題:CVPR 2023 | 浙大&南洋理工提出PADing:零樣本通用分割框架

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    通過任務分割提高嵌入式系統的實時性

    分析長任務對嵌入式系統實時性的影響,在此基礎上提出任務分割是提高嵌入式系統實時性的一種有效途徑; 總結長任務分割的方法, 給出一個通過
    發表于 05-15 15:07 ?4次下載

    基于多級混合模型的圖像分割方法

    本文研究了典型的基于區域的圖像分割方法主動形狀模型(Active Shape Model, ASM)和基于邊緣的圖像分割snake 算法,分析了算法適用條件和各自的優缺點。結合snake 模型
    發表于 07-08 09:58 ?20次下載

    基于改進活動輪廓模型的圖像分割

    基于改進活動輪廓模型的圖像分割_王芳
    發表于 01-07 19:00 ?0次下載

    基于模型球型分割的信息隱藏算法

    對于基于模型信息隱藏算法在幾何攻擊中魯棒性差的問題,提出一種基于模型球型分割的信息隱藏算法。首先,利用主元分析、球面坐標轉換、球型
    發表于 11-28 11:10 ?0次下載

    聚焦語義分割任務,如何用卷積神經網絡處理語義圖像分割

    CNN架構圖像語義分割 圖像分割是根據圖像內容對指定區域進行標記的計算機視覺任務,簡言之就是「這張圖片里有什么,其在圖片中的位置是什么?」本文聚焦于語義分割
    發表于 09-17 15:21 ?556次閱讀

    基于預測算法實現模型的最優在線任務分配

    根據空間眾包任務類型的多樣化特點,構建空間眾包任務分配模型并提出基于預測算法的在線仼務分配策略。在批處理模式下,將最大分任務分配問題轉化為
    發表于 03-22 11:47 ?26次下載
    基于預測算法實現<b class='flag-5'>模型</b>的最優在線<b class='flag-5'>任務</b>分配

    通用航空器運行排班及維修任務的優化模型

    控制目標,文中分析了通用航空器作業的運行與維修計劃特性,結合通航運行控制與調度的實際經驗和工作流程等強約束條件,提岀了兼容運行排班與安全保障的公平性及均勻性策略,建立了通用航空器運行排班及維修任務的優仳
    發表于 04-22 15:36 ?6次下載
    <b class='flag-5'>通用</b>航空器運行排班及維修<b class='flag-5'>任務</b>的優化<b class='flag-5'>模型</b>

    基于遙感數據的海島邊界快速分割模型

    基于遙感數據的海島邊界快速分割模型
    發表于 06-11 15:32 ?4次下載

    在NGC上玩轉圖像分割!NeurIPS頂會模型、智能標注10倍速神器、人像分割SOTA方案、3D醫療影像分割利器應有盡有

    ! 圖像分割是計算機視覺任務之一,基于深度學習的圖像分割技術也發揮日益重要的作用,廣泛應用于工業質檢、自動駕駛、遙感
    的頭像 發表于 11-21 21:05 ?1054次閱讀

    通用視覺GPT時刻來臨?智源推出通用分割模型SegGPT

    無論是 “一觸即通” 還是 “一通百通”,都意味著視覺模型已經 “理解” 了圖像結構。SAM 精細標注能力與 SegGPT 的通用分割標注能力相結合,能把任意圖像從像素陣列解析為視覺結構單元,像生物視覺那樣理解任意場景,
    的頭像 發表于 04-09 09:40 ?1416次閱讀

    SAM分割模型是什么?

    SAM是一類處理圖像分割任務通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM
    的頭像 發表于 05-20 09:30 ?2214次閱讀

    近期分割模型發展情況

    SAM(Segment Anything Model)Meta 的 FAIR 實驗室發布的一種最先進的圖像分割模型,該模型將自然語言處理領域的prompt范式引入計算機視覺領域,可以通過點擊、框選和自動識別
    的頭像 發表于 05-22 16:26 ?842次閱讀
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>發展情況

    中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

    通過將分割?切任務重新劃分為全實例分割和提?指導選擇兩個?任務,?帶實例分割分?的常規 CNN 檢測器以?出50倍的運?速度實現了與SAM?
    的頭像 發表于 06-28 14:33 ?1615次閱讀
    中科院提出FastSAM快速<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>!比Meta原版提速50倍!

    項SOTA!MasQCLIP:開放詞匯通用圖像分割新網絡

    MasQCLIP在開放詞匯實例分割、語義分割和全景分割任務上均實現了SOTA,漲點非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣
    的頭像 發表于 12-12 11:23 ?761次閱讀
    <b class='flag-5'>三</b>項SOTA!MasQCLIP:開放詞匯<b class='flag-5'>通用</b>圖像<b class='flag-5'>分割</b>新網絡

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型,在圖像
    的頭像 發表于 07-09 11:51 ?697次閱讀