導讀本文圍繞非完全監督下的圖像分割方法最新綜述,講述用于解決“如何縮小弱監督信號與密集預測之間的差距”的四種通用的啟發式先驗。
前言
論文鏈接:https://arxiv.org/abs/2207.01223團隊介紹:https://shenwei1231.github.io/上海交通大學人工智能研究院楊小康、沈為團隊聯合華為田奇團隊共同發布了非完全監督(即標簽有限)下的圖像分割方法最新綜述 “A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction”。該工作由人工智能研究院沈為副教授主持,全文包含170余篇文獻,全面總結了不同類型的監督標簽在不同分割任務上的進展情況:包括無監督、弱監督、半監督、部分監督、域遷移等多種設置下的語義、實例、全景分割問題,并以統一視角--“如何縮小弱監督信號與密集預測之間的差距”進行分析,總結出用于解決這個問題的四種通用的啟發式先驗:① cross-label constraint (跨標簽約束);② cross-pixel similarity(跨像素相似性);③ cross-view consistency(跨視圖一致性);④ cross-image relation(跨圖像關系)。
▲不同模態的數據會被分別經過“連續向量路徑”和“離散詞路徑”,分別為連續向量和離散詞向量作為其的特征;最終的特征為二者的向量和。
背景與問題
圖像分割是計算機視覺領域最古老最廣泛的研究任務之一。它的目標是對給定的圖像來生成密集的預測,根據預測的類型決定具體的分割方向,例如:給每個像素分配一個預定義的類別標簽為語義分割;為每個像素預測一個對象實例標簽為實例分割;或前兩者的預測結果的組合為全景分割。無論哪種具體分割方向,其都能使語義相似的像素組成有意義的概念,如動態對象(人、貓、球等)和靜態物體(道路、天空、水等)。在過去的近十年里,深度學習的出現極大地帶動了圖像分割領域的研究進展,特別是隨著全卷積網絡(FCN)的發展,諸如DeepLab系列,Mask RCNN系列等方法憑借卷積網絡強大的密集特征表征能力以及獨特的設計在圖像分割領域大放異彩,取得了非常好的分割效果。然而這些方法也存在著一個共同的缺點,即往往分割效果與具有可用的密集標注的圖像的數量是成正比的,對像素級的標簽的需求量非常大。但是人為地給每一張圖像做像素級的標注卻非常地耗費時間與精力,這不僅限制了深度學習的進一步發展,而且限制了圖像分割在真實工業場景中的應用。近年來,設計基于非完全監督信號來減少對密集標簽依賴的分割方法越來越受到關注,非完全監督下的圖像分割方法的數量呈爆發式增長,由于缺少對這些方法進行系統地歸納總結,這給研究者學習跟進最新研究進展帶來不小的挑戰。 然而,目前僅有個別幾篇相關的調研論文,且它們僅僅關注于一個特定的分割任務,并僅包含個別類型的弱標簽,無法做到全面的總結。
本文工作
本文研究人員旨在提供一個面向于非完全監督下圖像分割領域的全面的綜述,分析語義分割、實例分割、全景分割三類使用弱監督信號(標簽)來解決分割問題的方法之間的統一性與關聯性。為了達到該目的,研究人員需要想好兩個問題:
如何對這些方法建立合適分類與關聯?
如何從統一的角度總結這些方法所使用的策略?
研究人員注意到,弱標簽的類型是設計非完全監督圖像分割方法的關鍵,決定了可用信息的多少,因此試圖從弱標簽信號差異的角度來回答上述兩個問題。針對第一個問題,本綜述首先總結出層次化的非完全監督信號的分類,具體類型包括如下所示:
無監督信號:即訓練集中的圖像沒有任何標注信號(圖 2a)。
粗粒度監督信號:即訓練集中的圖像有標注信號,但這些信號不是像素級的,無法為每一個像素提供類別信息或者實例信息。(圖2b)在該類型下主要包括:
圖像級別的標注
檢測框級別的標注
涂鴉級別的標注
不完全監督信號:即訓練集中的一部分圖像有像素級的標注信號(圖2c)。在該類型下主要包括:
半監督標簽,即屬于同域的另一部分圖像沒有任何標簽
特定域的標簽,即另一部分圖像屬于另一個域,其沒有任何標注
部分密集標簽,即屬于同域的另一部分圖像有檢測框級別的弱標注
帶噪監督信號:即有像素級別的標注,但是這些標注并不一定全部準確(圖 2d)。
根據這些分類,再結合不同的任務類型,整理出來了如圖 1 所示的分類表,也標注了不同任務不同標簽類型下已有的代表性工作和待開發的領域。
▲圖2. 每一種弱監督信號的示意圖。第一列為完全密集監督信號的例子。針對第二個問題,本綜述結合不同弱監督信號之間的關聯以及對 170 余篇論文進行歸納提煉后,總結出了四種通用的啟發式先驗:
cross-label constraint,即跨標簽約束:弱標簽與密集標簽之間具有一些約束關系,如給定圖像的類別標簽,我們可以知道圖中必有至少一個像素屬于該類別。
cross-pixel similarity,即跨像素相似性:具有諸如顏色,紋理,高層次特征相似性的像素點很可能是同類像素或者同對象像素。
cross-view consistency,即跨視圖一致性:同一張圖的不同的視角具有強關聯性/預測一致性。
cross-image relation,即跨圖像關系:不同圖像中屬于同一類別的實例具有相同的語義關系。
通過下列表1的代表性方法的核心做法歸納中可以看到,在各種監督信號/各種任務下,這四種先驗貫穿每一種任務設定,證明了本綜述總結的啟發式先驗具有通用性。
▲表1. 多種弱監督信號下的圖像分割代表性工作。
▲表2. 統一的數學描述。本綜述幾乎對各章節部分(即某種監督信號下的某個任務)都總結了一個具有概括性的流程圖,便于研究人員明確當前已有工作的入手點與研究路線,如圖 3 所示。
▲圖3. 部分論文圖示預覽
總結
本綜述對現有不完全監督下的圖像分割方法進行了歸納總結,同時也分析了未來的潛在研究方向,包括:
結合文本監督的零樣本圖像分割。 多模態技術是未來的主流方向,也更貼近人的認知系統。從文本中獲得一定的語義信息可以更好的幫助新類別的識別與分割,利于零樣本任務的發展。
利用 Transformer 特性的不完全監督圖像分割方法。 當前大部分方法還是基于卷積神經網絡來實現的,爆火的 Transformer 在不完全監督下的圖像分割領域目前還沒有被探索,許多 Transformer 特性可能對該任務具有更有力的優勢。
還未開拓的利用其他不完全監督信號的方案。 如圖 1 所示,這里依然有很多方向還沒有被探索,如帶噪監督信號下的實例分割等,研究者可以發掘更多合理的任務設置,充分利用現有的具有多種標注類型的數據集。
原文標題:綜述|上海交大&華為:非完全監督下基于深度學習的圖像分割方法
文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
-
像素
+關注
關注
1文章
203瀏覽量
18559 -
人工智能
+關注
關注
1791文章
46853瀏覽量
237550 -
圖像分割算法
+關注
關注
0文章
3瀏覽量
6312
原文標題:綜述|上海交大&華為:非完全監督下基于深度學習的圖像分割方法
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論