国产日韩精品一区二区在线观看_欧美激情综合亚洲一二区_国产成人精品久久久久免费_99久久精品国产一区二区三区_国产午夜精品久久久久九九_久久精品国产99久久99久久久_久久免费国产精品一区二区

來源：機(jī)器之心 SAM （Segment Anything ）作為一個(gè)視覺的分割基礎(chǔ)模型，在短短的 3 個(gè)月時(shí)間吸引了很多研究者的關(guān)注和跟進(jìn)。如果你想系統(tǒng)地了解 SAM 背后的技術(shù)，并跟上內(nèi)卷的步伐，并能做出屬于自己的 SAM 模型，那么接下這篇 Transformer-Based 的 Segmentation Survey 是不容錯(cuò)過！近期，南洋理工大學(xué)和上海人工智能實(shí)驗(yàn)室?guī)孜谎芯咳藛T寫了一篇關(guān)于Transformer-Based 的 Segmentation 的綜述，系統(tǒng)地回顧了近些年來基于 Transformer的分割與檢測(cè)模型，調(diào)研的最新模型截止至今年 6 月！同時(shí)，綜述還包括了相關(guān)領(lǐng)域的最新論文以及大量的實(shí)驗(yàn)分析與對(duì)比，并披露了多個(gè)具有廣闊前景的未來研究方向！

視覺分割旨在將圖像、視頻幀或點(diǎn)云分割為多個(gè)片段或組。這種技術(shù)具有許多現(xiàn)實(shí)世界的應(yīng)用，如自動(dòng)駕駛、圖像編輯、機(jī)器人感知和醫(yī)學(xué)分析。在過去的十年里，基于深度學(xué)習(xí)的方法在這個(gè)領(lǐng)域取得了顯著的進(jìn)展。最近，Transformer 成為一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)，最初設(shè)計(jì)用于自然語言處理，在各種視覺處理任務(wù)中明顯超越了以往的卷積或循環(huán)方法。具體而言，視覺 Transformer 為各種分割任務(wù)提供了強(qiáng)大、統(tǒng)一甚至更簡(jiǎn)單的解決方案。本綜述全面概述了基于 Transformer 的視覺分割，總結(jié)了最近的進(jìn)展。首先，本文回顧了背景，包括問題定義、數(shù)據(jù)集和以往的卷積方法。接下來，本文總結(jié)了一個(gè)元架構(gòu)，將所有最近的基于 Transformer 的方法統(tǒng)一起來。基于這個(gè)元架構(gòu)，本文研究了各種方法設(shè)計(jì)，包括對(duì)這個(gè)元架構(gòu)的修改和相關(guān)應(yīng)用。此外，本文還介紹了幾個(gè)相關(guān)的設(shè)置，包括 3D 點(diǎn)云分割、基礎(chǔ)模型調(diào)優(yōu)、域適應(yīng)分割、高效分割和醫(yī)學(xué)分割。此外，本文在幾個(gè)廣泛認(rèn)可的數(shù)據(jù)集上編譯和重新評(píng)估了這些方法。最后，本文確定了這個(gè)領(lǐng)域的開放挑戰(zhàn)，并提出了未來研究的方向。本文仍會(huì)持續(xù)和跟蹤最新的基于 Transformer 的分割與檢測(cè)方法。

項(xiàng)目地址：https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

論文地址：https://arxiv.org/pdf/2304.09854.pdf

研究動(dòng)機(jī)

ViT 和 DETR 的出現(xiàn)使得分割與檢測(cè)領(lǐng)域有了十足的進(jìn)展，目前幾乎各個(gè)數(shù)據(jù)集基準(zhǔn)上，排名靠前的方法都是基于 Transformer 的。為此有必要系統(tǒng)地總結(jié)與對(duì)比下這個(gè)方向的方法與技術(shù)特點(diǎn)。

近期的大模型架構(gòu)均基于 Transformer 結(jié)構(gòu)，包括多模態(tài)模型以及分割的基礎(chǔ)模型（SAM），視覺各個(gè)任務(wù)向著統(tǒng)一的模型建?？繑n。

分割與檢測(cè)衍生出來了很多相關(guān)下游任務(wù)，這些任務(wù)很多方法也是采用 Transformer 結(jié)構(gòu)來解決。

綜述特色

系統(tǒng)性和可讀性。本文系統(tǒng)地回顧了分割的各個(gè)任務(wù)定義，以及相關(guān)任務(wù)定義，評(píng)估指標(biāo)。并且本文從卷積的方法出發(fā)，基于 ViT 和 DETR，總結(jié)出了一種元架構(gòu)?；谠撛軜?gòu)，本綜述把相關(guān)的方法進(jìn)行歸納與總結(jié)，系統(tǒng)地回顧了近期的方法。具體的技術(shù)回顧路線如圖 1 所示。

技術(shù)的角度進(jìn)行細(xì)致分類。相比于前人的 Transformer 綜述，本文對(duì)方法的分類會(huì)更加的細(xì)致。本文把類似思路的論文匯聚到一起，對(duì)比了他們的相同點(diǎn)以及不同點(diǎn)。例如，本文會(huì)對(duì)同時(shí)修改元架構(gòu)的解碼器端的方法進(jìn)行分類，分為基于圖像的 Cross Attention，以及基于視頻的時(shí)空 Cross Attention 的建模。

研究問題的全面性。本文會(huì)系統(tǒng)地回顧分割各個(gè)方向，包括圖像，視頻，點(diǎn)云分割任務(wù)。同時(shí)，本文也會(huì)同時(shí)回顧相關(guān)的方向比如開集分割于檢測(cè)模型，無監(jiān)督分割和弱監(jiān)督分割。

圖 1. Survey 的內(nèi)容路線圖

圖 2. 常用的數(shù)據(jù)集以及分割任務(wù)總結(jié)

Transformer-Based 分割和檢測(cè)方法總結(jié)與對(duì)比

圖 3. 通用的元架構(gòu)框架（Meta-Architecture）

本文首先基于 DETR 和 MaskFormer 的框架總結(jié)出了一個(gè)元架構(gòu)。這個(gè)模型包括了如下幾個(gè)不同的模塊：

Backbone：特征提取器，用來提取圖像特征。

Neck：構(gòu)建多尺度特征，用來處理多尺度的物體。

Object Query：查詢對(duì)象，用于代表場(chǎng)景中的每個(gè)實(shí)體，包括前景物體以及背景物體。

Decoder：解碼器，用于去逐步優(yōu)化 Object Query 以及對(duì)應(yīng)的特征。

End-to-End Training：基于 Object Query 的設(shè)計(jì)可以做到端到端的優(yōu)化。

基于這個(gè)元架構(gòu)，現(xiàn)有的方法可以分為如下五個(gè)不同的方向來進(jìn)行優(yōu)化以及根據(jù)任務(wù)進(jìn)行調(diào)整，如圖 4 所示，每個(gè)方向有包含幾個(gè)不同的子方向。

圖 4. Transformer-Based Segmentation 方法總結(jié)與對(duì)比

更好的特征表達(dá)學(xué)習(xí)，Representation Learning。強(qiáng)大的視覺特征表示始終會(huì)帶來更好的分割結(jié)果。本文將相關(guān)工作分為三個(gè)方面：更好的視覺 Transformer 設(shè)計(jì)、混合 CNN/Transformer/MLP 以及自監(jiān)督學(xué)習(xí)。

解碼器端的方法設(shè)計(jì)，Interaction Design in Decoder。本章節(jié)回顧了新的 Transformer 解碼器設(shè)計(jì)。本文將解碼器設(shè)計(jì)分為兩組：一組用于改進(jìn)圖像分割中的交叉注意力設(shè)計(jì)，另一組用于視頻分割中的時(shí)空交叉注意力設(shè)計(jì)。前者側(cè)重于設(shè)計(jì)一個(gè)更好的解碼器，以改進(jìn)原始 DETR 中的解碼器。后者將基于查詢對(duì)象的目標(biāo)檢測(cè)器和分割器擴(kuò)展到視頻領(lǐng)域，用于視頻目標(biāo)檢測(cè)（VOD）、視頻實(shí)例分割（VIS）和視頻像素分割（VPS），重點(diǎn)在建模時(shí)間一致性和關(guān)聯(lián)性。

嘗試從查詢對(duì)象優(yōu)化的角度，Optimizing Object Query。與 Faster-RCNN 相比，DETR 要更長(zhǎng)的收斂時(shí)間表。由于查詢對(duì)象的關(guān)鍵作用，現(xiàn)有的一些方法已經(jīng)展開了研究，以加快訓(xùn)練速度和提高性能。根據(jù)對(duì)象查詢的方法，本文將下面的文獻(xiàn)分為兩個(gè)方面：添加位置信息和采用額外監(jiān)督。位置信息提供了對(duì)查詢特征進(jìn)行快速訓(xùn)練采樣的線索。額外監(jiān)督著重設(shè)計(jì)了除 DETR 默認(rèn)損失函數(shù)之外的特定損失函數(shù)。

使用查詢對(duì)象來做特征和實(shí)例的關(guān)聯(lián)，Using Query For Association。受益于查詢對(duì)象的簡(jiǎn)單性，最近的多個(gè)研究將其作為關(guān)聯(lián)工具來解決下游任務(wù)。主要有兩種用法：一種是實(shí)例級(jí)別的關(guān)聯(lián)，另一種是任務(wù)級(jí)別的關(guān)聯(lián)。前者采用實(shí)例判別的思想，用于解決視頻中的實(shí)例級(jí)匹配問題，例如視頻的分割和跟蹤。后者使用查詢對(duì)象來橋接不同子任務(wù)實(shí)現(xiàn)高效的多任務(wù)學(xué)習(xí)。

多模態(tài)的條件查詢對(duì)象生成，Conditional Query Generation。這一章節(jié)主要關(guān)注多模態(tài)分割任務(wù)。條件查詢查詢對(duì)象主要來處理跨模態(tài)和跨圖像的特征匹配任務(wù)。根據(jù)任務(wù)輸入條件而確定的，解碼器頭部使用不同的查詢來獲取相應(yīng)的分割掩碼。根據(jù)不同輸入的來源，本文將這些工作分為兩個(gè)方面：語言特征和圖像特征。這些方法基于不同模型特征融合查詢對(duì)象的策略，在多個(gè)多模態(tài)的分割任務(wù)以及 few-shot 分割上取得了不錯(cuò)的結(jié)果。

圖 5 中給出這 5 個(gè)不同方向的一些代表性的工作對(duì)比。更具體的方法細(xì)節(jié)以及對(duì)比可以參考論文的內(nèi)容。

圖 5. Transformer-based 的分割與檢測(cè)代表性的方法總結(jié)與對(duì)比

相關(guān)研究領(lǐng)域的方法總結(jié)與對(duì)比

本文還探索了幾個(gè)相關(guān)的領(lǐng)域：1，基于 Transformer 的點(diǎn)云分割方法。2, 視覺與多模態(tài)大模型調(diào)優(yōu)。3，域相關(guān)的分割模型研究，包括域遷移學(xué)習(xí)，域泛化學(xué)習(xí)。4，高效語義分割：無監(jiān)督與弱監(jiān)督分割模型。5，類無關(guān)的分割與跟蹤。6，醫(yī)學(xué)圖像分割。

圖 6. 相關(guān)研究領(lǐng)域的基于 Transformer 方法總結(jié)與對(duì)比

不同方法的實(shí)驗(yàn)結(jié)果對(duì)比

圖 7. 語義分割數(shù)據(jù)集的基準(zhǔn)實(shí)驗(yàn)

圖 8. 全景分割數(shù)據(jù)集的基準(zhǔn)實(shí)驗(yàn)

本文還統(tǒng)一地使用相同的實(shí)驗(yàn)設(shè)計(jì)條件來對(duì)比了幾個(gè)代表性的工作在全景分割以及語義分割上多個(gè)數(shù)據(jù)集的結(jié)果。結(jié)果發(fā)現(xiàn)，在使用相同的訓(xùn)練策略以及編碼器的時(shí)候，方法性能之間的差距會(huì)縮小。

此外，本文還同時(shí)對(duì)比了近期的 Transformer-based 的分割方法在多個(gè)不同數(shù)據(jù)集和任務(wù)上結(jié)果。（語義分割，實(shí)例分割，全景分割，以及對(duì)應(yīng)的視頻分割任務(wù)）

未來方向

此外本文也給出了一些未來的可能一些研究方向分析。這里給出三個(gè)不同的方向作為例子。

更加通用與統(tǒng)一的分割模型。使用 Transformer 結(jié)構(gòu)來統(tǒng)一不同的分割任務(wù)是一個(gè)趨勢(shì)。最近的研究使用基于查詢對(duì)象的 Transformer 在一個(gè)體系結(jié)構(gòu)下執(zhí)行不同的分割任務(wù)。一個(gè)可能的研究方向是通過一個(gè)模型在各種分割數(shù)據(jù)集上統(tǒng)一圖像和視頻分割任務(wù)。這些通用模型可以在各種場(chǎng)景中實(shí)現(xiàn)通用和穩(wěn)健的分割，例如，在各種場(chǎng)景中檢測(cè)和分割罕見類別有助于機(jī)器人做出更好的決策。

結(jié)合視覺推理的分割模型。視覺推理要求機(jī)器人理解場(chǎng)景中物體之間的聯(lián)系，這種理解在運(yùn)動(dòng)規(guī)劃中起著關(guān)鍵作用。先前的研究已經(jīng)探索了將分割結(jié)果作為視覺推理模型的輸入，用于各種應(yīng)用，如目標(biāo)跟蹤和場(chǎng)景理解。聯(lián)合分割和視覺推理可以是一個(gè)有前景的方向，對(duì)分割和關(guān)系分類都具有互惠的潛力。通過將視覺推理納入分割過程中，研究人員可以利用推理的能力提高分割的準(zhǔn)確性，同時(shí)分割結(jié)果也可以為視覺推理提供更好的輸入。

持續(xù)學(xué)習(xí)的分割模型研究。現(xiàn)有的分割方法通常在封閉世界的數(shù)據(jù)集上進(jìn)行基準(zhǔn)測(cè)試，這些數(shù)據(jù)集具有一組預(yù)定義的類別，即假設(shè)訓(xùn)練和測(cè)試樣本具有預(yù)先知道的相同類別和特征空間。然而，真實(shí)場(chǎng)景通常是開放世界和非穩(wěn)定的，新類別的數(shù)據(jù)可能不斷出現(xiàn)。例如，在自動(dòng)駕駛車輛和醫(yī)學(xué)診斷中，可能會(huì)突然出現(xiàn)未預(yù)料到的情況?，F(xiàn)有方法在現(xiàn)實(shí)和封閉世界場(chǎng)景中的性能和能力之間存在明顯差距。因此，希望能夠逐漸而持續(xù)地將新概念納入分割模型的現(xiàn)有知識(shí)庫中，使得模型能夠進(jìn)行終身學(xué)習(xí)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

檢測(cè)方法

檢測(cè)方法

+關(guān)注

關(guān)注
0

文章
50

瀏覽量
9775
自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
783

文章
13694

瀏覽量
166166
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
141

瀏覽量
5982

原文標(biāo)題：最新綜述！基于Transformer的視覺分割

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測(cè)方法分享

鋪設(shè)異常檢測(cè)可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法，有助于定位異常區(qū)域。

發(fā)表于 12-06 14:57 ?1472次閱讀

基于<b class='flag-5'>transformer</b>和自監(jiān)督學(xué)習(xí)的路面異常<b class='flag-5'>檢測(cè)</b><b class='flag-5'>方法</b>分享

如何更改ABBYY PDF Transformer+界面語言

在安裝ABBYY PDF Transformer+時(shí)會(huì)讓您選擇界面語言。此語言將用于所有消息、對(duì)話框、按鈕和菜單項(xiàng)。在特殊情況下，您可能需要在安裝完成后更改界面語言以適應(yīng)需求，方法其實(shí)很簡(jiǎn)單，本文

發(fā)表于 10-11 16:13

PCB缺陷檢測(cè)中圖像分割算法

圖像分割在圖像處理中占有重要的地位，分割結(jié)果的好壞直接影響圖像的后續(xù)處理。本文介紹了4種常用的圖像分割方法及其在PCB缺陷檢測(cè)中的應(yīng)用，并

發(fā)表于 06-16 15:31 ?0次下載

PCB缺陷<b class='flag-5'>檢測(cè)</b>中圖像<b class='flag-5'>分割</b>算法

基于閾值分割的紅外圖像邊緣檢測(cè)方法

提出了一種基于閾值分割的邊緣檢測(cè)算法。首先利用最大方差閾值法分割出紅外圖像的目標(biāo)圖像,其次用線性拉伸的方法對(duì)目標(biāo)圖像中存留的噪聲進(jìn)行去除,最后運(yùn)用Sobel算子對(duì)目標(biāo)圖像進(jìn)

發(fā)表于 02-22 11:13 ?47次下載

基于閾值<b class='flag-5'>分割</b>的紅外圖像邊緣<b class='flag-5'>檢測(cè)</b><b class='flag-5'>方法</b>

基于圖像融合分割的實(shí)木地板表面缺陷檢測(cè)方法_張怡卓

基于圖像融合分割的實(shí)木地板表面缺陷檢測(cè)方法_張怡卓

發(fā)表于 01-07 15:26 ?1次下載

圖像分割和圖像邊緣檢測(cè)

　圖像分割的研究多年來一直受到人們的高度重視，至今提出了各種類型的分割算法。Pal把圖像分割算法分成了6類：閾值分割，像素分割、深度圖像

發(fā)表于 12-19 09:29 ?1.1w次閱讀

圖像<b class='flag-5'>分割</b>和圖像邊緣<b class='flag-5'>檢測(cè)</b>

圖像分割的基本方法解析

本文詳細(xì)介紹了圖像分割的基本方法有：基于邊緣的圖像分割方法、閾值分割方法、區(qū)域

發(fā)表于 12-20 11:06 ?10.9w次閱讀

圖像<b class='flag-5'>分割</b>的基本<b class='flag-5'>方法</b>解析

基于內(nèi)容的圖像分割方法綜述

的方法、基于像素聚類的方法和語義分割方法這3種類型并分別加以介紹對(duì)每類方法所包含的典型算法，尤其是最近幾年利用深度網(wǎng)絡(luò)技術(shù)的語義圖像

發(fā)表于 01-02 16:52 ?2次下載

基于內(nèi)容的圖像<b class='flag-5'>分割</b><b class='flag-5'>方法</b>綜述

一種基于Mask R-CNN的人臉檢測(cè)及分割方法

針對(duì)現(xiàn)有主流的人臉檢測(cè)算法不具備像素級(jí)分割，從而存在人臉特征具有噪聲及檢測(cè)精度不理想的問題提出了一種基于 Mask r-CNN的人臉檢測(cè)及分割

發(fā)表于 04-01 10:42 ?5次下載

普通視覺Transformer（ViT）用于語義分割的能力

本文探討了普通視覺Transformer（ViT）用于語義分割的能力，并提出了SegViT。以前基于ViT的分割網(wǎng)絡(luò)通常從ViT的輸出中學(xué)習(xí)像素級(jí)表示。不同的是，本文利用基本的組件注意力機(jī)制生成語義

發(fā)表于 10-31 09:57 ?4985次閱讀

利用Transformer和CNN 各自的優(yōu)勢(shì)以獲得更好的分割性能

概述在這篇論文中，提出了一種新的醫(yī)學(xué)圖像分割混合架構(gòu)：PHTrans，它在主要構(gòu)建塊中并行混合 Transformer 和 CNN，分別從全局和局部特征中生成層次表示并自適應(yīng)聚合它們，旨在充分利用

發(fā)表于 11-05 11:38 ?6467次閱讀

視覺Transformer在CV中的現(xiàn)狀、趨勢(shì)和未來方向

全面性和可讀性：本文根據(jù)它們?cè)谌齻€(gè)基本CV任務(wù)（即分類、檢測(cè)和分割）和數(shù)據(jù)流類型（即圖像、點(diǎn)云、多流數(shù)據(jù)）上的應(yīng)用，全面回顧了100多個(gè)視覺Transformer。論文選擇了更具代表性的方法

發(fā)表于 11-08 14:20 ?2560次閱讀

基于Transformer的目標(biāo)檢測(cè)算法

掌握基于Transformer的目標(biāo)檢測(cè)算法的思路和創(chuàng)新點(diǎn)，一些Transformer論文涉及的新概念比較多，話術(shù)沒有那么通俗易懂，讀完論文仍然不理解算法的細(xì)節(jié)部分。

發(fā)表于 08-16 10:51 ?633次閱讀

機(jī)器視覺圖像分割的方法有哪些？

現(xiàn)有的圖像分割方法主要分以下幾類：基于閾值（threshold）的分割方法、基于區(qū)域的分割方法、

發(fā)表于 11-02 10:26 ?1165次閱讀

圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

圖像分割與目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的兩個(gè)重要任務(wù)，它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而，盡管它們?cè)谀承┓矫嬗邢嗨浦?，但它們的目?biāo)、方法和應(yīng)用場(chǎng)景有很大的不同。本文將介紹圖像分割

發(fā)表于 07-17 09:53 ?1136次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

基于 Transformer 的分割與檢測(cè)方法

評(píng)論

基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測(cè)方法分享

如何更改ABBYY PDF Transformer+界面語言

PCB缺陷檢測(cè)中圖像分割算法

基于閾值分割的紅外圖像邊緣檢測(cè)方法

基于圖像融合分割的實(shí)木地板表面缺陷檢測(cè)方法_張怡卓

圖像分割和圖像邊緣檢測(cè)

圖像分割的基本方法解析

基于內(nèi)容的圖像分割方法綜述

一種基于Mask R-CNN的人臉檢測(cè)及分割方法

普通視覺Transformer（ViT）用于語義分割的能力

利用Transformer和CNN 各自的優(yōu)勢(shì)以獲得更好的分割性能

視覺Transformer在CV中的現(xiàn)狀、趨勢(shì)和未來方向

基于Transformer的目標(biāo)檢測(cè)算法

機(jī)器視覺圖像分割的方法有哪些？

圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么