基于深度學(xué)習(xí)的場景分割算法研究綜述
來自《計算機研究與發(fā)展》 ,作者張 蕊等
場景分割的目標(biāo)是判斷場景圖像中每個像素的類別.場景分割是計算機視覺領(lǐng)域重要的基本問題之一,對場景圖像的分析和理解具有重要意義,同時在自動駕駛、視頻監(jiān)控、增強現(xiàn)實等諸多領(lǐng)域具有廣泛的應(yīng)用價值.近年來,基于深度學(xué)習(xí)的場景分割技術(shù)取得了突破性進展,與傳統(tǒng)場景分割算法相比獲得分割精度的大幅度提升.首先分析和描述場景分割問題面臨的3個主要難點:分割粒度細(xì)、尺度變化多樣、空間相關(guān)性強;其次著重介紹了目前大部分基于深度學(xué)習(xí)的場景分割算法采用的“卷積-反卷積”結(jié)構(gòu);在此基礎(chǔ)上,對近年來出現(xiàn)的基于深度學(xué)習(xí)的場景分割算法進行梳理,介紹針對場景分割問題的3個主要難點,分別提出基于高分辨率語義特征圖、基于多尺度信息和基于空間上下文等場景分割算法;簡要介紹常用的場景分割公開數(shù)據(jù)集;最后對基于深度學(xué)習(xí)的場景分割算法的研究前景進行總結(jié)和展望.
場景分割[1]是計算機視覺領(lǐng)域一個基本而重要的問題.相比一般的圖像分割,場景分割針對場景圖像.場景圖像[2]是指面向某個空間的圖像,通常具有一定的透視形變,且其中包含的視覺要素數(shù)量較多.場景分割算法的目標(biāo)是對于場景圖像中的每個像素判斷其所屬類別。
場景分割算法對于圖像分析和場景理解具有極大的幫助.場景分割算法可以綜合完成場景圖像中視覺要素的識別、檢測和分割,提高圖像理解的效率和準(zhǔn)確率.同時由于場景分割結(jié)果精確到像素級,相比圖像分類和目標(biāo)檢測[3],場景分割結(jié)果可以提供更加豐富的關(guān)于圖像局部和細(xì)節(jié)的信息.此外,場景分割算法具有廣泛的應(yīng)用價值和長遠(yuǎn)的發(fā)展前景.例如在自動駕駛技術(shù)中,場景分割算法可以通過對道路、車輛和行人的分割輔助自動駕駛系統(tǒng)判斷道路情況;在視頻監(jiān)控技術(shù)中,場景分割算法可以通過對監(jiān)控目標(biāo)的分割協(xié)助進行目標(biāo)的分析和跟蹤;在增強現(xiàn)實技術(shù)中,場景分割算法可以通過分割場景中的前景和背景輔助實現(xiàn)多種增強現(xiàn)實效果.
作為計算機視覺領(lǐng)域的一個經(jīng)典任務(wù),場景分割極具挑戰(zhàn)性.如圖2所示,場景分割的難點可概括為3個方面:1)分割粒度細(xì).場景分割結(jié)果需要精確到像素級別,且需要預(yù)測精確的分割邊界.2)尺度變化多樣.由于場景圖像中通常包含多種類別的視覺要素,不同類別的視覺要素往往存在尺度差異,同時由于場景圖像存在透視形變,相同類別的視覺要素也會呈現(xiàn)出不同尺度.3)空間相關(guān)性強.場景圖像中的視覺要素存在復(fù)雜而緊密的空間相關(guān)關(guān)系,這些空間相關(guān)關(guān)系對視覺要素的識別和分割具有極大幫助.
場景分割問題是傳統(tǒng)圖像分割問題的子問題,近年來受到越來越多國內(nèi)外研究人員的關(guān)注.在研究初期,研究人員使用傳統(tǒng)的圖像分割算法解決場景分割問題,包括基于閾值[4]、基于區(qū)域提取[5-6]、基于邊緣檢測[7]、基于概率圖模型[8-10]和基于像素或超像素分類[11]的分割算法.這些傳統(tǒng)分割算法通常使用人工設(shè)計的圖像特征[12],與語義概念之間存在著語義鴻溝,因此制約了傳統(tǒng)圖像分割算法的性能.
近年來,深度學(xué)習(xí)的快速發(fā)展為場景分割帶來了新的解決思路.深度學(xué)習(xí)算法通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò),利用多層變換模仿人腦的機制來分析和理解圖像.深度學(xué)習(xí)算法可以從大規(guī)模數(shù)據(jù)中學(xué)習(xí)逐漸抽象的層次化特征,從而建立場景圖像到語義類別的映射.深度學(xué)習(xí)是近年來機器學(xué)習(xí)領(lǐng)域最令人矚目的方向之一,在語音識別、計算機視覺、自然語言處理等多個領(lǐng)域均獲得了突破性進展[13].基于深度學(xué)習(xí)的場景分割算法同樣取得了巨大突破.這些算法主要基于“卷積-反卷積”結(jié)構(gòu),包括全卷積網(wǎng)絡(luò)[14]和反卷積網(wǎng)絡(luò)[15-16]兩大類.“卷積-反卷積”結(jié)構(gòu)可以建立從原始圖像到分割結(jié)果的映射,并且可以進行端到端的訓(xùn)練.相比傳統(tǒng)圖像分割算法,基于深度學(xué)習(xí)的場景分割算法實現(xiàn)了分割精度的大幅度提升.在此基礎(chǔ)上,研究人員針對場景分割問題的難點和挑戰(zhàn),提出了多種基于深度學(xué)習(xí)的場景分割算法并不斷提高算法性能.其中,針對分割粒度細(xì)的問題,研究人員提出了基于高分辨率語義特征圖的場景分割算法,通過提高特征圖的分辨率獲得更高精度的分割結(jié)果;針對尺度變化多樣的問題,研究人員提出了基于多尺度信息的場景分割算法,通過捕捉場景圖像中的多尺度信息提升算法的分割精度;針對空間相關(guān)性強的問題,研究人員提出了基于空間上下文信息的場景分割算法,通過捕捉場景圖像中的空間上下文和相關(guān)關(guān)系提升算法的分割精度.
在國內(nèi)外的研究成果中有許多對圖像分割進行綜述的文獻,可以分為兩大類:1)概述傳統(tǒng)圖像分割算法的綜述[17-23],介紹了基于閾值、區(qū)域提取、邊緣檢測等利用圖像特征的傳統(tǒng)圖像分割算法.2)側(cè)重介紹基于深度學(xué)習(xí)的圖像分割算法的綜述[24-27].例如文獻[24]側(cè)重介紹不同圖像分割算法使用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);文獻[25]將上百種基于深度學(xué)習(xí)的圖像分割算法分為10個大類進行概述;文獻[26-27]以圖像標(biāo)注的粒度作為分類標(biāo)準(zhǔn),分別介紹了全監(jiān)督和弱監(jiān)督的圖像分割算法.但這些文獻都是對通用的圖像分割算法進行綜述,目前并沒有針對場景分割的算法綜述.與這些綜述不同,本文介紹的算法針對圖像分割中的場景分割子問題,且主要介紹基于深度學(xué)習(xí)的算法.本文以算法針對的場景分割問題的3個難點作為分類依據(jù),梳理近年來出現(xiàn)的基于深度學(xué)習(xí)的場景分割算法.
1 深度學(xué)習(xí)發(fā)展概述
深度學(xué)習(xí)算法近年來在機器學(xué)習(xí)領(lǐng)域取得了巨大的進展,其中,基于深度卷積神經(jīng)網(wǎng)絡(luò)的算法在計算機視覺領(lǐng)域取得了令人矚目的成就.深度卷積神經(jīng)網(wǎng)絡(luò)是以傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),不斷發(fā)展演變而來.早在1998年“LeNet”網(wǎng)絡(luò)[28]就已具備現(xiàn)在深度卷積神經(jīng)網(wǎng)絡(luò)的完整結(jié)構(gòu),包括卷積層、非線性變換層、池化層、全連接層等深度卷積神經(jīng)網(wǎng)絡(luò)的基本單元.因此,“LeNet”網(wǎng)絡(luò)可以被視為當(dāng)前深度卷積神經(jīng)網(wǎng)絡(luò)的雛形.然而,計算能力和數(shù)據(jù)集規(guī)模的限制阻礙了深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展.
近年來,隨著硬件設(shè)備的不斷發(fā)展和計算能力的不斷提高,計算機的運算速度和效率得到了極大提升.尤其是圖像并行處理單元(graphics processing unit, GPU)的廣泛使用提高了大規(guī)模并行計算的能力.此外,隨著互聯(lián)網(wǎng)的興起和大數(shù)據(jù)技術(shù)的發(fā)展,多種大規(guī)模圖像數(shù)據(jù)集相繼出現(xiàn),為訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù)支持.得益于并行計算能力和大規(guī)模數(shù)據(jù)集,深度卷積神經(jīng)網(wǎng)絡(luò)在以圖像識別為代表的計算機視覺領(lǐng)域相關(guān)任務(wù)中取得了驚人的突破.在2012年的“ImageNet大規(guī)模視覺識別挑戰(zhàn)賽”[29]中,卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet[30]將ImageNet分類數(shù)據(jù)集[31]的Top-5識別錯誤率從傳統(tǒng)算法的26%降低到16.4%,取得了令人振奮的進步.這一工作也掀起了深度卷積神經(jīng)網(wǎng)絡(luò)的研究熱潮.
此后,越來越多的研究人員投身到對深度卷積神經(jīng)網(wǎng)絡(luò)的研究中.以圖像識別任務(wù)為切入點,研究人員不斷提出更深更精巧的網(wǎng)絡(luò)結(jié)構(gòu)和非線性激活函數(shù)提高神經(jīng)網(wǎng)絡(luò)的特征表達能力,先后提出了VGG[32],GoogLeNet[33],ResNet[34],ResNeXt[35],DenseNet[36]等網(wǎng)絡(luò)和Maxout[37],PReLU[38],ELU[39]等非線性激活函數(shù).同時,研究人員還通過設(shè)計合理的網(wǎng)絡(luò)初始化方法[38,40]和特征歸一化方法[41-44]促進神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程.深度卷積神經(jīng)網(wǎng)絡(luò)可以從大規(guī)模數(shù)據(jù)中自動學(xué)習(xí)到逐漸抽象的層次化特征,從底層圖像特征到高層語義概念的映射.因此,利用在大規(guī)模圖像識別數(shù)據(jù)集上預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到合適的圖像特征表達,并通過遷移學(xué)習(xí)的方法被應(yīng)用于計算機視覺領(lǐng)域的諸多任務(wù)中,均取得了極大的成功.例如目標(biāo)檢測算法[45-47]利用深度卷積神經(jīng)網(wǎng)絡(luò)同時預(yù)測圖像中目標(biāo)的類別和位置;圖像語義分割算法[14,48]利用深度卷積神經(jīng)網(wǎng)絡(luò)預(yù)測圖像中每個像素的類別;實例分割算法[49]利用深度卷積神經(jīng)網(wǎng)絡(luò)同時預(yù)測圖像中每個目標(biāo)的類別、位置和包含像素;圖像描述算法[50]利用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征,并輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中生成圖像的描述.
2 場景分割算法的“卷積
反卷積”框架
目前基于深度學(xué)習(xí)的場景分割算法主要利用了一種“卷積-反卷積”框架,包含卷積模塊和反卷積模塊.首先卷積模塊使用若干卷積層和池化層,逐漸從場景圖像中學(xué)習(xí)到抽象的語義特征表達,獲得語義特征圖.由于使用了若干次池化層,生成的語義特征圖分辨率小于原始圖像.為獲得原始圖像的像素級類別預(yù)測結(jié)果,語義特征圖將輸入到由多個反卷積層組成的反卷積模塊,不斷擴大特征圖的分辨率,直至與原始場景圖像分辨率相同.最終獲得的特征圖中每個位置對應(yīng)場景圖像中每個像素的類別置信度,從而得到場景圖像的分割結(jié)果.“卷積-反卷積”框架可以高效地對整幅場景圖像進行處理,從原始圖像直接獲得分割結(jié)果.同時,在訓(xùn)練過程中,“卷積-反卷積”框架可以進行端對端的訓(xùn)練,更有益于從場景數(shù)據(jù)集中學(xué)習(xí)合適的特征表達,因此其性能優(yōu)于傳統(tǒng)圖像分割算法.
常用的“卷積-反卷積”框架主要可分為全卷積網(wǎng)絡(luò)和反卷積網(wǎng)絡(luò)兩大類.全卷積網(wǎng)絡(luò)[14](fully convolutional network, FCN)通常以深度圖像識別網(wǎng)絡(luò)作為基礎(chǔ),將其結(jié)構(gòu)全卷積化后作為卷積模塊,獲得語義特征圖,再添加若干反卷積層作為反卷積模塊,如圖3所示.全卷積化是指將圖像識別網(wǎng)絡(luò)中的全連接層轉(zhuǎn)化為卷積核為1的卷積層,使網(wǎng)絡(luò)僅由卷積層、非線性激活層和池化層組成.經(jīng)過全卷積化之后,全卷積網(wǎng)絡(luò)可以接受任意大小的場景圖像作為輸入,并通過多個反卷積層獲得與原始輸入圖像相同大小的類別置信度圖.利用深度圖像識別網(wǎng)絡(luò)的結(jié)構(gòu)作為卷積模塊后,可以利用深度圖像識別網(wǎng)絡(luò)在大規(guī)模的圖像分類數(shù)據(jù)集(如ImageNet)上預(yù)訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)作為全卷積網(wǎng)絡(luò)的初始化參數(shù).這種參數(shù)遷移的方法有利于全卷積網(wǎng)絡(luò)參數(shù)的優(yōu)化.由于場景分割需要精確到像素級,構(gòu)建場景分割的人工標(biāo)注需要花費大量的人力物力,導(dǎo)致現(xiàn)有的場景分割數(shù)據(jù)集的樣本數(shù)量通常較少.而訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常需要大量有標(biāo)注的數(shù)據(jù),因此如果直接使用樣本數(shù)量較少的場景分割數(shù)據(jù)集訓(xùn)練,可能因為樣本不夠?qū)е履P拖萑刖容^低的局部極小點,損害模型的精度.而使用大規(guī)模圖像識別數(shù)據(jù)集進行預(yù)訓(xùn)練后,模型參數(shù)可以學(xué)習(xí)到較為合適的圖像特征表達,為后續(xù)訓(xùn)練場景分割模型提供較好的初始值,幫助模型收斂到精度較高的局部極小點,從而提升場景分割模型的性能.利用數(shù)據(jù)集SIFT Flow[51]進行評測,全卷積網(wǎng)絡(luò)的像素級正確率(pixel accuracy)達到85.2%,相比傳統(tǒng)方法[52]的78.6%,取得6.6%的性能提升.在目前常用的場景分割數(shù)據(jù)集Cityscapes[53]上全卷積網(wǎng)絡(luò)可以取得平均交并比(mean Intersection-over-Union, mIoU)為65.3%,達到當(dāng)時的最佳性能.
相比之下,反卷積網(wǎng)絡(luò)[15-16]的卷積模塊與全卷積網(wǎng)絡(luò)類似,也是由多個卷積層和池化層堆疊而成.通常其反卷積模塊完全采用其卷積模塊的鏡像結(jié)構(gòu),同時設(shè)計了反池化層作為池化層的鏡像操作.反卷積網(wǎng)絡(luò)不使用預(yù)訓(xùn)練參數(shù),而是直接從隨機參數(shù)開始訓(xùn)練網(wǎng)絡(luò),因此時常難以優(yōu)化,算法性能也會低于全卷積網(wǎng)絡(luò),如SegNet[16]在Cityscapes數(shù)據(jù)集上的mIoU為57.0%.目前,大部分基于深度學(xué)習(xí)的場景分割算法都采用了全卷積網(wǎng)絡(luò)的結(jié)構(gòu),同時利用深度圖像識別網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù)作為初始化.
全卷積網(wǎng)絡(luò)雖然在場景分割問題上取得了極大的突破,但其本身依賴于大規(guī)模圖像識別網(wǎng)絡(luò)結(jié)構(gòu),存在著一定的局限性.首先,全卷積網(wǎng)絡(luò)所使用的圖像識別網(wǎng)絡(luò)模型通常包含多次池化等下采樣操作,因此丟失了許多細(xì)節(jié)信息.而場景分割問題具有分割粒度細(xì)的特點,因此直接使用圖像識別網(wǎng)絡(luò)會極大損害最終的分割精度.針對這一問題,研究人員提出了基于高分辨率語義特征圖的場景分割算法提高分割精度.其次,場景分割問題存在視覺要素尺度變化多樣的問題,但全卷積網(wǎng)絡(luò)對整幅圖像使用相同的卷積操作,未考慮視覺要素的多尺度問題,損害了場景圖像中較大尺度和較小尺度的視覺要素的分割精度.因此,研究人員提出了基于多尺度的場景分割算法.最后,全卷積網(wǎng)絡(luò)所使用的圖像識別網(wǎng)絡(luò)未考慮空間上下文信息,而場景分割問題存在空間相關(guān)性強的特點,場景圖像中的空間相關(guān)關(guān)系對提升分割精度有極大幫助.為了有效捕捉場景圖像中的空間上下文和相關(guān)關(guān)系,研究人員提出了基于空間上下文的場景分割算法.接下來我們將對這些方法進行梳理和詳細(xì)介紹.其中一些代表性方法在City-scapes數(shù)據(jù)集測試集上的性能對比如圖4所示:
3 基于高分辨率語義特征圖的場景分割算法
全卷積網(wǎng)絡(luò)中使用圖像識別網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)場景圖像的特征表達.而在圖像識別網(wǎng)絡(luò)中,為了能有效捕捉圖像的全局語義特征,排除圖像中視覺要素的空間變換對特征學(xué)習(xí)的干擾,圖像識別網(wǎng)絡(luò)通常包含若干個步長大于1的池化層.池化層可以融合池化區(qū)域的特征,擴大感受野,同時保持感受野中視覺要素的平移不變形.但同時,池化操作會縮小特征圖的分辨率,從而丟失空間位置信息和許多細(xì)節(jié)信息.例如在目前常用的圖像識別網(wǎng)絡(luò)中,通常使用5個步長為2的池化層,使最后的語義特征圖分辨率下降為原始輸入圖像的1/32.因此,當(dāng)圖像識別網(wǎng)絡(luò)被遷移到全卷積網(wǎng)絡(luò)中后,語義特征圖的分辨率過小和丟失過多細(xì)節(jié)信息導(dǎo)致分割邊界不準(zhǔn)確,從而影響了全卷積網(wǎng)絡(luò)的分割精度.針對該問題,研究人員提出了諸多基于高分辨率語義特征圖的算法,包括利用跨層結(jié)構(gòu)、膨脹卷積和基于全分辨率的算法.
3.1 跨層結(jié)構(gòu)算法
基于跨層結(jié)構(gòu)的算法[14,54-56]通過融合較淺層的特征圖提高語義特征圖的分辨率.在前向傳播過程中,卷積神經(jīng)網(wǎng)絡(luò)的特征圖分辨率逐漸變小,每經(jīng)過一個池化層,特征圖的邊長會減小為原來的1/2.因此較淺層的特征圖分辨率較大,保留了更多的細(xì)節(jié).基于跨層結(jié)構(gòu)的算法其基本思路為通過融合較淺層的分辨率較大的特征圖,提高語義特征圖的分辨率,捕捉更多的細(xì)節(jié)信息,從而提高分割精度.這些基于跨層結(jié)構(gòu)的算法通常在反卷積模塊中融合較淺層的特征圖,通過使用反卷積層將語義特征圖的分辨率擴大后,與網(wǎng)絡(luò)淺層特征圖的分辨率恰好相等,然后進行融合,之后進行后續(xù)的反卷積操作.例如FCN-8s[14]通過融合分辨率為原始圖像大小的1/16和1/8的淺層特征圖,將Cityscapes數(shù)據(jù)集的mIoU性能從61.3%提高到65.3%;U-Net[54]將從1/16到原始圖像大小的特征圖均進行了融合;LRR[55]借鑒了拉普拉斯金字塔結(jié)構(gòu),通過利用多個淺層的不同分辨率特征圖對細(xì)節(jié)進行重建獲取高分辨率的語義特征圖,在Cityscapes數(shù)據(jù)集上取得69.7%的mIoU;RefineNet[56]設(shè)計了一種遞歸的多路修正網(wǎng)絡(luò)結(jié)構(gòu),利用淺層高分辨特征圖中的信息對深層低分辨率的特征圖進行修正,從而生成高分辨的語義特征圖,在Cityscapes數(shù)據(jù)集上將mIoU提高到73.6%.基于跨層結(jié)構(gòu)的算法通過在反卷積模塊中利用淺層特征圖恢復(fù)卷積模塊中丟失的細(xì)節(jié)信息,但是由于這些細(xì)節(jié)信息難以被完美恢復(fù),這限制了跨層結(jié)構(gòu)算法的分割性能.
3.2 膨脹卷積算法
基于跨層結(jié)構(gòu)的算法主要在“卷積-反卷積”結(jié)構(gòu)的反卷積模塊提升語義特征圖的分辨率,但在卷積模塊中語義特征圖的分辨率依然會下降到非常低,如原始輸入大小的1/32.而基于膨脹卷積的算法[48,57-59]著眼于在卷積模塊中保持語義特征圖的分辨率,如保持在原始輸入大小的1/8,這樣就可以在卷積模塊中保留更多的細(xì)節(jié)信息.
圖像識別網(wǎng)絡(luò)中,特征圖分辨率的下降是由步長為2的池化操作引起的,即每2步的計算中丟棄1個結(jié)果.如果將池化操作的步長從2改為1,則可以保持特征圖的分辨率,即保留了上述被丟棄的結(jié)果.但在后續(xù)的卷積操作中,特征圖中原來相鄰的特征向量間插入了本應(yīng)被丟棄的特征向量,與卷積核直接相乘時會造成錯位,導(dǎo)致錯誤的卷積結(jié)果.為解決該問題,DeepLab系列算法[48,57-59]使用了膨脹卷積操作代替標(biāo)準(zhǔn)卷積.如圖5所示,膨脹卷積會在卷積核向量中插入一個0,將卷積核邊長“膨脹”為原來的2倍.膨脹后的卷積核與修改池化操作步長后得到的特征圖進行卷積,可以有效解決相乘錯位的問題.原來被丟棄的特征向量會恰好與插入的0相乘,并不影響最終的卷積結(jié)果.因此,膨脹卷積可以保證將池化操作的步長從2改為1后,后面的卷積層依然可以得到正確的卷積結(jié)果.值得注意的是,若某一個池化層的步長從2改為1,其后的所有卷積層均需使用膨脹系數(shù)為2的膨脹卷積.如果后面又出現(xiàn)了將池化層的步長從2改為1的修改,則在之后的所有卷積層的膨脹系數(shù)需要再乘2,即使用膨脹系數(shù)為4的膨脹卷積,以此類推.例如,將圖像識別網(wǎng)絡(luò)的第4和第5階段的池化層步長從2改為1,并對其后的卷積層分別使用膨脹系數(shù)為2和4的膨脹卷積,將卷積模塊的語義特征圖分辨率從原始圖像大小的1/32提高到1/8.使用膨脹卷積可以在“卷積-反卷積”結(jié)構(gòu)的卷積模塊中保持較高分辨率的語義特征圖,從而保留更多的細(xì)節(jié)信息,提高分割的精度,例如DeepLabv2[48]在Cityscapes數(shù)據(jù)集上取得mIoU為70.4%.膨脹卷積算法由于其方便有效的特點,被廣泛應(yīng)用于場景分割算法的卷積模塊中.
3.3 全分辨率算法
基于膨脹卷積的算法只對語義特征圖進行一定程度的擴大,從原始圖像的1/32擴大為1/8,依然丟失了部分細(xì)節(jié)信息,對分割邊界的確定造成一定影響.相比之下,全分辨率殘差網(wǎng)絡(luò)(FRRN)[60]則提出了一種基于全分辨率特征圖的算法,將特征圖分辨率始終保持在原始圖像大小.該算法借鑒了殘差學(xué)習(xí)的思想,包含2個信息流:殘差流和池化流.其中殘差流不包含任何池化和下采樣操作,將該流的特征圖始終保持在與原始圖像相同的分辨率大小;而池化流則包含若干步長為2的池化操作,特征圖的分辨率先減小后增大.殘差流側(cè)重于捕捉細(xì)節(jié)信息,主要用于確定精確的分割邊界;而池化流則側(cè)重于學(xué)習(xí)語義特征,主要用于識別視覺要素的類別.殘差流和池化流在網(wǎng)絡(luò)的前向傳播過程中不斷進行交互,從而使全分辨率殘差網(wǎng)絡(luò)可以同時學(xué)習(xí)語義特征和捕捉細(xì)節(jié)信息,因此可以獲得更加精確的分割結(jié)果.FRRN在Cityscapes數(shù)據(jù)集取得的mIoU為71.8%.但全分辨率殘差網(wǎng)絡(luò)也有其局限性.由于殘差流始終保持在原始圖像的分辨率,因此其維度較高,會占用大量的顯存空間.同時,殘差流和池化流的交互操作也會產(chǎn)生大量的空間消耗.這都制約了全分辨率殘差網(wǎng)絡(luò)在高分辨率場景圖像中的使用.
4 基于多尺度的場景分割算法
由于場景圖像中存在一定的透視畸變,且包含多種類別的視覺要素,因此場景圖像中視覺要素的尺度是多樣的.而卷積神經(jīng)網(wǎng)絡(luò)的感受野大小是固定的.對于圖像中尺度較大的視覺要素,感受野只能覆蓋其局部區(qū)域,容易造成錯誤的識別結(jié)果;而對于圖像中尺度較小的視覺要素,感受野會覆蓋過多的背景區(qū)域,導(dǎo)致誤判為背景類別.針對上述問題,研究人員提出了基于多尺度的場景分割算法,通過獲取多尺度信息學(xué)習(xí)不同尺度視覺要素的特征表達,以提高場景分割的精度.大部分基于多尺度的算法通過設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu)獲取多尺度特征,可分為共享結(jié)構(gòu)、層級結(jié)構(gòu)、并行結(jié)構(gòu)3類,如圖6所示.這些算法所采用的尺度通常通過人工設(shè)計,與網(wǎng)絡(luò)的結(jié)構(gòu)緊密相關(guān).獲取多尺度信息之后再通過多種方法融合多尺度特征.另外一些算法則利用自適應(yīng)學(xué)習(xí)而非人工設(shè)計的方法獲取多尺度特征.
4.1 共享結(jié)構(gòu)算法
基于共享結(jié)構(gòu)的算法[61-62]主要在卷積模塊中利用一個參數(shù)共享的卷積神經(jīng)網(wǎng)絡(luò).通過將輸入圖像縮放為不同的尺度(通常使用2~3種),均輸入到共享網(wǎng)絡(luò)中,從而獲取不同尺度的語義特征圖.之后通過上下采樣將不同尺度的語義特征圖插值到相同的分辨率,再進行特征融合.這種算法并沒有改變卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),即沒有改變網(wǎng)絡(luò)的感受野大小,而是通過調(diào)整輸入圖像的尺度獲取多尺度特征.同時通過將輸入圖像進行縮放,使共享網(wǎng)絡(luò)獲得處理多尺度視覺要素的能力.利用共享結(jié)構(gòu),F(xiàn)eatMap-Net[62]在Cityscapes數(shù)據(jù)集上達到mIoU為71.6%.基于共享結(jié)構(gòu)的算法需要將同一幅輸入圖像利用不同尺度計算若干次,因此會使卷積模塊的計算量成倍增加,降低分割速度.
4.2 層級結(jié)構(gòu)算法
基于層級結(jié)構(gòu)的算法[63-65]通過卷積神經(jīng)網(wǎng)絡(luò)不同階段的特征圖獲取多尺度信息.卷積神經(jīng)網(wǎng)絡(luò)在前向傳播過程中,隨著卷積和池化操作,感受野不斷增大.較淺層的特征圖對應(yīng)的感受野較小,特征的尺度也較小;而較深層的特征圖對應(yīng)的感受野較大,特征的尺度也較大.因此,通過融合卷積神經(jīng)網(wǎng)絡(luò)不同階段的特征圖即可獲取多尺度信息.
利用層級結(jié)構(gòu),ML-CRNN[65]在Cityscapes數(shù)據(jù)集的mIoU達到71.2%.由于不同階段特征圖的分辨率不同,融合前需要利用上下采樣等方法將特征圖插值到相同的分辨率再進行融合.基于層級結(jié)構(gòu)的算法不會引起過多的計算量,但卷積神經(jīng)網(wǎng)絡(luò)的較淺層通常更偏重學(xué)習(xí)圖像的視覺特征,而較深層更偏重學(xué)習(xí)圖像的語義特征.將淺層與深層特征進行融合時會對最終的語義特征圖引入一定的噪聲,損害語義表達的精確度.
4.3 并行結(jié)構(gòu)算法
基于并行結(jié)構(gòu)的算法在卷積模塊獲得的語義特征圖之后連接多個感受野不同的并行分支,形成一種并行的結(jié)構(gòu),以捕捉不同尺度的特征.其中,PSPNet[66]使用空間金字塔池化,利用不同系數(shù)的池化層生成對應(yīng)多個尺度的分支,再利用不同的上采樣系數(shù)在特征圖上采樣到相同的分辨率,在Cityscapes數(shù)據(jù)集上獲得mIoU為81.2%.而DeepLab系列算法[48,58-59]則使用多尺度膨脹卷積的思想,建立ASPP(atrous spatial pyramid pooling)模塊,利用不同系數(shù)的膨脹卷積層生成對應(yīng)多個尺度的分支.ASPP模塊中不同分支的特征圖分辨率相同,融合前不需要進行上采樣.其中,在Cityscapes數(shù)據(jù)集上DeepLabv3[58]的mIoU為81.2%,而DeepLabv3+[59]則將mIoU提升至82.1%.TKCN[67]將多個并行分支建立為樹型結(jié)構(gòu),提高了多尺度融合的效率,在Cityscapes數(shù)據(jù)集上的mIoU達到79.5%.Dense ASPP[68]將并行的ASPP模塊內(nèi)部加入全連接,從而高效地擴增了ASPP模塊能夠捕捉的尺度,并在Cityscapes數(shù)據(jù)集上DeepLabv3的mIoU達到80.6%.基于并行結(jié)構(gòu)的算法僅需在語義特征圖之后加入幾個新的分支,因此增加的計算量遠(yuǎn)遠(yuǎn)小于基于共享結(jié)構(gòu)的算法.同時由于這些并行分支都是從卷積模塊獲得的語義特征圖計算得到,相比基于層級結(jié)構(gòu)的算法更加適合于進行語義特征的學(xué)習(xí).
4.4 多尺度特征融合
利用4.1~4.3節(jié)所述的結(jié)構(gòu)獲取多尺度特征后,還需要將特征融合起來以預(yù)測分割結(jié)果.目前主流的特征融合算法包括特征連接、加權(quán)融合或基于注意力機制.基于特征連接的算法[63-64]將不同尺度的特征直接按通道進行拼接,后面連接一個卷積層或全連接層進行融合.因此這個卷積層的參數(shù)可以被視為是多尺度特征的融合系數(shù).基于加權(quán)融合的算法[48]則對每個尺度的特征使用不同的融合系數(shù),這些融合系數(shù)通常是人工預(yù)設(shè)的.基于注意力機制的融合算法[61,65]則通過學(xué)習(xí)不同尺度、不同位置最合適的注意力參數(shù)進行融合.這3種融合算法的最大區(qū)別是其需要的融合系數(shù)數(shù)量不同.其中特征連接算法使用的融合系數(shù)數(shù)量最多,特征圖的每個尺度、每個位置、每個通道的值都需要學(xué)習(xí)不同的融合系數(shù);而加權(quán)融合算法使用的融合系數(shù)數(shù)量最少,僅需要與尺度數(shù)量相同的融合系數(shù),這是因為相同的尺度特征在不同的位置和通道的值均使用相同的系數(shù);而使用注意力機制的算法需要的融合系數(shù)數(shù)量介于特征連接和加權(quán)融合算法之間,其思想為在每個空間位置學(xué)習(xí)最合適的尺度融合系數(shù).因此雖然不同尺度、不同位置需要利用注意力思想學(xué)習(xí)不同的融合系數(shù),但同一通道內(nèi)會共享融合系數(shù).在實際應(yīng)用中,特征連接算法參數(shù)量較大,加權(quán)融合算法相對簡單便捷,但需要人工設(shè)定合適的融合系數(shù).而由于場景圖像中不同空間位置的視覺要素尺度不同,使用注意力機制對不同空間位置學(xué)習(xí)不同的融合系數(shù)常??梢杂行岣咛卣魅诤系男Ч瑥亩@得較高的分割精度.
4.5 自適應(yīng)學(xué)習(xí)算法
4.4節(jié)所述的基于多尺度融合的算法所捕捉的尺度通常是人工預(yù)設(shè)的,且受限于計算復(fù)雜度一般僅使用3~5種尺度.這些人工設(shè)計的尺度無法涵蓋場景圖像中的視覺要素可能出現(xiàn)的所有尺度,會出現(xiàn)遺漏和偏差.視覺要素的尺度可能會較大或較小,超出人工預(yù)設(shè)尺度的范圍;而尺度在人工預(yù)設(shè)范圍內(nèi)的視覺要素也不一定會恰好符合某個預(yù)設(shè)尺度,而是更可能介于2個預(yù)設(shè)尺度之間.針對以上問題,文獻[69-72]提出了基于自適應(yīng)學(xué)習(xí)的多尺度變換算法.其中SAC[69]通過自適應(yīng)學(xué)習(xí)卷積核的縮放系數(shù)調(diào)整卷積的感受野大小,從而對場景圖像的不同空間位置學(xué)習(xí)多種尺度的特征,在Cityscapes數(shù)據(jù)集上的mIoU達到78.1%.而DeformableNet[71]則通過學(xué)習(xí)卷積核中卷積向量的偏移對卷積的感受野產(chǎn)生形變,也可以實現(xiàn)學(xué)習(xí)多種尺度特征的目的,并在Cityscapes數(shù)據(jù)集上獲得的mIoU為75.2%.FoveaNet[72]借鑒目標(biāo)檢測的思想,先自適應(yīng)檢測場景圖像中視覺要素尺度較小的區(qū)域,然后將該區(qū)域放大進行特征學(xué)習(xí),最后融合2種尺度的結(jié)果,在Cityscapes數(shù)據(jù)集上的mIoU為74.1%.相比人工預(yù)設(shè)尺度,基于自適應(yīng)學(xué)習(xí)的算法更加靈活,學(xué)習(xí)到的尺度更加貼合場景圖像中視覺要素的實際尺度.
5 基于空間上下文的場景分割算法
場景圖像存在著復(fù)雜的空間相關(guān)關(guān)系,可以用于區(qū)分視覺上較為相似的類別,對于視覺要素的識別具有重要的幫助作用.而目前基于“卷積-反卷積”結(jié)構(gòu)的場景分割算法所得到的語義特征圖是通過卷積的滑動窗口操作計算所得,特征向量之間并沒有交互,即并沒有考慮場景圖像的空間相關(guān)關(guān)系.針對上述問題,研究人員提出了基于空間上下文的場景分割算法,通過捕捉場景圖像的空間上下文信息和相關(guān)關(guān)系輔助視覺要素的識別,進一步提升分割精度.基于空間上下文的算法主要分為基于多維循環(huán)神經(jīng)網(wǎng)絡(luò)、基于概率圖模型和基于注意力機制的算法.
5.1 基于多維循環(huán)神經(jīng)網(wǎng)絡(luò)
多維循環(huán)神經(jīng)網(wǎng)絡(luò)[73]具有循環(huán)的結(jié)構(gòu),適用于序列數(shù)據(jù)的編碼和特征學(xué)習(xí).在循環(huán)的過程中,多維循環(huán)神經(jīng)網(wǎng)絡(luò)可以不斷存儲序列中的有用信息而丟棄無關(guān)信息,同時捕捉序列前后節(jié)點之間的相關(guān)關(guān)系.因此,可以利用多維循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉場景圖像中的空間上下文信息和相關(guān)關(guān)系.為縮短循環(huán)神經(jīng)網(wǎng)絡(luò)的序列長度、降低計算復(fù)雜度,文獻[74-76]將循環(huán)神經(jīng)網(wǎng)絡(luò)連接于卷積模塊得到的低分辨率語義特征圖之后,對語義特征圖的特征向量進行編碼.另一些算法[65,77-78]則在深度神經(jīng)網(wǎng)絡(luò)不同層的特征圖之間利用循環(huán)神經(jīng)網(wǎng)絡(luò)進行編碼,從不同層的特征圖中捕捉空間上下文信息.針對語義特征圖的結(jié)構(gòu)特點,研究人員將循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計為對角結(jié)構(gòu)、八鄰域結(jié)構(gòu)、圖結(jié)構(gòu)等不同的拓?fù)浣Y(jié)構(gòu),如圖7所示.對角結(jié)構(gòu)算法[65,74]從語義特征圖的某個角點(如左上角點)出發(fā),向?qū)欠较蜻M行編碼.在每一步的編碼過程中,均使用水平(如從左到右)、垂直(如從上到下)、對角(如從左上到右下)3個方向的特征作為序列的輸入.為兼顧不同方向的空間上下文信息,可以將語義特征圖的4個角點均作為出發(fā)點,將得到的4個方向編碼結(jié)果進行融合,從而獲取整幅圖像的空間上下文信息.基于八鄰域結(jié)構(gòu)的算法[75]則以語義特征圖中的每個特征向量作為出發(fā)點,向周圍的8個方向進行輻射和傳播,逐漸擴大到整幅圖像,因此語義特征圖中的每個位置都會聚合整幅圖像的空間上下文信息.對角結(jié)構(gòu)和八鄰域結(jié)構(gòu)算法都將語義特征圖中的每個特征向量作為序列單元.與之不同的是,圖結(jié)構(gòu)算法[76-77]結(jié)合了圖像的低層特征,使用圖像的超像素對應(yīng)的特征向量作為序列單元.同時通過超像素的鄰接關(guān)系構(gòu)建圖結(jié)構(gòu),然后建立序列對超像素對應(yīng)的節(jié)點進行特征編碼.利用多維循環(huán)神經(jīng)網(wǎng)絡(luò),ML-CRNN[65]使用對角結(jié)構(gòu)對不同層特征圖進行編碼捕捉空間上下文,在Cityscapes數(shù)據(jù)集上取得的mIoU為71.2%.
5.2 基于概率圖模型
概率圖模型具有很強的概率推理能力,通過最大化特征的概率分布獲得類別預(yù)測結(jié)果.概率圖模型也被應(yīng)用于場景分割中捕捉場景圖像的空間上下文信息和相關(guān)關(guān)系.為有效減少概率圖模型的計算復(fù)雜度,通常在卷積模塊獲得的低分辨率語義特征圖之后建立概率圖模型,并以語義特征圖的特征向量作為概率圖模型的節(jié)點.概率圖模型通常被建模為某種特殊的層插入到卷積神經(jīng)網(wǎng)絡(luò)的整個結(jié)構(gòu)中,實現(xiàn)端對端的訓(xùn)練和優(yōu)化.其中最常用的是Markov隨機場和條件隨機場.Markov隨機場基于Markov模型和貝葉斯理論,可以根據(jù)計算統(tǒng)計最優(yōu)準(zhǔn)則確定分割問題的目標(biāo)函數(shù),通過求解滿足目標(biāo)函數(shù)的分布將分割問題轉(zhuǎn)化為最優(yōu)化問題.DPN[79]將深度卷積神經(jīng)網(wǎng)絡(luò)與Markov隨機場結(jié)合,設(shè)計同時性卷積層近似Mean-field算法對Markov隨機場進行求解,在Cityscapes數(shù)據(jù)集上的mIoU達到66.8%.條件隨機場模型則是基于無向圖的概率模型,計算條件隨機場模型的能量函數(shù)中的勢函數(shù),通過最大化類別標(biāo)簽的條件概率來得到無向圖中節(jié)點的預(yù)測類別.CRFasRNN[80]將條件隨機場利用循環(huán)神經(jīng)網(wǎng)絡(luò)進行建模,連接在深度卷積神經(jīng)網(wǎng)絡(luò)之后進行端對端的訓(xùn)練,在Cityscapes數(shù)據(jù)集上的mIoU達到62.5%.FeatMap-Net[62]在多尺度融合得到的語義特征圖之后建立條件隨機場模型學(xué)習(xí)“塊與塊”和“塊與背景”的相關(guān)關(guān)系捕捉空間上下文,在Cityscapes數(shù)據(jù)集上取得的mIoU為71.6%.SegModel[81]利用條件隨機場同時捕捉特征圖和人工標(biāo)注見的空間上下文,從而提高分割精度,在Cityscapes數(shù)據(jù)集上獲得的mIoU為79.2%.
5.3 基于注意力機制
基于注意力機制的算法[82-85]通過融合局部區(qū)域內(nèi)的特征向量捕捉場景圖像中的空間上下文信息和相關(guān)關(guān)系.在使用注意力機制時,需要添加額外的層學(xué)習(xí)注意力系數(shù),之后利用該系數(shù)對局部區(qū)域內(nèi)的特征向量進行加權(quán)聚合.由于注意力系數(shù)的學(xué)習(xí)和局部特征的聚合過程都是可導(dǎo)的,注意力機制可以靈活被插入在神經(jīng)網(wǎng)絡(luò)的不同位置,并進行端對端的學(xué)習(xí).由于注意力系數(shù)對局部區(qū)域內(nèi)的不同位置會學(xué)習(xí)到不同的參數(shù),因此在聚合時可以提高局部區(qū)域內(nèi)相關(guān)信息的影響,并抑制局部區(qū)域內(nèi)的無關(guān)信息的影響.同時,特征圖中的不同位置可以通過模型訓(xùn)練學(xué)習(xí)到最適合的注意力系數(shù),從而有效捕捉空間上下文信息和相關(guān)關(guān)系.GLRN[82]通過學(xué)習(xí)注意力參數(shù)學(xué)習(xí)局部聚合系數(shù)捕捉局部上下文,對分割結(jié)果的邊界進行修正,在Cityscapes數(shù)據(jù)集上的mIoU達到77.3%.PSANet[83]利用注意力機制學(xué)習(xí)雙向自適應(yīng)聚合參數(shù)捕捉局部上下文,在Cityscapes數(shù)據(jù)集上取得的mIoU為81.4%.DANet[84]設(shè)計了2個注意力分支,分別學(xué)習(xí)針對位置和通道的注意力參數(shù),用于捕捉局部和全局空間上下文,在Cityscapes數(shù)據(jù)集上的mIoU達到81.5%.OCNet[85]利用注意力機制學(xué)習(xí)針對相同視覺類別的空間上下文,在Cityscapes數(shù)據(jù)集上取得的mIoU為81.7%.
6 場景分割相關(guān)數(shù)據(jù)集
場景分割數(shù)據(jù)集對驗證場景分割算法的有效性有重要意義.同時,帶標(biāo)注的大規(guī)模數(shù)據(jù)集可以有效提升深度學(xué)習(xí)模型的性能.由于場景分割需要對場景中的每個像素進行類別識別,場景分割數(shù)據(jù)集的人工標(biāo)注也需要精確到像素級別,因此場景分割數(shù)據(jù)集的標(biāo)注工作十分費時費力.近年來,公開的場景分割數(shù)據(jù)集數(shù)量越來越多,規(guī)模越來越大,為場景分割問題的發(fā)展起到極大的推動作用.本節(jié)將從數(shù)據(jù)集規(guī)模等方面介紹常用的場景分割數(shù)據(jù)集,并分析其特點.這些數(shù)據(jù)集的基本信息如表1所示,部分示例如圖8所示。
6.1 SIFT Flow
SIFT Flow數(shù)據(jù)集[51]中的圖像由8種典型的戶外場景組成.該數(shù)據(jù)集共包含2 688個圖像樣本,其中2 488個訓(xùn)練樣本、200個測試樣本,每個圖像的分辨率為256×256.同時數(shù)據(jù)集中包含33個語義類別的像素級人工標(biāo)注.SIFT Flow數(shù)據(jù)集的圖像分辨率較小,場景比較簡單,類別數(shù)和圖像數(shù)量較少.
6.2 CamVid
CamVid數(shù)據(jù)集[86]中的圖像均采集于街景,包括701個街景圖像,其中包括468個訓(xùn)練圖像和233個測試圖像.每個圖像樣本的分辨率為960×720,并且包含11個語義類別的像素級人工標(biāo)記.CamVid數(shù)據(jù)集的類別數(shù)和圖像數(shù)量較少,但圖像分辨率相對較大,場景針對于街景,對自動駕駛相關(guān)技術(shù)具有極大意義.
6.3 Barcelona
Barcelona數(shù)據(jù)集[87]由14 871個訓(xùn)練圖像樣本和279個測試圖像樣本組成.其中訓(xùn)練圖像采集于室內(nèi)和室外場景,而測試圖像均采集于巴塞羅那的街道場景.該數(shù)據(jù)集中不同圖像樣本的分辨率不同,并且包含170個語義類別的像素級人工標(biāo)記.
6.4 PASCAL Context
PASCAL Context數(shù)據(jù)集[88]是以PASCAL VOC數(shù)據(jù)集[89]為基礎(chǔ)建立的.原始PASCAL VOC數(shù)據(jù)集僅標(biāo)注了前景視覺要素的類別,而PASCAL Context數(shù)據(jù)集還提供了背景視覺要素的類別,因此更加適合于場景分割算法.PASCAL Context數(shù)據(jù)集包括4 998個訓(xùn)練圖像樣本和5 105個測試圖像樣本,每個圖像樣本的分辨率不超過500×500,并被標(biāo)記為59個類別和1個其他類.相比原始PASCAL VOC數(shù)據(jù)集,PASCAL Context數(shù)據(jù)集包含的圖像樣本和類別數(shù)量更多,難度也更大.
6.5 Cityscapes
Cityscapes數(shù)據(jù)集[53]中的圖像是利用車載攝像頭采集的歐洲城市的街景.該數(shù)據(jù)集包含共5 000個圖像樣本,劃分為2 975個訓(xùn)練圖像樣本、500個驗證圖像樣本和1 525個測試圖像樣本.數(shù)據(jù)集中包含19個類別的像素級的人工標(biāo)注,其中每個圖像樣本的分辨率為2048×1024.Cityscapes數(shù)據(jù)集針對于街道場景,包含的圖像樣本數(shù)量和類別數(shù)較少,但圖像的分辨率較大,這就需要在設(shè)計算法時同時兼顧算法速度和性能,對自動駕駛相關(guān)技術(shù)具有重大的意義,是目前評測深度學(xué)習(xí)場景分割算法常用的數(shù)據(jù)集之一.
6.6 ADE20K
ADE20K數(shù)據(jù)集[90]取材于Places場景分類數(shù)據(jù)集.該數(shù)據(jù)集包含20 210個訓(xùn)練圖像樣本、2 000個驗證圖像樣本和3 351個測試圖像樣本,同時包含150個語義類別的像素級人工標(biāo)注.數(shù)據(jù)集中圖像樣本的分辨率不同且差距較大,最小的圖像邊長約200像素,最大的圖像邊長超過2 000像素.ADE20K數(shù)據(jù)集包含的場景類別較多,有會議室、臥室等室內(nèi)場景,也有沙灘、街道等室外場景,且數(shù)據(jù)集中包含的樣本數(shù)量和類別數(shù)也較多,圖像的分辨率差距較大,因此ADE20K數(shù)據(jù)集的難度較高,對場景分割算法提出了更大的挑戰(zhàn),也催生了一部分優(yōu)秀的研究成果,是目前評測深度學(xué)習(xí)場景分割算法常用的數(shù)據(jù)集之一.
6.7 COCO-Stuff
COCO-Stuff數(shù)據(jù)集[91]是在COCO數(shù)據(jù)集[92]的基礎(chǔ)上對標(biāo)注進行擴展得到的.與PASCAL Context數(shù)據(jù)集和PASCAL VOC數(shù)據(jù)集的關(guān)系類似,原始COCO數(shù)據(jù)集僅標(biāo)注了前景視覺要素的類別,而COCO-Stuff數(shù)據(jù)集還提供了背景視覺要素的類別,因此更加適合于場景分割算法.COCO-Stuff數(shù)據(jù)集共包含10 000個圖像樣本,其中9 000個訓(xùn)練圖像樣本和1 000個測試圖像樣本.同時包含172個類別的像素級標(biāo)注,其中80個前景類別、91個背景類別和1個無標(biāo)注類別.COCO-Stuff數(shù)據(jù)集包含的場景種類、語義類別和圖像樣本數(shù)量均較多,因此難度較高,對場景分割算法提出了更大的挑戰(zhàn),是目前評測深度學(xué)習(xí)場景分割算法常用的數(shù)據(jù)集之一.此外,COCO-Stuff數(shù)據(jù)集還可作為預(yù)訓(xùn)練數(shù)據(jù)集,從而提升深度學(xué)習(xí)場景分割模型在其他場景分割數(shù)據(jù)集上的性能.
7 算法泛化能力分析
算法泛化能力對算法的實際應(yīng)用具有重要意義.我們從2個方面分析基于深度學(xué)習(xí)的場景分割算法的泛化能力:1)算法在不同數(shù)據(jù)集的泛化能力;2)算法在不同任務(wù)的泛化能力.表2展示了目前流行的基于深度學(xué)習(xí)的場景分割算法在不同場景分割數(shù)據(jù)集的分割精度,包括Cityscapes[53],PASCAL Context[88]和ADE20K[90]這3個數(shù)據(jù)集.同時列舉了部分算法在語義分割數(shù)據(jù)集PASCAL VOC 2012[89]的分割精度.語義分割不需要對背景類別進行分割,與場景分割相比更加關(guān)注前景的類別,因此場景分割與語義分割是不同的圖像分割子任務(wù).首先,我們對比表2中現(xiàn)有基于深度學(xué)習(xí)的場景分割算法在場景分割不同數(shù)據(jù)集上的結(jié)果.由于不同數(shù)據(jù)集存在著類別差異,導(dǎo)致同一算法在不同數(shù)據(jù)集的精度值會有一定差異.但總體看來,在其中某個場景分割數(shù)據(jù)集上分割精度較高的算法在另外2個場景分割數(shù)據(jù)集的精度也相對較高,這說明現(xiàn)有算法在場景分割的不同數(shù)據(jù)集上具有較好的泛化能力.其次,我們對比表2中算法在場景分割和語義分割數(shù)據(jù)集上的結(jié)果.總體而言,在場景分割數(shù)據(jù)集上分割精度越高的算法在語義分割數(shù)據(jù)集上也可以得到越高的分割精度,這說明現(xiàn)有場景分割算法在不同的分割子任務(wù)上也具有較好的泛化能力.
8 總結(jié)與展望
本文通過對近年來出現(xiàn)的基于深度學(xué)習(xí)的場景分割算法進行梳理和介紹,得到3個結(jié)論:
1) 目前基于深度學(xué)習(xí)的場景分割算法主要使用了全卷積網(wǎng)絡(luò)框架,該框架利用在大規(guī)模的圖像分類數(shù)據(jù)集上預(yù)訓(xùn)練得到的圖像識別網(wǎng)絡(luò),全卷積化后遷移到場景分割數(shù)據(jù)集上進行重新訓(xùn)練.全卷積網(wǎng)絡(luò)的分割性能優(yōu)于傳統(tǒng)基于圖像特征的場景分割方法,將SIFT Flow數(shù)據(jù)集[51]的像素級正確率從傳統(tǒng)方法[52]的78.6%提升至85.2%.
2) 針對場景分割中面臨的分割粒度細(xì)、尺度變化多樣、空間相關(guān)性強3個主要難點和挑戰(zhàn),在全卷積網(wǎng)絡(luò)的基礎(chǔ)上,研究人員提出諸多基于深度學(xué)習(xí)的場景分割算法.其中針對分割粒度細(xì)的問題,研究人員提出了基于高分辨率語義特征圖的算法,包括利用跨層結(jié)構(gòu)、膨脹卷積、全分辨率語義特征圖的算法;針對尺度變化多樣的問題,研究人員提出了基于多尺度信息的算法,包括利用共享結(jié)構(gòu)、層級結(jié)構(gòu)、并行結(jié)構(gòu)再進行多尺度特征融合和利用自適應(yīng)學(xué)習(xí)多尺度特征的算法;針對空間相關(guān)性強的問題,研究人員提出了基于空間上下文的算法,包括利用多維循環(huán)神經(jīng)網(wǎng)絡(luò)、概率圖模型和注意力機制的算法.
3) 近年來基于深度學(xué)習(xí)的場景分割算法的性能取得了極大的提升,例如在Cityscapes數(shù)據(jù)集[53]上的mIoU從57.0%[16]提升至82.1%[57].
基于深度學(xué)習(xí)的算法雖然已經(jīng)成為場景分割的主流方法,但仍然面臨著諸多困難和挑戰(zhàn).除上述場景分割問題本身帶來的困難和挑戰(zhàn)外,還存在4個更具挑戰(zhàn)性的場景分割問題:
1) 基于快速和輕量級模型的場景分割.為達到較高的分割精度,目前的場景分割算法傾向于使用較大較深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致計算復(fù)雜度高、分割速度慢.同時較大較深的神經(jīng)網(wǎng)絡(luò)包含較多的參數(shù),增加了場景分割模型的存儲開銷.計算復(fù)雜度高的問題限制了場景分割算法在自動駕駛、視頻監(jiān)控等場景中的應(yīng)用,而存儲開銷大的問題限制了場景分割算法在移動平臺的使用.因此,設(shè)計快速且輕量級的場景分割模型具有極大的實際應(yīng)用價值.如何對場景分割算法進行模型壓縮、優(yōu)化和加速具有重要的研究意義且極具挑戰(zhàn)性.
2) 基于弱監(jiān)督的場景分割.由于場景分割問題需要對場景圖像中的每個像素判斷類別,全監(jiān)督的場景分割算法需要依賴大量像素級的人工標(biāo)注,因此場景分割數(shù)據(jù)集的建立需要大量的人力物力.同時,現(xiàn)有的場景分割數(shù)據(jù)集的圖像和類別數(shù)目有限,制約了場景分割算法的進一步發(fā)展.因此,如果利用圖像的弱標(biāo)簽信息,如目標(biāo)框級別、圖像級別的標(biāo)注訓(xùn)練場景分割模型,可以大大降低人工標(biāo)注的成本.但利用弱監(jiān)督信息會大幅度降低場景分割模型的精度.因此,基于弱監(jiān)督的場景分割具有重要的研究意義,也更加具有挑戰(zhàn)性.
3) 基于深度信息的場景分割.現(xiàn)有的大部分場景分割算法主要利用了場景圖像的RGB信息.但在數(shù)據(jù)采集時,可以通過Kinect等基于紅外的設(shè)備獲同時取場景的深度信息,并利用RGBD信息設(shè)計場景分割算法.場景的深度信息相比圖像信息具有較大差異,并在分割空間距離較大的視覺要素時具有獨特的優(yōu)勢,例如可以更好地對前景和背景的邊緣進行分割.因此可以利用深度信息對圖像信息進行補充,對提高場景分割精度具有重要幫助.
4) 基于時序上下文信息的場景分割.現(xiàn)有的大部分場景分割算法主要利用了靜態(tài)的場景圖像.而在視頻監(jiān)控、自動駕駛等實際應(yīng)用場景中,可以獲取場景圖像的時序上下文信息.可以通過挖掘時序上下文信息中的時序連續(xù)性提升場景分割精度.同時時序上連續(xù)的場景圖像也可以增加場景分割數(shù)據(jù)集的規(guī)模.因此,基于時序上下文信息的場景分割在實際應(yīng)用中具有重要的研究價值.
審核編輯:湯梓紅
評論
查看更多