目標檢測是計算機視覺領域內的熱點課題,在機器人導航、智能視頻監控及航天航空等領域都有廣泛的應用.本文首先綜述了目標檢測的研究背景、意義及難點,接著對基于深度學習目標檢測算法的兩大類進行綜述,即基于候選區域和基于回歸算法.對于第一類算法,先介紹了基于區域的卷積神經網絡(Region with Convolutional Neural Network,R-CNN)系列算法,然后從四個維度綜述了研究者在R-CNN系列算法基礎上所做的研究:對特征提取網絡的改進研究、對感興趣區域池化層的改進研究、對區域提取網絡的改進研究、對非極大值抑制算法的改進研究.對第二類算法分為YOLO(You Only Look Once)系列、SSD(Single Shot multibox Detector)算法及其改進研究進行綜述.最后根據當前目標檢測算法在發展更高效合理的檢測框架的趨勢下,展望了目標檢測算法未來在無監督和未知類別物體檢測方向的研究熱點.
1 引言
目標檢測的主要任務是從輸入圖像中定位感興趣的目標,然后準確地判斷每個感興趣目標的類別.當前目標檢測技術已經廣泛應用于日常生活安全、機器人導航、智能視頻監控、交通場景檢測及航天航空等領域.同時目標檢測是行為理解、場景分類和視頻內容檢索等其他高級視覺問題的基礎.但是,由于同一類物體的不同實例間可能存在很大的差異性,而不同類物體間可能非常相似,以及不同的成像條件和環境因素會對物體的外觀產生巨大的影響[1],使得目標檢測具有很大的挑戰性.
傳統的目標檢測算法采用類似窮舉的滑動窗口方式或圖像分割技術來生成大量的候選區域,然后對每一個候選區域提取圖像特征(包括HOG[2]、SIFT[3]、Haar[4]等),并將這些特征傳遞給一個分類器(如SVM[5]、Adaboost[6]和Random Forest[7]等)用來判斷該候選區域的類別.由于傳統方法提取的特征存在局限性,產生候選區域的方法需要大量的計算開銷,檢測的精度和速度遠遠達不到實際應用的要求,這使得傳統目標檢測技術研究陷入了瓶頸[8].
近些年基于深度學習的目標檢測算法形成兩大類別:基于候選區域和基于回歸.基于候選區域的目標檢測算法也稱為二階段方法,將目標檢測問題分成兩個階段:一是生成候選區域(region proposal),二是把候選區域放入分類器中進行分類并修正位置.基于回歸的目標檢測算法只有一個階段,直接對預測的目標物體進行回歸.
Sharma等人[9,10]僅僅綜述了傳統的目標檢測算法,Chahal等人[11]對基于深度學習的目標檢測算法從算法實現的角度進行了綜述,Kemal等人[12]從目標檢測算法中不平衡問題的角度進行了綜述,Zhao等人[13]從檢測框架和檢測子任務兩個角度進行了綜述.與以上研究綜述不同的是,本文從一個新穎的角度歸類綜述了近些年目標檢測領域的經典算法.在將其分為基于候選區域和基于回歸兩大類的前提下,對基于候選區域的目標檢測算法,介紹基于區域的卷積神經網絡(Region with Convolutional Neural Network,R-CNN)系列算法的發展史后,根據對不同模塊的改進研究進行歸類綜述:特征提取網絡、感興趣區域池化(Region of Interesting Pooling,ROI Pooling)層、區域提取網絡(Region Proposal Networks,RPN)、非極大值抑制(Non Maximum Suppression,NMS).對基于回歸的目標檢測算法,介紹YOLO(You Only Look Once)系列和SSD(Single Shot Multibox Detector)算法后,對基于SSD算法的改進研究進行細分論述:基于Anchor-based的改進研究和基于Anchor-free的改進研究.隨后介紹目標檢測領域流行的數據集.最后展望未來目標檢測研究的發展方向.
2 基于候選區域的目標檢測算法綜述
本節主要將近年來基于候選區域的目標檢測算法分為五個部分進行綜述,首先介紹了Faster R-CNN[14]框架的發展歷程,然后綜述了對Faster R-CNN算法的四個重要組成部分(特征提取網絡、ROI Pooling層、RPN、NMS算法)的改進研究.
2.1 R-CNN系列基礎框架的發展史
2014年,Girshick等人[15]成功將卷積神經網絡(Convolutional Neural Networks,CNN[16])運用在目標檢測領域中,提出了R-CNN算法,它將AlexNet[17]與選擇性搜索[18](selective search)算法相結合,把目標檢測任務分解為若干個獨立的步驟(如圖1所示),首先采用選擇性搜索算法提取2000個候選區域,然后對每個候選區域進行歸一化,并逐個輸入CNN中提取特征,最后對特征進行SVM分類和區域回歸.
R-CNN[15]算法在PASCAL VOC2007[19]數據集上的檢測精度達到了58.5%,相較于傳統的目標檢測算法取得了跨越性的進展.但還存在非常多的改進空間,如:對于單張圖像提取的2000個候選區域需要逐個輸入CNN中,導致計算開銷十分巨大,嚴重影響了檢測速度;而且候選區域輸入CNN前,必須剪裁或縮放至固定大小,這會使候選區域發生形變且丟失較多的信息,導致網絡檢測精度下降.
2014年He等人[20]提出了空間金字塔網絡(Spatial Pyramid Pooling Network,SPP-Net)檢測算法,它在CNN最后一層卷積層和全連接層之間加入SPP層(如圖2所示),使得網絡能夠輸入任意尺度的候選區域,從而每張輸入圖片只需一次CNN運算,就能得到所有候選區域的特征,這使得計算量大大減少.SPP-Net的檢測速率比R-CNN快了24~102倍,并打破了固定尺寸輸入的束縛.
2015年,Girshick等人[21]提出了Fast R-CNN算法(如圖3所示),他們受到SPP-Net算法的啟發,將SPP層簡化成單尺度的ROI Pooling層以統一候選區域特征的大小,而且進一步提出了多任務損失函數思想,將分類損失和邊界框回歸損失統一訓練學習,使得分類和定位任務不僅可以共享卷積特征,還可以相互促進提升檢測效果.
雖然Fast R-CNN有效地加快了檢測速率,但仍然依賴于選擇性搜索算法[18]來產生候選區域.有研究表明,卷積神經網絡的卷積層具有良好的定位目標的能力,只是這種能力在全連接層被削弱了.因此,2015年Ren等人[14]提出了Faster R-CNN算法框架(結構如圖4所示),設計了輔助生成樣本的RPN取代選擇性搜索算法.RPN是一種全卷積神經網絡(Fully Convolutional Network,FCN[22])結構,它將任意大小的特征圖作為輸入,經過卷積操作后產生一系列可能包含目標的候選區域,使算法實現了端到端的訓練,極大提高了檢測速度.
2.2 基于Faster R-CNN的改進研究
Faster R-CNN[14]算法在檢測的精度和速度上都取得了不錯的效果.它主要由四個模塊組成:特征提取網絡用于提取圖像特征;ROI Pooling層將不同大小的候選區域特征進行歸一化輸出;RPN根據圖像特征生成目標的候選區域;NMS[23]算法用于去除冗余檢測框.本小節綜述了在這四個功能模塊上的改進研究.
2.2.1 對特征提取網絡的改進研究
深度卷積神經網絡的淺層特征具有豐富的幾何信息,但對語義信息不敏感,不利于目標分類;而高層具有豐富的語義信息,但分辨率太低,不利于目標定位.僅利用最后一層卷積層的特征進行不同尺度目標的預測,效果顯然是不理想的,所以Faster R-CNN算法對于小目標的檢測精度較低.針對這個問題,有許多研究是通過融合多個卷積層的特征來提高小尺度目標的檢測效果.
2016年Kong等人[24]提出了HyperNet算法,通過融合多層卷積層的特征圖,得到具有多尺度信息的Hyper特征,該特征結合了卷積層高層的強語義信息、中層的輔助信息以及淺層的幾何信息.同年,Huang等人[25]采用多尺度思想,在特征提取網絡的高層和低層中提取多個不同尺度的特征分別進行預測.
2017年Lin等人[26]提出了特征金字塔網絡(Feature Pyramid Network,FPN),FPN構造了一種自頂向下帶有橫向連接的層次結構,提取多個不同尺度特征用于檢測,每個尺度特征都是高層特征與淺層特征融合所得,不僅具有較強的語義信息,還具有較豐富的幾何信息.
2018年Bharat等人[27]提出了圖像金字塔的尺度歸一化方法(Scale Normalization for Image Pyramids,SNIP).他們借鑒多尺度訓練思想,使用圖像金字塔網絡將圖像生成三種不同分辨率的輸入圖像,高分辨率圖像只用于小目標檢測,中等分辨率圖像只進行中等目標檢測,低分辨率圖像只進行大目標檢測.
2.2.2 對感興趣區域池化層的改進研究
ROI Pooling,即感興趣區域池化是將候選區域對應的特征圖劃分成固定數量的空間小塊,再對每個空間小塊進行最大池化或者平均池化操作,這樣就實現了不同尺度的候選區域能夠輸出同樣大小的特征圖.近年來的改進研究旨在更好保留或融合空間位置信息到ROI池化中,以提高檢測效果.
2016年Dai等人[28]提出了基于區域的全卷積神經網絡(Region-based Fully Convolutional Network,R-FCN),他們考慮到目標檢測任務是由分類任務和定位任務組成,分類任務要求目標特征具有平移不變性,而定位任務要求目標特征具有平移敏感性.為了緩解這兩者間的矛盾,提出了位置敏感ROI池化,可以編碼每個候選區域的相對空間位置信息,使得特征具有了對位置的敏感性.在此基礎上,Zhu等人[29]提出了CoupleNet算法,設計了由兩個分支組成的耦合模塊,一個分支采用位置敏感ROI池化獲取對象的局部信息,另一分支則使用兩個ROI池化分別獲取對象的全局信息和上下文信息,然后有效的結合候選區域的局部信息、全局信息和上下文信息進行檢測.
2017年Dai等人[30,31]提出了形變卷積網絡(Deformation Convolution Network,DCN),設計了可形變卷積和可形變ROI池化層.它們的感受野不再是一成不變的正方形,而是和物體的實際形狀相匹配,緩解了物體形變問題,使網絡學習了更多的空間位置信息,增強了定位能力.
2017年He等人[32]提出了Mask R-CNN算法,為了解決特征圖和原始圖像上的感興趣區域出現不對準問題提出了ROI Align層,并且增加了Mask預測分支,可以并行實現像素級的語義分割任務.而2018年Jiang等人[33]進一步改進了ROI Pooling提出了精準的感興趣區域池化(Precise ROI Pooling,PrROI Pooling).ROI Pooling采用的是最近鄰插值方法,它在將ROI映射到特征圖時和將ROI劃分池化區域時都存在取整近似運算,會丟失部分空間位置信息;ROI Align則取消了所有的取整運算,采用雙線性插值的方法計算每個空間塊的值,但只考慮N個插值點的值,而且N的大小是預定義的,不能根據空間塊的大小進行調整;而PrROI Pooling是采用二階積分的方法對空間塊進行池化操作,使感興趣區域保持更多的空間位置信息,實現更精準定位.
2.2.3 對區域提取網絡的改進研究
RPN是Faster R-CNN算法的主要創新點,它主要基于Anchor機制來產生大量目標候選區域.近年來的改進研究旨在產生更精確的候選區域,以提高檢測效果.
2017年,Zhao等人[34]提出了Cascade R-CNN算法,通過級聯三個區域交并比(Intersection Over Union,IOU)閾值遞增的R-CNN[15]檢測模型,對RPN產生的候選區域進行篩選,留下高IOU值的候選區域,有效提高了模型的檢測精度.與此不同,2018年Chen等人[35]在RPN階段引入上下文信息對候選區域進行微調,使得網絡定位的更加準確.
針對RPN中的Anchor機制需要人工預先設定尺度大小和長寬比等超參數的問題,2019年,Wang等人[36]提出了Guided-Anchoring方法,通過圖像特征來指導Anchor的生成.它由Anchor生成模塊和特征自適應模塊組成,其中Anchor生成模塊采用兩個分支分別預測Anchor的位置和形狀:位置預測分支預測出哪些區域作為中心點來生成Anchors;形狀預測分支則是根據位置預測分支得到的中心點來預測Anchor最佳的長和寬.特征自適應模塊根據生成的Anchor的形狀,使用一個3×3的可形變卷積來修正特征圖,以適應Anchor的形狀.
2.2.4 對NMS的改進研究
NMS算法首先人工設定一個IOU閾值,將同一類的所有檢測框按照分類置信度排序,選取分類置信度得分最高的檢測結果,去除那些與之IOU值超過閾值的相鄰結果,使網絡模型在召回率和精度之間取得較好的平衡.
NMS算法采用單一的IOU閾值會導致漏檢情況發生,為了解決這個問題,2017年,Bodla等人[37]提出了Soft NMS算法,它不是直接去除那些超過IOU閾值的相鄰結果,而是采用線性或者高斯加權的方式衰減它的置信度值,再選取合適的置信度閾值進行檢測框去重,對模型的漏檢有了很好的改善.在此基礎上,He等人[38]提出了Softer NMS算法,不是直接選取分類置信度得分最高的檢測框作為最終檢測結果,而是將與分類置信度最高的檢測框的交并比值大于一定閾值的所有檢測框的坐標進行加權平均,作為最終檢測結果,從而能夠更準確的定位物體.
2018年,Hu等人[39]提出目標關系模塊(Relation Module,RM)替代了NMS算法來對目標的檢測框進行去除冗余操作.RM借鑒了文獻[40]的思想對不同目標間的關系進行建模,并引入了注意力機制來優化檢測效果.同年,Jiang等人[33]發現檢測結果中存在分類置信度和定位準確度之間不匹配問題,所以提出了IOU-guided NMS[33]方法.他們將預測的檢測框與真值間的IOU值作為定位置信度,每一類根據定位置信度進行排序,從而改進了NMS過程,保留了定位更準確的檢測框.
針對常用的邊界框回歸損失函數(L1范數或L2范數)與IOU沒有強相關性,不能很好度量檢測框準確性的問題,2019年Hamid等人[41]提出了GIOU作為邊界框回歸損失函數,在計算檢測框與真值框IOU的基礎上,添加了對這兩個框的最小閉包區域面積的計算,通過IOU減去兩框非重疊區域占最小閉包區域的比重得到GIOU,其保留了IOU的原始性質的同時弱化了它的缺點,對邊界框的定位能力上有了大幅度的提升.
3 基于回歸的目標檢測算法綜述
基于回歸的目標檢測算法不需要候選區域生成分支,對給定輸入圖像,直接在圖像的多個位置回歸出目標的候選框和類別.本文將分成兩大系列來綜述基于回歸的目標檢測算法:YOLO[42]系列和SSD[43]系列.
3.1 YOLO系列目標檢測算法
2015年Redmon等人[42]提出了YOLO算法,將分類、定位、檢測功能融合在一個網絡當中,輸入圖像只需要經過一次網絡計算,就可以直接得到圖像中目標的邊界框和類別概率.如圖5所示,YOLO算法將整張輸入圖像劃分成S×S的網格圖,每個網格只負責物體中心落在該網格的目標物體以及只預測B個邊界框信息,然后選擇合適的置信度閾值去除那些存在目標可能性低的邊界框.雖然YOLO算法完全舍棄了候選區域生成步驟,極大提高了檢測速率,能滿足實時目標檢測的速度要求,但由于其網絡設計比較粗糙,遠遠達不到實時目標檢測的精度要求,而且存在目標不能精準定位、容易漏檢,小目標和多目標檢測效果不好等問題.
2017年Redmon等人[44]提出了YOLOv2算法,對YOLO算法進行了一系列改進,重點解決召回率低和定位精度差的問題.它借鑒了Faster R-CNN算法的Anchor機制,移除了網絡中的全連接層,使用卷積層預測檢測框的位置偏移量和類別信息.而且不同于原Anchor機制的手工設計,它利用K-Means聚類方式在訓練集中學習最佳的初始Anchor模板.不僅如此,YOLOv2添加了一個pass-through層,將淺層的特征圖連接到深層的特征圖,使網絡具有了細粒度特征.此外,YOLOv2可以采用多種數據集聯合優化訓練的方式,利用WordTree方法在ImageNet[45]分類數據集和MS COCO[46]檢測數據集上同步訓練,實現超過9000個目標類別的實時檢測任務.
2018年Redmon等人[47]提出了YOLOv3算法,它借鑒殘差網絡中跳躍連接的思路,構建了名為DarNet-53的53層基準網絡,該網絡只采用3×3和1×1的卷積層,具有與ResNet-152[48]相仿的分類準確率,但大大減少了計算量;為了處理多尺度目標,采用了3種不同尺度的特征圖來進行目標檢測,每個特征圖都是高層與淺層特征圖融合所得;在預測類別時,使用Logistic回歸方法代替Softmax方法,使得每個候選框可以預測多個類別,支持檢測具有多個標簽的對象.YOLOv3算法能滿足實時檢測任務的精度與速率的要求,成為了當前工程界首選的目標檢測算法之一.
3.2 SSD系列目標檢測算法
3.2.1 SSD算法
2016年Liu等人[43]提出了SSD算法,在回歸思想的基礎上,有效結合多尺度檢測的思想,提取多個不同尺度的特征圖進行檢測,遵循較大的特征圖用來檢測相對較小的目標,較小的特征圖檢測較大目標的策略,顯著提高了對大目標的檢測效果,對小目標檢測也有一定的提升.同時借鑒Faster R-CNN算法的Anchor機制,對提取的特征圖的每個位置上都預設固定數量的不同尺度和長寬比的先驗框(default boxes),網絡可以直接在特征圖上進行密集采樣提取候選框進行預測,在保持實時檢測速度的同時,提高了模型的定位準確度.如圖6所示,SSD網絡是基于全卷積網絡結構,它將基礎網絡VGG16[49]的全連接層替換為了卷積層,并在VGG16[49]網絡末端添加了幾個使特征圖尺寸逐漸減小的輔助性卷積層,用于提取不同尺度的特征圖,而且直接采用卷積操作對不同尺度的特征圖進行檢測.
SSD算法在檢測的速度和精度上都超越了Faster R-CNN算法,但SSD算法提取的不同卷積層特征獨立輸入各自的檢測分支,容易出現同一個物體被不同大小的邊界框同時檢測出來的情況,即重復檢測問題.而且每層的檢測分支僅關注自己分支上特定尺度的目標,沒有考慮到不同層、不同尺度目標間的關聯性,所以對小目標檢測效果一般.
3.2.2 基于Anchor-based方式的改進
2017年Jisoo等人[50]提出了RSSD算法,其在SSD[43]算法的基礎上,對提取的不同尺度的特征采用了特殊的特征融合方式:對于每個特定的尺度特征,分別將比其大的尺度特征進行池化操作,比其小的尺度特征進行反卷積操作,然后將這些特征進行串接融合形成新的特定尺度特征.這種融合方式使得每個尺度的特征都具有其他尺度的信息,增加了不同層特征圖之間的聯系,避免了同一目標重復檢測的問題.同年,Cheng等人[51]提出了DSSD算法,將VGG16[49]替換為ResNet101[48],增強了網絡特征提取能力,并設計了兩個特殊的模塊:預測模塊和反卷積模塊.預測模塊的結構類似殘差模塊,通過跳躍連接實現不同層特征之間的融合,從而提高特征的表征能力.反卷積模塊則是采用反卷積操作建立了一個Top-to-Down路徑,得到新的不同尺度的特征圖,這些特征圖融合了高層與淺層特征,引入了豐富的空間上下文信息,使得DSSD算法在檢測精度上有了大幅度的提升,但檢測速度有較大犧牲.在此基礎上,Lin等人[52]提出了RetinaNet算法,針對SSD算法因密集采樣導致的難易樣本嚴重失衡問題,提出了Focal Loss函數,其是在交叉熵損失函數的基礎上添加了兩個平衡因子,抑制了簡單樣本的梯度,將更多的注意力放在難分的樣本上.受Focal Loss的啟發,Li等人[53]提出了梯度協調機制(Gradient Harmonizing Mechanism,GHM)來解決樣本失衡問題,這種機制可以同時嵌入分類和回歸損失中來平衡訓練樣本的梯度,不僅減少了易分樣本的關注,而且避免了特別難分樣本對模型的負面影響.
2018年Liu等人[54]提出了RFB-Net算法,通過模擬人類視覺感受野,設計了感受野模塊(Receptive Field Block,RFB)增加網絡的特征提取能力.RFB結構借鑒了Inception[55]的思想,引入三個不同擴張率的3×3卷積層增大感受野,并且將這三個卷積的輸出以串接方式進行特征融合.此外,Zhang等人[56]提出了RefineDet算法,結合了一階段和二階段檢測算法的優點,設計了兩個模塊:物體檢測模塊和Anchor微調模塊,前者對密集的Anchors進行篩選去除一些不包含物體的負樣本,同時粗調篩選后的Anchors位置和尺寸,后者對物體檢測模塊輸出的Anchors進一步回歸,這使得網絡進行了兩次回歸任務,有效提升了網絡定位能力,并且樣本的篩選有效緩解了正負樣本不均衡問題.
SSD最新的改進研究[57~61]更加關注于合理和高效的運用FPN結構,提取具有豐富上下文信息和空間信息的多尺度特征,解決目標尺度變化問題.Ghaisi等人[58]受到神經結構搜索(Neural Architecture Search,NAS)的啟發,提出了NAS-FPN算法,該網絡模型自動搜索設計最優的FPN結構,實現跨尺度的特征融合,在網絡性能上超越了Mask R-CNN,但模型的訓練需要大量的GPU支持.此外,Zhao等人[59]提出了多層特征金字塔網絡(Multi-Level Feature Pyramid Network,MLFPN),通過級聯多個小型的FPN子網絡,形成不同層級的不同尺度特征,并對特征進行充分的重利用和融合,使網絡性能和小目標檢測都有很大的提升.
3.2.3 基于Anchor-free方式的改進
雖然SSD算法借鑒Anchor機制的思想大幅度提高了網絡的定位能力.但Anchor機制中存在兩個人工設計的超參數:尺度大小和長寬比.這不僅需要較強的先驗知識,而且提取的候選區域太多,增加了計算開銷,還引起正負樣本不均衡問題,所以有些研究者提出了Anchor-free的改進方法.
2018年,Hei Law等人[62]提出了CornerNet算法,借鑒了文獻[63]對關鍵點檢測的思想,采用Hourglass104網絡[63]作為特征提取網絡,直接預測物體的左上角點和右下角點來得到檢測框,將目標檢測問題當作關鍵點檢測問題來解決.在此基礎上,Zhou等人[64]提出了ExtremeNet算法,在關鍵點選取和關鍵點組合方式上做出了創新,通過選取物體上下左右四個極值點和一個中心點作為關鍵點,更加直接關注物體邊緣和內部信息,使得檢測更加穩定.Duan等人[65]發現ConerNet只使用左右角點會造成大量的誤檢,為了解決這個問題,提出了CenterNet算法,它在CornerNet的基礎上添加了中心點預測分支,使得組成一個物體檢測框的要求不僅僅是左右角點能夠匹配,而且檢測框的中心點也要有對應的中心點匹配.
上述的Anchor-free的方法都是基于人體關鍵點檢測的思想,使用非常龐大的Hourglass-104[63]網絡作為特征提取網絡,與此不同的是,Zhi等人[66]提出了基于全卷積的一階段目標檢測器(Fully Convolutional One-Stage object detection,FCOS),借鑒語義分割任務的思想,采用逐像素預測方式解決目標檢測問題,完全避免了與Anchor相關的復雜計算和超參數設計,同時使用FPN結構實現多尺度目標的預測,每個預測分支中添加了中心點損失來抑制中心點偏差大的檢測框,保證每個檢測框盡可能靠近目標中心,提高了模型定位能力.
4 相關數據集綜述
當前通用目標檢測任務中流行的數據集有:PASCAL VOC2007[19]、PASCAL VOC2012[67]、MS COCO[46]、ImageNet[45]、Open Images[68]、LIVS[69]等.
PASCAL VOC[19,67]數據集主要用于圖像分類和目標檢測任務,主要流行的有PASCAL VOC2007[19]數據集和PASCAL VOC2012[67]數據集.它們包含了20個常見的類別,每張圖片都有與之對應的XML文件標注了每個待檢測目標的位置和類別.
MS COCO[46]數據集用于目標檢測、語義分割、人體關鍵點檢測和字幕生成等任務,對于目標檢測任務,它是挑戰性最大的數據集之一.該數據集中的目標大部分來自于自然場景,包含日常復雜場景的圖像,而且在進行評估時使用更加嚴格的評估標準,要求算法具有更精確的定位能力.該數據集使用JSON格式的標注文件給出每張圖片中目標像素級別的分割信息,而且數據集中共包含80個對象類別的待檢測目標,目標間的尺度變化大,具有較多的小目標物體.
ImageNet[45]數據集用于圖像分類、目標檢測和場景分類等任務,包含約1420萬張圖片,2.2萬個類別,其中約103萬張圖片擁有明確的類別標注和物體的位置標注.對于目標檢測任務,它是具有200個對象類別的重要數據集,每張圖片的批注都以PASCAL VOC數據格式保存在XML文件中.
Open Images[68]數據集是對圖像分類、目標檢測、視覺關系檢測和實例分割等任務具有統一注釋的單個數據集,對于目標檢測任務,它總共包含190萬張圖片和針對600個對象類別的1600萬個邊界框,是具有對象位置注釋的最大現有數據集.
LIVS[69]數據集是2019年提出的大型實例分割數據集,包含了1000多個類別,164000張圖像,220萬個高質量的實例分割掩碼,這是即將應用于目標檢測領域的全新數據集,而且LIVS數據集中每個對象類別的訓練樣本很少,旨在用于目標檢測在低樣本數量條件下的研究.
5 總結和展望
目標檢測是一個十分重要的研究領域,具有廣泛的應用前景.本文將近些年涌現的基于深度學習的目標檢測算法分為基于候選區域和基于回歸的前提下,對這兩類算法從發展及不同方向的改進研究角度進行了詳細的綜述.并介紹了目前目標檢測領域流行的數據集.雖然當前目標檢測算法在實際生活中得到了廣泛應用,但依然存在許多挑戰,未來目標檢測算法在以下幾個方面值得進一步研究:
一是如何有效的結合上下文信息,解決小目標和被遮擋目標在復雜現實場景的檢測;二是探索更優的或專門為檢測任務設計的特征提取網絡,以及更優的檢測框選定方法;三是現在的目標檢測算法都是基于監督學習,現實中存在海量沒有標注的數據,所以研究如何采用弱監督學習的目標檢測算法是非常有價值的;四是探索如何從已知類別的目標檢測,結合有效語義信息,遷移到未知類別的目標檢測也是一個值得研究的方向.
編輯:黃飛
評論
查看更多