論文地址:https://arxiv.org/pdf/1901.01660.pdf
摘要
目前在孿生網(wǎng)絡追蹤器中使用的主干網(wǎng)絡相對較淺,例AlexNet。本文研究如何利用更深和更廣的卷積神經網(wǎng)絡來增強跟蹤的魯棒性和準確性。使用改進后的網(wǎng)絡直接替換,例如ResNet和Inception,并沒有帶來改進。主要原因是 1)神經元感受野的大幅增加導致特征可辨性和定位精度降低; 2)卷積的網(wǎng)絡 padding 在學習中引起位置偏差。
為了解決這些問題,我們提出了新的殘差模塊,以消除padding的負面影響,并進一步設計使用這些模塊的新架構,具有受控的感受野大小和步長。設計的架構應用于SiamFC+和SiamRPN時保證了實時跟蹤速度。實驗表明,僅僅由于所提出的網(wǎng)絡架構,我們的 SiamFC+和 SiamRPN+分別在OTB-15,VOT-16和VOT-17數(shù)據(jù)集上,相對于原始版本獲得了高達9.8%/ 5.7%(AUC),23.3%/ 8.8%(EAO)和 24.4%/ 25.0%(EAO)的相對改進。
1.介紹
1.1 相關研究
RPN詳細介紹:https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A
SiamFC詳細介紹:https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ
SiamRPN詳細介紹:https://mp.weixin.qq.com/s/pmnip3LQtQIIm_9Po2SndA
1.2 本文介紹
我們用更深更廣的網(wǎng)絡取代VGG,Inception和ResNet等網(wǎng)絡的淺層主干網(wǎng)。但這種簡單的替換并沒有帶來太大的改進,甚至可能在網(wǎng)絡深度或寬度增加時導致性能大幅下降,如圖1所示。
圖1:成功圖的AUC與網(wǎng)絡深度和寬度。寬度width是指模塊中分支的數(shù)量。通過對 OTB-13 的評估,使用具有不同主干網(wǎng)絡的 SiamFC獲得了這個結果。
分析了Siamese網(wǎng)絡架構,確定神經元的感受野大小、卷積步長、padding是影響跟蹤精度的三個重要因素。感受野確定用于計算特征的圖像區(qū)域。較大的感受野提供更大的圖像上下文,而較小的感受野可能無法捕捉目標對象的結構。stride影響定位精度,同時控制輸出特征圖的大小。padding在模型訓練中引起潛在的位置偏差。
在本文中,我們通過設計新的殘差模塊和網(wǎng)絡架構來解決這些問題。首先,我們提出了一組基于“瓶頸(bottleneck)”的殘差塊的內部裁剪(cropping-inside residual,CIR)單元。CIR單元在塊內部裁剪出受填充 padding 影響的特征(即接收填充信號的特征),從而防止卷積濾波器學習位置偏差。其次,我們通過堆疊 CIR單元設計了兩種網(wǎng)絡架構,即更深和更寬的網(wǎng)絡。為了提高定位精度,我們設計了特定的步幅和感受野。
2. 性能退化分析
性能下降可以直接歸因于網(wǎng)絡結構,是圖1實驗中唯一改變的設置。因此,我們首先確定這些網(wǎng)絡架構之間的結構差異。如表格2所示,除了深度和寬度之外,網(wǎng)絡中還有其他幾個不同的內部網(wǎng)絡因素,包括步幅(STR),填充(PAD),最后一層神經元的感受野(RF)和輸出特征尺寸(OFS)。
我們修改了 AlexNet,VGG,Inception 和 ResNet 的結構,并揭示了內部因素的影響。如表格1所示,Siamese更喜歡中級特征(步幅4或8),這些特征在物體定位方面比高級特征更精確(步幅≥16)。對于感受野(RF),最佳感受野大小覆蓋輸入樣本圖像z的約60%~80%。對于輸出特征尺寸,觀察到小尺寸(OFS≤3)不利于跟蹤精度。
表1:AlexNet,VGG 10,Inception -22和ResNet-33上的網(wǎng)絡內部因素分析。數(shù)字①- ⑩代表不同的版本,其中修改卷積內核大小,下采樣層和填充以顯示趨勢。由于空間有限,補充材料中給出了有關修改的詳細信息。
1.為了更好地顯示趨勢,我們將±0表示為網(wǎng)絡的原始RF大小。+和-表示相對于原來的增大和減小尺寸。Max(127)表示最大有效RF,其與示例圖像的大小相同,即127x127像素。
2.對于Inception網(wǎng)絡,其RF大小位于一個范圍內。這里我們只列出理論上的最大尺寸,與ResNet對齊進行比較。
表2:不同網(wǎng)絡的內部因素:最后一層網(wǎng)絡中的神經元的感受野(RF),步幅(STR),輸出特征尺寸(OFS),填充(PAD)和寬度(W)。由于Inception在一個塊中包含多個分支,因此其 RF位于一個范圍內。
Siamese 框架將中心裁剪的圖像對作為訓練數(shù)據(jù)傳入,其中目標對象始終存在于圖像中心。如果輸出單元的感受野延伸超出圖像邊界(受padding影響),網(wǎng)絡模型學習位置產生偏差。圖2給出了測試階段中這種學習偏差的可視化示例。它顯示當目標對象移動到圖像邊界時,其峰值不能精確指示目標的位置。這是由跟蹤器漂移引起的常見情況。
圖2:模型中學習的位置偏差的可視化
3. 方針
1.將步幅設定為4或8。
2.最佳感受野大小覆蓋輸入樣本圖像 z的約 60%~80%
3.在設計網(wǎng)絡架構時,應將stride,感受野和輸出特征尺寸視為一個整體。這三個因素并不是彼此獨立的。如果一個改變,其他人將相應改變。將它們結合在一起可以幫助設計的網(wǎng)絡在Siamese框架中提取更多的有判別力的特征。
4.對于全卷積的Siamese網(wǎng)絡,刪除padding操作重要。padding引起的位置偏差會降低孿生跟蹤器的準確性和魯棒性。
4. 內部裁剪殘差(CIR)單元
殘差單元(residual unit)是網(wǎng)絡架構設計中的關鍵模塊。它由3個堆疊的卷積層和繞過它們的快捷連接(shortcut connection)組成,如圖3(a)所示。這三層是1×1,3×3和1×1個卷積,其中1×1層負責減少或恢復尺寸,使3×3層成為具有較小輸入和輸出尺寸的瓶頸(bottleneck)。此瓶頸卷積包括大小為1的zero-padding,以確保在添加之前兼容的輸出大小。
圖3:擬議的內部殘余單位。(a)和(b)是殘差單元和下采樣單元(down sampling unit),而(a‘)和(b’)是我們提出的單位。(c)和(d)是建議的寬殘差單元。灰色箭頭表示便于信息傳播的shortcut paths,而藍色方框則突出顯示與原始單位的差異。字母'p'和's'分別表示padding大小和步長。
CIR單元。如第3節(jié)所述,padding可能會在Siamese框架中引入位置偏差。為此我們增加殘差單位進行裁剪操作,如圖 3(a’)所示。裁剪操作會刪除計算受zero-padding信號影響的特征,消除了殘差單元中的padding影響特征。
下采樣CIR(CIR-D)單元。它用于減少特征圖的空間大小,同時使特征通道的數(shù)量加倍。下采樣單元包含padding操作,如圖 3(b)所示。因此,我們還修改其結構以消除由padding引起的負面影響。如圖 3(b’)所示,我們在瓶頸層和shortcut connection中將卷積步幅從2改為1。插入裁剪以移除受padding影響的特征。最后,使用最大池化層來執(zhí)行特征圖的空間下采樣。這些修改的關鍵思想是確保僅刪除受填充影響的特征,同時保持內部塊結構不變。
CIR-Inception和CIR-NeXt單元。根據(jù)Inception和ResNeXt,通過多個特征變換擴展CIR單元,生成CIR-Inception和CIR-NeXt 模塊,如圖 3(c-d)所示。具體來說,在CIR-Inception結構中,我們在shortcut connection中插入一個1x1卷積,并合并兩個分支的特征。在CIR-ResNeXt中,我們將瓶頸層拆分為32個轉換分支,并通過添加進行聚合。此外,對于CIR-Inception 和CIR-NeXt的下采樣單元,修改與CIR-D(圖 3(b’))中的修改相同,其中卷積步幅減小并且增加了最大池化層。
5. 網(wǎng)絡架構 Network Architectures
通過堆疊上述CIR單元,我們構建了更深更寬的網(wǎng)絡。首先確定stride,步幅8用于構建3級網(wǎng)絡,而步幅4用于構建2級網(wǎng)絡。然后,我們堆疊CIR單位。我們控制每個階段的unit數(shù)量和下采樣unit的位置。 目標是確保最后一層神經元的感受野大小位于有效范圍內 ,即樣本圖像大小的 60%-80%。另外,當網(wǎng)絡深度增加時,感受野可能超過該范圍。因此,我們將步幅減半,以控制感受野。
更深的網(wǎng)絡 。我們使用CIR和CIR-D單元構建更深的網(wǎng)絡。這些結構類似于ResNet,但具有不同的stride,感受野和結構單元(building blocks)。
CIResNet-22有3個部分(stride=8),22個卷積層。除了第一個7×7卷積,其他都是CIR單位。在7×7卷積之后進行裁剪操作(大小為2)以移除受padding影響的特征。前兩個階段的特征下采樣是通過原來ResNet的卷積和步幅2的最大池化來執(zhí)行的。在第三階段,通過所提出的CIR-D單元執(zhí)行下采樣,該CIR-D單元位于該階段的第一個塊(共四個)。當feature map大小被下采樣時,卷積核的數(shù)量加倍以增加特征可辨別性。輸出feature map大小是5×5,每個feature感受野的相應大小93×93。
構建CIResNet-43時進一步將網(wǎng)絡深度增加到43層,設計為2個階段,在 CIResNet-43的第二階段,有14個塊,其中第四個塊具有用于特征下采樣的 CIR-D 單元。
更寬的網(wǎng)絡 。我們分別使用CIR-Inception和CIR-NeXt單元構建兩種類型的寬網(wǎng)絡體系結構。我們提供一個22層結構作為示例。正如表3所示,CIResInception-22和CIResNeXt-22具有與CIResNet-22類似的結構。但是通過多分支構建塊,網(wǎng)絡寬度分別增加了2倍和32倍。而且,由于多分支級聯(lián),在CIResInception-22中感受野大小變得多樣化(即13~93)。
表3:用于連體跟蹤器的設計骨干網(wǎng)絡的架構。CIResNet-43中CIR-D位于'conv3'階段的第四個塊中,其他網(wǎng)絡用于第一個塊。
6. 實驗
我們首先將我們更深更寬的網(wǎng)絡與SiamFC和SiamRPN中的主干AlexNet進行比較。正如表4中所示,在OTB-13,OTB-15和VOT-17數(shù)據(jù)集上,我們提出的網(wǎng)絡優(yōu)于基線AlexNet。特別是,配備CIResIncep-22網(wǎng)絡的 SiamFC 分別在OTB-2013和VOT-1上獲得了比原始AlexNet高9.5%(AUC)和14.3%(EAO)的相對改進。同時,配備CIResNet-22的SiamRPN實現(xiàn)了4.4%和23.3%的相對改善。這驗證了我們設計的體系結構解決了圖1中所示的性能下降問題。此外,它還顯示了我們提出的CIR單元對于連體網(wǎng)絡的有效性。
學習更多編程知識,請關注我的公眾號:
[代碼的路]
-
神經網(wǎng)絡
+關注
關注
42文章
4765瀏覽量
100565 -
圖像處理
+關注
關注
27文章
1282瀏覽量
56656 -
CIR
+關注
關注
0文章
2瀏覽量
7012
發(fā)布評論請先 登錄
相關推薦
評論