論文地址：https://arxiv.org/pdf/1901.01660.pdf

摘要

目前在孿生網(wǎng)絡追蹤器中使用的主干網(wǎng)絡相對較淺，例AlexNet。本文研究如何利用更深和更廣的卷積神經網(wǎng)絡來增強跟蹤的魯棒性和準確性。使用改進后的網(wǎng)絡直接替換，例如ResNet和Inception，并沒有帶來改進。主要原因是 1）神經元感受野的大幅增加導致特征可辨性和定位精度降低; 2）卷積的網(wǎng)絡 padding 在學習中引起位置偏差。

為了解決這些問題，我們提出了新的殘差模塊，以消除padding的負面影響，并進一步設計使用這些模塊的新架構，具有受控的感受野大小和步長。設計的架構應用于SiamFC+和SiamRPN時保證了實時跟蹤速度。實驗表明，僅僅由于所提出的網(wǎng)絡架構，我們的 SiamFC+和 SiamRPN+分別在OTB-15，VOT-16和VOT-17數(shù)據(jù)集上，相對于原始版本獲得了高達9.8％/ 5.7％（AUC），23.3％/ 8.8％（EAO）和 24.4％/ 25.0％（EAO）的相對改進。

1.介紹

1.1 相關研究

RPN詳細介紹：https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A

SiamFC詳細介紹：https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ

SiamRPN詳細介紹：https://mp.weixin.qq.com/s/pmnip3LQtQIIm_9Po2SndA

1.2 本文介紹

我們用更深更廣的網(wǎng)絡取代VGG，Inception和ResNet等網(wǎng)絡的淺層主干網(wǎng)。但這種簡單的替換并沒有帶來太大的改進，甚至可能在網(wǎng)絡深度或寬度增加時導致性能大幅下降，如圖1所示。

圖1：成功圖的AUC與網(wǎng)絡深度和寬度。寬度width是指模塊中分支的數(shù)量。通過對 OTB-13 的評估，使用具有不同主干網(wǎng)絡的 SiamFC獲得了這個結果。

分析了Siamese網(wǎng)絡架構，確定神經元的感受野大小、卷積步長、padding是影響跟蹤精度的三個重要因素。感受野確定用于計算特征的圖像區(qū)域。較大的感受野提供更大的圖像上下文，而較小的感受野可能無法捕捉目標對象的結構。stride影響定位精度，同時控制輸出特征圖的大小。padding在模型訓練中引起潛在的位置偏差。

在本文中，我們通過設計新的殘差模塊和網(wǎng)絡架構來解決這些問題。首先，我們提出了一組基于“瓶頸（bottleneck）”的殘差塊的內部裁剪（cropping-inside residual，CIR）單元。CIR單元在塊內部裁剪出受填充 padding 影響的特征（即接收填充信號的特征），從而防止卷積濾波器學習位置偏差。其次，我們通過堆疊 CIR單元設計了兩種網(wǎng)絡架構，即更深和更寬的網(wǎng)絡。為了提高定位精度，我們設計了特定的步幅和感受野。

2. 性能退化分析

性能下降可以直接歸因于網(wǎng)絡結構，是圖1實驗中唯一改變的設置。因此，我們首先確定這些網(wǎng)絡架構之間的結構差異。如表格2所示，除了深度和寬度之外，網(wǎng)絡中還有其他幾個不同的內部網(wǎng)絡因素，包括步幅（STR），填充（PAD），最后一層神經元的感受野（RF）和輸出特征尺寸（OFS）。

我們修改了 AlexNet，VGG，Inception 和 ResNet 的結構，并揭示了內部因素的影響。如表格1所示，Siamese更喜歡中級特征（步幅4或8），這些特征在物體定位方面比高級特征更精確（步幅≥16）。對于感受野（RF），最佳感受野大小覆蓋輸入樣本圖像z的約60％~80％。對于輸出特征尺寸，觀察到小尺寸（OFS≤3）不利于跟蹤精度。

表1：AlexNet，VGG 10，Inception -22和ResNet-33上的網(wǎng)絡內部因素分析。數(shù)字①- ⑩代表不同的版本，其中修改卷積內核大小，下采樣層和填充以顯示趨勢。由于空間有限，補充材料中給出了有關修改的詳細信息。

1.為了更好地顯示趨勢，我們將±0表示為網(wǎng)絡的原始RF大小。+和-表示相對于原來的增大和減小尺寸。Max（127）表示最大有效RF，其與示例圖像的大小相同，即127x127像素。

2.對于Inception網(wǎng)絡，其RF大小位于一個范圍內。這里我們只列出理論上的最大尺寸，與ResNet對齊進行比較。

表2：不同網(wǎng)絡的內部因素：最后一層網(wǎng)絡中的神經元的感受野（RF），步幅（STR），輸出特征尺寸（OFS），填充（PAD）和寬度（W）。由于Inception在一個塊中包含多個分支，因此其 RF位于一個范圍內。

Siamese 框架將中心裁剪的圖像對作為訓練數(shù)據(jù)傳入，其中目標對象始終存在于圖像中心。如果輸出單元的感受野延伸超出圖像邊界（受padding影響），網(wǎng)絡模型學習位置產生偏差。圖2給出了測試階段中這種學習偏差的可視化示例。它顯示當目標對象移動到圖像邊界時，其峰值不能精確指示目標的位置。這是由跟蹤器漂移引起的常見情況。

圖2：模型中學習的位置偏差的可視化

3. 方針

1.將步幅設定為4或8。

2.最佳感受野大小覆蓋輸入樣本圖像 z的約 60％~80％

3.在設計網(wǎng)絡架構時，應將stride，感受野和輸出特征尺寸視為一個整體。這三個因素并不是彼此獨立的。如果一個改變，其他人將相應改變。將它們結合在一起可以幫助設計的網(wǎng)絡在Siamese框架中提取更多的有判別力的特征。

4.對于全卷積的Siamese網(wǎng)絡，刪除padding操作重要。padding引起的位置偏差會降低孿生跟蹤器的準確性和魯棒性。

4. 內部裁剪殘差（CIR）單元

殘差單元（residual unit）是網(wǎng)絡架構設計中的關鍵模塊。它由3個堆疊的卷積層和繞過它們的快捷連接（shortcut connection）組成，如圖3（a）所示。這三層是1×1，3×3和1×1個卷積，其中1×1層負責減少或恢復尺寸，使3×3層成為具有較小輸入和輸出尺寸的瓶頸（bottleneck）。此瓶頸卷積包括大小為1的zero-padding，以確保在添加之前兼容的輸出大小。

圖3：擬議的內部殘余單位。（a）和（b）是殘差單元和下采樣單元（down sampling unit），而（a‘）和（b’）是我們提出的單位。（c）和（d）是建議的寬殘差單元。灰色箭頭表示便于信息傳播的shortcut paths，而藍色方框則突出顯示與原始單位的差異。字母'p'和's'分別表示padding大小和步長。

CIR單元。如第3節(jié)所述，padding可能會在Siamese框架中引入位置偏差。為此我們增加殘差單位進行裁剪操作，如圖 3（a’）所示。裁剪操作會刪除計算受zero-padding信號影響的特征，消除了殘差單元中的padding影響特征。

下采樣CIR（CIR-D）單元。它用于減少特征圖的空間大小，同時使特征通道的數(shù)量加倍。下采樣單元包含padding操作，如圖 3（b）所示。因此，我們還修改其結構以消除由padding引起的負面影響。如圖 3（b’）所示，我們在瓶頸層和shortcut connection中將卷積步幅從2改為1。插入裁剪以移除受padding影響的特征。最后，使用最大池化層來執(zhí)行特征圖的空間下采樣。這些修改的關鍵思想是確保僅刪除受填充影響的特征，同時保持內部塊結構不變。

CIR-Inception和CIR-NeXt單元。根據(jù)Inception和ResNeXt，通過多個特征變換擴展CIR單元，生成CIR-Inception和CIR-NeXt 模塊，如圖 3（c-d）所示。具體來說，在CIR-Inception結構中，我們在shortcut connection中插入一個1x1卷積，并合并兩個分支的特征。在CIR-ResNeXt中，我們將瓶頸層拆分為32個轉換分支，并通過添加進行聚合。此外，對于CIR-Inception 和CIR-NeXt的下采樣單元，修改與CIR-D（圖 3（b’））中的修改相同，其中卷積步幅減小并且增加了最大池化層。

5. 網(wǎng)絡架構 Network Architectures

通過堆疊上述CIR單元，我們構建了更深更寬的網(wǎng)絡。首先確定stride，步幅8用于構建3級網(wǎng)絡，而步幅4用于構建2級網(wǎng)絡。然后，我們堆疊CIR單位。我們控制每個階段的unit數(shù)量和下采樣unit的位置。 目標是確保最后一層神經元的感受野大小位于有效范圍內 ，即樣本圖像大小的 60％-80％。另外，當網(wǎng)絡深度增加時，感受野可能超過該范圍。因此，我們將步幅減半，以控制感受野。

更深的網(wǎng)絡 。我們使用CIR和CIR-D單元構建更深的網(wǎng)絡。這些結構類似于ResNet，但具有不同的stride，感受野和結構單元（building blocks）。

CIResNet-22有3個部分（stride=8），22個卷積層。除了第一個7×7卷積，其他都是CIR單位。在7×7卷積之后進行裁剪操作（大小為2）以移除受padding影響的特征。前兩個階段的特征下采樣是通過原來ResNet的卷積和步幅2的最大池化來執(zhí)行的。在第三階段，通過所提出的CIR-D單元執(zhí)行下采樣，該CIR-D單元位于該階段的第一個塊（共四個）。當feature map大小被下采樣時，卷積核的數(shù)量加倍以增加特征可辨別性。輸出feature map大小是5×5，每個feature感受野的相應大小93×93。

構建CIResNet-43時進一步將網(wǎng)絡深度增加到43層，設計為2個階段，在 CIResNet-43的第二階段，有14個塊，其中第四個塊具有用于特征下采樣的 CIR-D 單元。

更寬的網(wǎng)絡 。我們分別使用CIR-Inception和CIR-NeXt單元構建兩種類型的寬網(wǎng)絡體系結構。我們提供一個22層結構作為示例。正如表3所示，CIResInception-22和CIResNeXt-22具有與CIResNet-22類似的結構。但是通過多分支構建塊，網(wǎng)絡寬度分別增加了2倍和32倍。而且，由于多分支級聯(lián)，在CIResInception-22中感受野大小變得多樣化（即13~93）。

表3：用于連體跟蹤器的設計骨干網(wǎng)絡的架構。CIResNet-43中CIR-D位于'conv3'階段的第四個塊中，其他網(wǎng)絡用于第一個塊。

6. 實驗

我們首先將我們更深更寬的網(wǎng)絡與SiamFC和SiamRPN中的主干AlexNet進行比較。正如表4中所示，在OTB-13，OTB-15和VOT-17數(shù)據(jù)集上，我們提出的網(wǎng)絡優(yōu)于基線AlexNet。特別是，配備CIResIncep-22網(wǎng)絡的 SiamFC 分別在OTB-2013和VOT-1上獲得了比原始AlexNet高9.5％（AUC）和14.3％（EAO）的相對改進。同時，配備CIResNet-22的SiamRPN實現(xiàn)了4.4％和23.3％的相對改善。這驗證了我們設計的體系結構解決了圖1中所示的性能下降問題。此外，它還顯示了我們提出的CIR單元對于連體網(wǎng)絡的有效性。

學習更多編程知識，請關注我的公眾號：

[代碼的路]

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經網(wǎng)絡

神經網(wǎng)絡

+關注

關注
42

文章
4765

瀏覽量
100565
圖像處理

圖像處理

+關注

關注
27

文章
1282

瀏覽量
56656
CIR

CIR

+關注

關注
0

文章
2

瀏覽量
7012

數(shù)字孿生與物聯(lián)網(wǎng)的結合

聯(lián)網(wǎng)則是通過傳感器、設備和網(wǎng)絡連接，實現(xiàn)物理世界與數(shù)字世界的無縫連接。當這兩個技術結合時，它們可以為制造業(yè)、醫(yī)療、城市基礎設施和其他行業(yè)帶來革命性的變化。數(shù)字孿生與物聯(lián)網(wǎng)的結合 1. 概念簡介數(shù)字孿生：數(shù)字

發(fā)表于 10-25 14:36 ?276次閱讀

恩智浦Real-Time Edge軟件的優(yōu)勢特性

今天的工業(yè)邊緣應用在受益于復雜的操作系統(tǒng)的同時，也越來越需要實時處理響應，這導致了系統(tǒng)設計復雜性的增加。

發(fā)表于 10-12 11:38 ?458次閱讀

恩智浦攜手RTI推動SDV應用的實現(xiàn)

恩智浦攜手Real-Time Innovations (RTI) 為軟件定義汽車 (SDV) 帶來了一套強大的集成解決方案。他們展示了如何推動未來的汽車連接，為SDV和智能交通系統(tǒng)鋪平了道路。

發(fā)表于 08-27 09:20 ?1372次閱讀

RTOS與Linux有什么區(qū)別

RTOS（Real-Time Operating System，實時操作系統(tǒng)）與Linux是兩種在不同應用場景下發(fā)揮重要作用的操作系統(tǒng)，它們在設計理念、功能特性、應用場景以及性能表現(xiàn)等方面存在顯著差異。以下是對RTOS與Linux區(qū)別的詳細分析。

發(fā)表于 08-20 16:05 ?3091次閱讀

什么是數(shù)字孿生

近年來，數(shù)字孿生這個詞不斷出現(xiàn)在公眾視野中，尤其是隨著物聯(lián)網(wǎng)技術的發(fā)展，數(shù)字孿生不斷出現(xiàn)在各行各業(yè)。乍一看，這個概念還是比較生僻的。什么是數(shù)字孿生？首先，我們來看一下數(shù)字孿生的定義，

發(fā)表于 06-05 15:45 ?872次閱讀

DW01-A（鋰電保護IC）

發(fā)表于 05-22 22:23 ?8次下載

Palo Alto Networks與IBM攜手，深化網(wǎng)絡安全合作

網(wǎng)絡安全領域的兩大巨頭Palo Alto Networks和IBM近日宣布建立全面合作伙伴關系，共同推動網(wǎng)絡安全領域的創(chuàng)新發(fā)展。根據(jù)協(xié)議，Palo Alto Networks將收購IB

發(fā)表于 05-22 09:40 ?580次閱讀

微內核實時操作系統(tǒng)的介紹

微內核實時操作系統(tǒng)（Microkernel Real-Time Operating System, μRTOS）是一種專為實時設計的操作系統(tǒng)。它采用微內核架構，以提高系統(tǒng)的可靠性、安全性和可擴展性。以下是關于微內核實時操作系統(tǒng)的一些關鍵特點：

發(fā)表于 05-11 17:13 ?472次閱讀

protues出現(xiàn)Real Time Simulation failed to start.

加器件之前正常，但是加了器件之后就報這個錯誤：Real Time Simulation failed to start. 加的器件時候兩幅圖里的（一個MAX232，一個是加熱或加濕的模擬裝置，通過

發(fā)表于 04-29 21:52

PXIe-8108網(wǎng)口連接至電腦后，NI-max搜索不到遠程設備

已經確定現(xiàn)在有一個PXIe-8108的控制器，是real-time驅動的，按照之前的說明設置完成電腦的IP協(xié)議之后，還是在NI-max里面搜索不到該遠程設備，請問大家知道如何解決嗎？

發(fā)表于 04-15 13:00

網(wǎng)絡攻防模擬與城市安全演練 | 數(shù)字孿生

在數(shù)字化浪潮的推動下，網(wǎng)絡攻防模擬和城市安全演練成為維護社會穩(wěn)定的不可或缺的環(huán)節(jié)。基于數(shù)字孿生技術我們能夠在虛擬環(huán)境中進行高度真實的網(wǎng)絡攻防模擬，為安全專業(yè)人員提供實戰(zhàn)經驗，從而提升應對網(wǎng)絡

發(fā)表于 02-04 10:48 ?641次閱讀

恩智浦Real-time Edge v2.7正式發(fā)布！

Real-time Edge軟件是恩智浦提供的針對工業(yè)和物聯(lián)網(wǎng)應用的一套軟件集，面對工業(yè)和物聯(lián)網(wǎng)垂直領域的具體需求，提供了針對性的實時系統(tǒng), 工業(yè)實時網(wǎng)絡和豐富的工業(yè)協(xié)議支持。

發(fā)表于 01-26 09:19 ?585次閱讀

淺談基于數(shù)字孿生的配電室關鍵技術研究

的各種數(shù)據(jù)是實現(xiàn)數(shù)字孿生的前提和依據(jù)，需要在機房內設置相應的設備，使機房內的主要物性參數(shù)盡可能完整，并保證獲取的及時性以及具大的存儲空間，以便存儲機房整個生命周期內的數(shù)據(jù)。采集裝置、網(wǎng)絡通道要穩(wěn)定

發(fā)表于 01-09 15:49

干貨分享 | 面向工業(yè)和物聯(lián)網(wǎng)的Real-time Edge 軟件技術解析

分享一款基于恩智浦高性能處理器平臺的實時軟件開發(fā)套件—— Real-time Edge軟件，這是恩智浦針對工業(yè)和物聯(lián)網(wǎng)領域而打造的一套軟件集，包括了實時系統(tǒng)、異構多核框架、異構多SoC框架、工業(yè)網(wǎng)絡和工業(yè)協(xié)議。 Real-time

發(fā)表于 12-15 16:25 ?598次閱讀

信觀察 | 網(wǎng)絡數(shù)字孿生如何花式“整活兒”？

孿生)，正是“高度自智”的一大關鍵技術點。觀看視頻，進入數(shù)字孿生的奇妙世界作為通信行業(yè)的領導者，愛立信始終在思考：如何利用數(shù)字孿生技術更好地連接虛擬和現(xiàn)實，為面向未來的自動化網(wǎng)絡

發(fā)表于 12-04 16:05 ?751次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

DW-Siam：Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更寬更深的孿生網(wǎng)絡

摘要