久久99人妻无码精品一区二区_久久精品国产一区二区三区_国产内射999视频一区

在物體檢測(cè)與識(shí)別領(lǐng)域，香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室在CVPR 2018發(fā)表論文，提出基于尺度-時(shí)間網(wǎng)格的視頻中物體檢測(cè)算法，解決如何優(yōu)化和平衡視頻物體檢測(cè)中精度和速度的難題。本文為商湯科技CVPR 2018論文解讀第6期。

簡(jiǎn)介

本文主要研究如何更好地優(yōu)化和平衡視頻中物體檢測(cè)的準(zhǔn)確率和檢測(cè)速度。物體檢測(cè)器為了達(dá)到高準(zhǔn)確率，往往需要使用高性能的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取圖像特征，導(dǎo)致檢測(cè)速度難以滿足實(shí)時(shí)性的需求。解決這個(gè)問(wèn)題的關(guān)鍵在于尋求一種有效的方式，在準(zhǔn)確率和檢測(cè)速度之間作出平衡。為了尋找一個(gè)良好的平衡點(diǎn)，之前的研究工作通常集中在如何優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)上。本文提出一種新的方法，基于尺度-時(shí)間網(wǎng)格（Scale-Time Lattice，簡(jiǎn)記為ST-Lattice）來(lái)重新分配計(jì)算資源。

提出的方法在ImageNet VID 數(shù)據(jù)集上達(dá)到了 79.6 mAP（20fps）和 79.0 mAP（62 fps）的準(zhǔn)確率和速度。本文的主要貢獻(xiàn)有：

提出了尺度-時(shí)間網(wǎng)格，其為算法提供了豐富的設(shè)計(jì)空間來(lái)對(duì)物體檢測(cè)性能進(jìn)行優(yōu)化；

基于尺度-時(shí)間網(wǎng)格，提出了新的視頻中物體檢測(cè)的框架，實(shí)現(xiàn)了優(yōu)異準(zhǔn)確率和快速檢測(cè)速度的平衡；

設(shè)計(jì)了一些新的技術(shù)模塊，包括高效的傳播模塊和動(dòng)態(tài)的關(guān)鍵幀選取模塊。

基本思想

視頻中相鄰幀之間有著很強(qiáng)的連續(xù)性和信息冗余性，為了提高效率，應(yīng)該充分利用這些性質(zhì)來(lái)設(shè)計(jì)新的檢測(cè)框架。之前的方法已經(jīng)對(duì)視頻中的物體檢測(cè)作了很多探索，通常包含若干個(gè)步驟，例如基于單幀的物體檢測(cè)，進(jìn)行跨時(shí)間的傳播和空間上位置的修正等，如何用一種更高效的方式將這些獨(dú)立的步驟結(jié)合起來(lái)是一個(gè)值得研究的問(wèn)題。

本文提出的基本思想是在一個(gè)計(jì)算網(wǎng)格中對(duì)計(jì)算資源進(jìn)行更好的分配，將精確但速度較慢的靜態(tài)圖像物體檢測(cè)器應(yīng)用于稀疏的關(guān)鍵幀上，然后利用一些簡(jiǎn)單高效的網(wǎng)絡(luò)在時(shí)間和空間兩個(gè)維度上不斷地傳播和修正這些檢測(cè)結(jié)果，以達(dá)到更好的平衡。

尺度-時(shí)間網(wǎng)格

本文將尺度-時(shí)間網(wǎng)格表示成一個(gè)有向無(wú)環(huán)圖（如圖1所示）。圖中的每一個(gè)節(jié)點(diǎn)都表示某個(gè)圖像尺度和時(shí)間點(diǎn)的中間結(jié)果，即一系列檢測(cè)框。這些節(jié)點(diǎn)以類似網(wǎng)格的方式關(guān)聯(lián)起來(lái)：從左到右遵循時(shí)間順序，從上到下圖像尺度（分辨率）逐漸提高。圖中的一條邊代表一個(gè)特定的操作，以一個(gè)節(jié)點(diǎn)的結(jié)果作為輸入，輸出另一個(gè)節(jié)點(diǎn)的檢測(cè)結(jié)果。我們?cè)趫D中定義兩種操作，時(shí)間傳播（temporal propagation）和空間修正（spatial refinement）。它們分別對(duì)應(yīng)圖中橫向邊和縱向邊。時(shí)間傳播是在同一圖像尺度下，在相鄰的幀之間進(jìn)行檢測(cè)框的傳播。而空間修正是在同一幀下，對(duì)檢測(cè)框的位置進(jìn)行修正，獲得更高圖像尺度下的檢測(cè)框結(jié)果。在尺度-時(shí)間網(wǎng)格中，檢測(cè)結(jié)果會(huì)通過(guò)上述操作從一個(gè)節(jié)點(diǎn)傳播到另一個(gè)節(jié)點(diǎn)，最終到達(dá)最底端的所有節(jié)點(diǎn)，也即在最大的圖像尺度上每幀的檢測(cè)結(jié)果。

圖1：

尺度-時(shí)間網(wǎng)格示意圖

基于尺度-時(shí)間網(wǎng)格，本文的視頻物體檢測(cè)算法被分為以下3 個(gè)步驟：

在稀疏的關(guān)鍵幀上（用基于靜態(tài)圖像的物體檢測(cè)器）進(jìn)行檢測(cè)，得到稀疏節(jié)點(diǎn)上的結(jié)果；

規(guī)劃一條從上述稀疏的節(jié)點(diǎn)到稠密的節(jié)點(diǎn)的路徑；

基于上述路徑將關(guān)鍵幀上的檢測(cè)結(jié)果傳播到中間幀，并進(jìn)行位置修正。

尺度-時(shí)間網(wǎng)格的框架為算法提供了豐富的設(shè)計(jì)空間來(lái)平衡優(yōu)化視頻中物體檢測(cè)精度和速度。檢測(cè)所需要的總時(shí)間是路徑中所有邊的時(shí)間之和，包括單幀物體檢測(cè)器的時(shí)間以及傳播和修正所用的時(shí)間。可以通過(guò)對(duì)不同的邊上分配不同的計(jì)算時(shí)間，來(lái)達(dá)到性能與時(shí)間上的期望平衡點(diǎn)。

圖2：

尺度-時(shí)間網(wǎng)格中的時(shí)間傳播網(wǎng)絡(luò)（T）

和空間修正網(wǎng)絡(luò)（S）

不同模塊的實(shí)現(xiàn)

傳播和修正單元（Propagation and Refinement Unit，PRU)

傳播和修正單元（如圖2所示）以相鄰兩個(gè)關(guān)鍵幀的結(jié)果作為輸入，使用時(shí)間傳播網(wǎng)絡(luò)將結(jié)果傳播到中間幀上，然后使用空間修正網(wǎng)絡(luò)將結(jié)果進(jìn)行空間位置上的修正。時(shí)間傳播網(wǎng)絡(luò)主要用于考慮視頻中的運(yùn)動(dòng)信息，來(lái)預(yù)測(cè)兩幀之間較大的位移。而空間修正模塊則通過(guò)回歸檢測(cè)框位置的偏差，來(lái)修正檢測(cè)框本來(lái)的誤差和傳播帶來(lái)的誤差。這兩種操作不斷迭代進(jìn)行來(lái)獲得最終的檢測(cè)結(jié)果。

在時(shí)間傳播網(wǎng)絡(luò)中，算法使用兩幀之間的運(yùn)動(dòng)歷史圖像（Motion History Image，MHI）來(lái)表示運(yùn)動(dòng)信息，將其輸入到網(wǎng)絡(luò)中，回歸物體在這段時(shí)間內(nèi)的位移。相對(duì)于光流等常用的運(yùn)動(dòng)表示，MHI 的計(jì)算速度非常快，使得空間傳播網(wǎng)絡(luò)能夠保持較高的效率。

在空間修正網(wǎng)絡(luò)中，算法采用與Fast R-CNN 相同的結(jié)構(gòu)，以當(dāng)前幀的 RGB 圖像作為輸入，來(lái)回歸檢測(cè)框的偏差。這兩個(gè)小網(wǎng)絡(luò)在訓(xùn)練時(shí)通過(guò)一個(gè)多任務(wù)的損失函數(shù)同時(shí)進(jìn)行優(yōu)化。

關(guān)鍵幀選取

關(guān)鍵幀的選取對(duì)最終的檢測(cè)速度和準(zhǔn)確率有著重要的影響。最簡(jiǎn)單直接的方法就是在時(shí)間軸上均勻地選取關(guān)鍵幀，之前的絕大多數(shù)方法也都采取了該策略。但本文考慮到幀與幀之間的信息冗余度不同，并不是每一幀都有同等重要的地位，所以需要一種非均勻的采樣策略，在物體運(yùn)動(dòng)較快、傳播難度大的時(shí)間段內(nèi)多選取關(guān)鍵幀，反之則少選取關(guān)鍵幀。

具體過(guò)程如下：首先在均勻選取的非常稀疏的幀（例如每隔24幀）上進(jìn)行單幀的物體檢測(cè)，然后根據(jù)檢測(cè)結(jié)果來(lái)衡量相鄰兩個(gè)關(guān)鍵幀之間傳播的難易程度，如果難易程度低于某個(gè)閾值，則在這兩幀之間插入一個(gè)額外的關(guān)鍵幀。計(jì)算難易程度時(shí)本文考慮了兩個(gè)因素，即框的大小以及物體運(yùn)動(dòng)快慢，具體公式參見原文。

時(shí)間管道重打分（Tube Rescoring）

由于時(shí)間上的檢測(cè)框傳播，獲得的檢測(cè)結(jié)果并不是獨(dú)立的逐幀結(jié)果，而是自然串聯(lián)成一個(gè)個(gè)的物體時(shí)間管道（Object Tube）的，那么可以對(duì)這些物體時(shí)間管道來(lái)進(jìn)行重新分類。本文訓(xùn)練了一個(gè) R-CNN 作為分類器，對(duì)于每個(gè)物體時(shí)間管道，均勻選取其中 K 幀作為輸入，以它們的平均值作為新的分類結(jié)果，根據(jù)新的分類結(jié)果來(lái)調(diào)整物體時(shí)間管道中每個(gè)框的分?jǐn)?shù)。

實(shí)驗(yàn)結(jié)果

圖3展示了本文基于尺度-時(shí)間網(wǎng)格算法的檢測(cè)速度（fps）和準(zhǔn)確率（mAP）的曲線，并和之前的方法進(jìn)行比較。可以看到本文方法優(yōu)于 baseline 和之前性能先進(jìn)的方法。

圖3：

不同視頻中物體檢測(cè)算法

檢測(cè)速度和精度的比較

結(jié)論

針對(duì)視頻中的物體檢測(cè)，本文提出了尺度-時(shí)間網(wǎng)格這個(gè)靈活的框架，其提供了豐富的設(shè)計(jì)空間來(lái)解決如何平衡準(zhǔn)確率和檢測(cè)速度的挑戰(zhàn)。該方法將單幀檢測(cè)、時(shí)間傳播、多尺度空間處理結(jié)合起來(lái)解決這個(gè)問(wèn)題。實(shí)驗(yàn)結(jié)果展示了基于該框架的多種設(shè)計(jì)和配置，能夠達(dá)到與當(dāng)前先進(jìn)性能方法近似的準(zhǔn)確率，但檢測(cè)速度則獲得了大幅提高。該框架不僅可以用于物體檢測(cè)，也可以應(yīng)用在其他視頻相關(guān)的任務(wù)，如物體分割、物體跟蹤等。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴