【導語】繼圖像領域之后,現(xiàn)在的 CV 領域,大家都在研究哪些內(nèi)容?近日,F(xiàn)acebook AI 實驗室的 Christoph Feichtenhofer、何愷明等人發(fā)表一篇論文,在視頻識別領域提出了一種 SlowFast 網(wǎng)絡,并且在沒有預訓練模型情況下,此網(wǎng)絡在 Kinetics 數(shù)據(jù)集上取得79.0% 的準確率,是當前該數(shù)據(jù)集上的最佳表現(xiàn)。在 AVA 動作檢測數(shù)據(jù)集上,同樣實現(xiàn)了 28.3 mAP 的最佳水準。
到底 SlowFast 網(wǎng)絡是怎樣的設計、有什么特征、效果如何,下面就一起來看一下~
對于圖像識別任務,給定一張圖像 I(x, y),對稱地處理圖像的空間維度 x、y 是一種很常見的做法,而自然圖像的統(tǒng)計數(shù)據(jù)也證明了這種做法的合理性—自然圖像具有各向同性(即所有方向具有相同的可能性)和平移不變性。
然而,對于視頻信號 I(x, y, t)而言,我們不能這樣對稱地處理時空信號。因為動作是方向的時空產(chǎn)物,但并非所有的時空方向都擁有相同的可能性。如果這樣,那么我們就不能像基于時空卷積(spatiotemporal convolutions)的視頻識別方法那樣,對稱地處理空間和時間信息。相反,我們需要分解這種結(jié)構(gòu),并分開處理空間結(jié)構(gòu)和時間事件。
受此啟發(fā),本研究提出了一種用于視頻識別的 SlowFast 雙路徑模型,一條路徑 slow pathway更關注空間域的語義信息,以低幀率,緩慢的刷新速度運行,用于捕獲圖像或幾個稀疏幀提供的語義信息;而另一條路徑 fast pathway以高時間分辨率、快速刷新在所有中間層運行,捕獲快速變化的動作信息,輕量級,整體的計算開銷小。此外,這種快慢結(jié)合的雙路徑二者在結(jié)構(gòu)上通過側(cè)向連接(lateral connection)進行融合,以不同的速率處理原始視頻。
圖1 SlowFast 網(wǎng)絡由低幀率、低時間分辨率的 Slow 路徑和高幀率、高時間分辨率 (是 Slow 路徑時間分辨率的 α 倍) 的 Fast 路徑構(gòu)成。使用減少通道容量輕量化 Fast 路徑,并通過側(cè)向連接的方式連接 Slow 路徑和 Fast 路徑。圖中該樣本來自 AVA 數(shù)據(jù)集。
SlowFast 模型
如上圖所示,SlowFast 網(wǎng)絡的整體結(jié)構(gòu),包含 Slow pathway、Fast pathway 及其側(cè)向連接(lateral connection)部分。其中,Slow pathway 可以是任意的卷積模型,用于處理視頻的空間信息體量。為了與 Slow pathway 對應,F(xiàn)ast pathway 也是卷積結(jié)構(gòu)的模型,但需要具有高幀率,高時間分辨率、低通道容量等特點。
為了將快慢兩條途徑的信息融合在一起,作者采用側(cè)向連接(lateral connection)的方式來實現(xiàn)。側(cè)向連接技術已被廣泛用于融合基于光流的雙流網(wǎng)絡,而在圖像目標檢測任務中,橫向連接作為一種流行的融合的技術,能夠?qū)⒖臻g分辨率和語義水平特征融合在一起。在這里作者在快慢路徑之間引入一個橫向連接,即每個“階段”的兩條路徑(如上圖1所示)。具體而言,對于 ResNets 網(wǎng)絡,這些側(cè)向連接分別在 pool1,res2,res3 和 res4 層之后。而對于 slow-fast 網(wǎng)絡,由于兩條路徑存在差異,因此側(cè)向連接需要通過轉(zhuǎn)換過程以便匹配各自的路徑,即采用單向連接的方式來將 Fast 的特征融合到 Slow 路徑上。最后,在每條路徑的輸出后引入一個全局平均池化操作,并將兩個池化特征向量連接,作為全連接分類層的輸入。更多具體的信息可以查看論文中的詳細介紹。
值得一提的是,這種快慢結(jié)合方法是受到靈長類視覺系統(tǒng)中視網(wǎng)膜神經(jīng)節(jié)細胞的生物學研究啟發(fā)的。生物學研究結(jié)果發(fā)現(xiàn),在這些細胞中約 80% 是小細胞 P-cell,它能夠提供良好的空間細節(jié)和顏色,但時間分辨率較低;而另外有大約 15-20% 的細胞是大細胞 M-cell,它以較高的時間頻率工作,對時間變化更加敏感,但對空間細節(jié)和顏色不敏感。SlowFast 網(wǎng)絡的提出正是受此啟發(fā),兩條路徑構(gòu)成,分別以低時間分辨率和高時間分辨率工作,對應于 P-cell 和 M-cell 的作用。
SlowFast 是一種通用的網(wǎng)絡框架,可以進行實例化,適配各種的主干網(wǎng)絡。在這里,作者所采用的 SlowFast 網(wǎng)絡參數(shù)如下圖2所示:
圖2 SlowFast 網(wǎng)絡的實例化。核維度表示為 {T×S^2 , C},其中 T 表示時間分辨率,S 表示空間語義而 C 表示通道數(shù)。步長表示為 {temporal stride, spatial stride^2}。此外,速度比率是α = 8,通道比率是 β = 1/8。τ = 16。圖中綠色表示 Fast 路徑較高的時間分辨率,橙色表示 Fast 路徑較少的通道數(shù),下劃線表示非退化時間濾波器(non-degenerate temporal filter)。方括號內(nèi)表示的是殘差塊結(jié)構(gòu)。骨干網(wǎng)絡采用的是 ResNet-50。
實驗
SlowFast 網(wǎng)絡在 Kinetics 和 AVA 數(shù)據(jù)集上具體表現(xiàn)如何?我們通過研究中的一些實驗數(shù)據(jù)對比看一下各數(shù)據(jù)結(jié)果。
▌Kinetics 數(shù)據(jù)集的動作分類
對于視頻動作分類,作者采用 Kinetics-400 數(shù)據(jù)集,其中包含約 240k 個訓練視頻數(shù)據(jù)和20k個驗證數(shù)據(jù),共涵蓋400種動作類別。實驗結(jié)果得到 Top1 和 Top5 的分類準確性,單條 Slow 網(wǎng)絡與 SlowFast 網(wǎng)絡的性能對比,以及 SlowFast 網(wǎng)絡與 Kibetics-400 數(shù)據(jù)集上當前最佳模型之間的性能對比,詳細結(jié)果如下圖3,圖4,圖5所示。
圖3 Kinetics-400 數(shù)據(jù)集動作分類結(jié)果,包括 top-1 和 top-5 分類準確度,以及計算復雜度 GFLOPs。
圖4 Kinetics-400 數(shù)據(jù)集上 Slow-only 網(wǎng)絡與 SlowFast 網(wǎng)絡的性能對比;top-1 訓練誤差 (虛線表示) 和驗證誤差 (實線表示)。
圖5 Kinetics-400 數(shù)據(jù)集上當前最佳模型與 SlowFast 網(wǎng)絡的性能對比。
▌AVA 數(shù)據(jù)集的動作檢測
對于視頻動作檢測,作者采用 AVA 數(shù)據(jù)集,其中包含有 211k 個訓練數(shù)據(jù)和 57k 個驗證數(shù)據(jù),共涵蓋 60 種動作類別。實驗結(jié)果得到 60 個類別的平均精度 mAP 值,SlowFast 網(wǎng)絡與 AVA 數(shù)據(jù)集上當前最佳模型之間的性能對比,以及 AVA 數(shù)據(jù)集動作檢測結(jié)果的可視化過程,詳細結(jié)果如下圖 6,圖 7,圖 8 所示。
圖6 AVA 數(shù)據(jù)集上每個類別的 AP:Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中,黑色突出顯示的是絕對增長最高的5個類別,而這里實例化的 SlowFast 網(wǎng)絡并不是最佳的模型。
圖7 AVA 數(shù)據(jù)集上最佳模型與 SlowFast 網(wǎng)絡的性能對比。其中,++ 表示在測試過程引入了諸如水平翻轉(zhuǎn)的圖像增強操作。
圖8 可視化 AVA 數(shù)據(jù)集的動作檢測結(jié)果。其中真實的標簽用紅色表示,而 SlowFast 模型在驗證集上的預測結(jié)果用綠色表示。
總結(jié)
本文提出了一種用于視頻識別的 SlowFast 網(wǎng)絡。該模型由兩部分組成:以低幀率運行以捕捉空間語義信息的 Slow pathway;以高幀率運行捕捉較好時序分辨率的運動信息的 Fast pathway。通過減少通道容量,所設計的 Fast pathway 是個非常輕量級的、同時又能夠?qū)W習到有用的時間信息用于視頻識別的網(wǎng)絡。
SlowFast 網(wǎng)絡在視頻動作分類及檢測任務上展現(xiàn)了強大的性能,同時這種快慢結(jié)合思想的提出也為視頻目標識別和檢測領域做出了重要貢獻。實驗結(jié)果表明,在沒有使用任何預訓練模型的情況下,SlowFast 網(wǎng)絡在 Kinetics 數(shù)據(jù)集上取得了 79.0% 的準確率,大大超過了以前同類方法的最佳結(jié)果。而在 AVA 動作檢測數(shù)據(jù)集上,該網(wǎng)絡同樣實現(xiàn)了 28.3 mAP 的當前最佳水準。
總的來說,時間維度是視頻任務中一個特殊的因素,本文的 SlowFast 網(wǎng)絡框架考慮時間維度上不同的速度對時空信息捕捉的影響,實例化的 SlowFast 模型在 Kinetics 和 AVA 數(shù)據(jù)集上實現(xiàn)當前最佳的視頻動作分類和檢測結(jié)果,希望這種快慢結(jié)合的設計理念能夠促進視頻識別領域未來的研究。有關的項目代碼將會在近期開源。
-
濾波器
+關注
關注
158文章
7594瀏覽量
176558 -
數(shù)據(jù)集
+關注
關注
4文章
1197瀏覽量
24532 -
視頻識別
+關注
關注
2文章
10瀏覽量
10893
原文標題:何愷明等最新突破:視頻識別快慢結(jié)合,取得人體動作AVA數(shù)據(jù)集最佳水平
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論