導(dǎo)讀
日前,計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的三大頂級(jí)會(huì)議之一CVPR正在進(jìn)行中,深蘭DeepBlueAI團(tuán)隊(duì)在動(dòng)作識(shí)別國(guó)際挑戰(zhàn)賽 (ActivityNet) 研討會(huì)上,參加了 MMAct 挑戰(zhàn)賽中僅設(shè)的兩個(gè)賽道——“跨模態(tài)裁剪動(dòng)作識(shí)別”和“跨模態(tài)未裁剪動(dòng)作時(shí)序定位”,并均以大比分領(lǐng)先取得第一。
冠軍方案解讀
競(jìng)賽要求參賽者提出跨模態(tài)視頻動(dòng)作識(shí)別/定位方法,以彌補(bǔ)使用 MMAct[1] 數(shù)據(jù)集的純視覺(jué)方法的缺點(diǎn)。此任務(wù)的目標(biāo)是利用基于傳感器的,例如穿戴式傳感器數(shù)據(jù)作為特權(quán)信息,以及基于視覺(jué)的模態(tài),其方式可以克服訓(xùn)練(傳感器 + 視頻)和測(cè)試(僅視頻)階段之間模態(tài)差異所帶來(lái)的限制。用于此競(jìng)賽的多模態(tài)數(shù)據(jù)包括:加速度、方向、陀螺儀、RGB 視頻和人體關(guān)鍵點(diǎn)。
挑戰(zhàn)賽促進(jìn)了關(guān)于如何通過(guò)使用跨模態(tài)方法解決視覺(jué)挑戰(zhàn)的另一種觀點(diǎn),希望擴(kuò)大對(duì)視頻動(dòng)作理解的研究,以進(jìn)一步利用日常使用的智能設(shè)備(例如智能手機(jī))中的傳感器。
賽題一
跨模態(tài)裁剪動(dòng)作識(shí)別
Cross-Modal Trimmed Action Recognition
在此任務(wù)中,參與者使用來(lái)自MMAct 的修剪視頻以及配對(duì)的傳感器數(shù)據(jù),在數(shù)據(jù)中包含交叉視角和交叉場(chǎng)景兩種類型的數(shù)據(jù),共35個(gè)動(dòng)作類別。任務(wù)允許參與者使用修剪過(guò)的傳感器數(shù)據(jù)和修剪過(guò)的視頻進(jìn)行訓(xùn)練,但不能同時(shí)使用交叉視角和交叉場(chǎng)景的數(shù)據(jù),且僅對(duì)修剪過(guò)的視頻進(jìn)行測(cè)試以進(jìn)行動(dòng)作識(shí)別,并采用mAP作為評(píng)價(jià)指標(biāo)。
賽題難點(diǎn):
不同視頻等多模態(tài)數(shù)據(jù)時(shí)序長(zhǎng)度變化大,從幾秒到幾分鐘不等;
測(cè)試階段只提供了視頻數(shù)據(jù)。
應(yīng)用場(chǎng)景:
視頻監(jiān)控、異常行為識(shí)別
解決方案:
考慮到視頻長(zhǎng)度較長(zhǎng),為了有效地捕獲視頻中的動(dòng)作信息,團(tuán)隊(duì)優(yōu)先采用了等間隔采樣的方式對(duì)每個(gè)視頻進(jìn)行采樣,然后采用隨機(jī)尺度裁剪、水平翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方式進(jìn)行增強(qiáng)。
在算法選型上,團(tuán)隊(duì)優(yōu)先采用了TSM[2]進(jìn)行實(shí)驗(yàn),它具有高效率和高性能。具體來(lái)說(shuō),它可以達(dá)到 3D CNN 的性能,但保持 2D CNN 的復(fù)雜性。TSM 沿時(shí)間維度移動(dòng)部分通道,從而促進(jìn)相鄰幀之間的信息交換,它還可以插入到 2D CNN 中以實(shí)現(xiàn)零計(jì)算和零參數(shù)的時(shí)間建模。
作為對(duì)比,團(tuán)隊(duì)同時(shí)采用了滑動(dòng)窗口的形式進(jìn)行幀數(shù)據(jù)采樣,并采用ir-CSN[3]進(jìn)行實(shí)驗(yàn)。CSN探索了通道之間交互的重要性,并達(dá)到了節(jié)省計(jì)算參數(shù)和通道之間交互的平衡,網(wǎng)絡(luò)具有結(jié)構(gòu)精簡(jiǎn)、計(jì)算量小、速度快、準(zhǔn)確率好的優(yōu)點(diǎn),并且還有一定的正則化能力。
最后,在進(jìn)行了為每個(gè)視頻采樣不同的幀數(shù),是否添加Non-Local模塊,以及MixUp與ColorJitter數(shù)據(jù)增強(qiáng)的實(shí)驗(yàn)之后,團(tuán)隊(duì)采用TSM,以ResNet50作為Backbone, 并以等間隔采樣的方式采樣32幀,最終取得了最好的單模成績(jī)。在融合ir-CSN結(jié)果后,取得了最好的線上成績(jī)。
賽題二
跨模態(tài)未裁剪動(dòng)作時(shí)序定位
Cross-Modal Untrimmed Action Temporal Localization,在這項(xiàng)任務(wù)中,參與者使用來(lái)自MMAct 的未修剪視頻以及配對(duì)的傳感器數(shù)據(jù),在數(shù)據(jù)中包含交叉視角和交叉場(chǎng)景兩種類型的數(shù)據(jù),共35個(gè)動(dòng)作類別。參與者允許使用未修剪的配對(duì)傳感器數(shù)據(jù)和視頻進(jìn)行訓(xùn)練,然后在僅包含未修剪的視頻數(shù)據(jù)的測(cè)試集上進(jìn)行時(shí)間動(dòng)作定位,輸出未修剪視頻中識(shí)別的動(dòng)作類別及其開始和結(jié)束時(shí)間,并采用AP作為評(píng)價(jià)指標(biāo)。
賽題難點(diǎn):
視頻時(shí)長(zhǎng)較長(zhǎng),從幾分鐘到十幾分鐘不等;
測(cè)試階段只提供了視頻數(shù)據(jù)。
應(yīng)用場(chǎng)景:
視頻監(jiān)控、異常行為識(shí)別、定位
解決方案:
考慮到在測(cè)試集中只提供了視頻數(shù)據(jù),因此團(tuán)隊(duì)的實(shí)現(xiàn)方案主要在視頻數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。在時(shí)序動(dòng)作定位相關(guān)的工作中,主流的方法如BSN[5]、BMN[6]等。需要經(jīng)過(guò):視頻抽幀-》提取光流-》行為識(shí)別算法進(jìn)行特征提取-》時(shí)序動(dòng)作定位算法進(jìn)行動(dòng)作定位-》行為識(shí)別算法進(jìn)行動(dòng)作識(shí)別等多個(gè)環(huán)節(jié),整個(gè)方案實(shí)現(xiàn)流程十分繁雜。
在實(shí)現(xiàn)方案中為了簡(jiǎn)化方案流程,采用AFSD[7]作為算法實(shí)現(xiàn)。這是一個(gè)anchor-free的時(shí)序定位框架,并且是一個(gè)end-to-end使用視頻幀作為輸入而不是特征作為輸入的算法。
為了獲得模型的輸入,團(tuán)隊(duì)對(duì)每個(gè)視頻以動(dòng)態(tài)幀率采樣2304幀,并進(jìn)行光流計(jì)算,這樣可以保證10分鐘以上的視頻有大約3幀的采樣幀率,不至于丟失過(guò)多的視頻信息。最后再分別采用RGB數(shù)據(jù)和光流數(shù)據(jù)進(jìn)行訓(xùn)練,并融合兩種類型的預(yù)測(cè)結(jié)果后,取得了團(tuán)隊(duì)最好成績(jī)。
編輯:jq
-
RGB
+關(guān)注
關(guān)注
4文章
798瀏覽量
58394 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1696瀏覽量
45930 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1205瀏覽量
24649 -
深蘭科技
+關(guān)注
關(guān)注
1文章
55瀏覽量
5953
原文標(biāo)題:賽道 | CVPR2021-MMAct挑戰(zhàn)賽跨模態(tài)動(dòng)作識(shí)別雙冠方案解讀
文章出處:【微信號(hào):kmdian,微信公眾號(hào):深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論