本文介紹一篇CVPR 2019 Oral的工作,作者來自CMU、UC伯克利,論文提出采用無監督學習的創新視頻跟蹤思路,得到了優越的結果。
本文主要介紹CVPR2019(Oral)的工作:
Xiaolong Wang*, Allan Jabri* and Alexei A. Efros. Learning Correspondence from the Cycle-consistency of Time.
Paper:LearningCorrespondencefromtheCycle-ConsistencyofTime
Code:xiaolonw/TimeCycle
Slides(百度網盤):https://pan.baidu.com/s/1prNthUokiqRPELs8J4O-vQ提取碼:es86
我們這個工作主要是給 tracking 和 optical flow 提供一種新的思路。我們把兩者聯系并且統一起來稱為correspondenceintime。而這個工作的目標就是訓練一個神經網絡,使得它能幫助我們獲得在video中幀與幀之間的semi-densecorrespondence。
和以往的方法不一樣,我們不需要人為的數據標注也不需要 synthetic data 進行訓練。這個工作采用的是無監督學習(self-supervised /unsupervised learning),而且訓練網絡的方法能被應用到任意的 video 上面。
首先 show 一下結果,我們訓練出來的網絡可以用來做以下的 human part segment tracking (沒有經過任何用 segmentation training 和 fine-tuning)。
視頻分割跟蹤
在介紹我們的方法之前,先討論一下目前找 correspondence 的方法:
RelatedWork1:VisualTracking
Visual Tracking 能夠獲得 box-level correspondence。但是目前訓練神經網絡做 tracking 需要標注視頻的每一幀進行訓練,這樣大大限制了訓練樣本的數量。
RelatedWork2:OpticalFlowEstimation
Optical Flow Estimation 能夠獲得 pixel-level correspondence。但通常訓練神經網絡計算 optical flow 通常需要在 synthetic dataset 上進行,使得訓練出來的網絡很難泛化到真實數據中 (generalization to real data)。而且 optical flow 對于局部的變化過于敏感,很難處理長距離或者 large motion 的視頻。
其實 Visual Tracking 和 Optical Flow Estimation 之間非常相關,但是似乎在近年來深度學習之后這兩個領域變得互相獨立。我們這篇文章希望讓大家能把兩者聯系起來思考。
本文的方法
我們這里提出的其實是介于tracking與opticalflow的中間的mid-levelcorrespondence或者說是 semi-dense correspondence。正因為我們是在 mid-level 上算 correspondence,這使得我們對 pixel 上的局部變化變得更加 robust,能在一定程度上 encode invariance,從而讓我們可以做 long-range tracking 和處理 large object displacement。
我們在 deep feature 上計算 semi-dense correspondence。如下圖,對于相鄰兩幀,我們首先抽取 deep feature (大概 30x30 resolution)。對于在 t-1 幀的一個格子,我們通過算 nearest neighbor 找到在 t 幀最相似的格子。下圖箭頭兩端代表了其中一個 correspondence。
以下是我們訓練這個 deep network 的方法,這里采用的是無監督學習(self-supervised/unsupervised learning):既是學習過程中不需要任何的人為的標注。
如下圖所示,假設我們用這個 network 進行 tracking。在最后一幀上,我們首先隨機選一個起 bounding box,然后對這個 bounding box 進行 backward tracking(藍色箭頭),接著對在第一幀的結果進行 forward tracking(紅色箭頭)。那么 initial box 和最后的 tracking box 之間的 error(黃色箭頭)就會作為我們訓練 network 的 supervisory signal。我們把這個 signal 稱為 Cycle-Consistency Loss。
Cycle-Consistency Loss
在訓練的過程中,我們把 error 沿著 cycle 來傳遞(圖中用黃色虛線表達):
在訓練過程的不同迭代次數中,cycle 產生如下圖的變化??梢钥匆婋S著迭代次數的變化,tracking 也逐漸變得越來越好:
Changes of Cycles
我們的結果
我們訓練出來的網絡能夠幫助我們找 correspondence,并應用在各種的 Tracking Tasks。
我們在 VLOG 數據集 (https://github.com/xiaolonw/TimeCycle/blob/master/DATASET.md) 上面進行 unsupervised learning。在訓練之后的網絡我們可以直接應用在以下不同的 tracking tasks,不需要在目標數據集上做任何的 training/fine-tuning。
除了開篇提到的humanpartsegmentstracking,我們還可以完成以下tasks:
1. Tracking Object Mask
2. Tracking Pose
3. Tracking Texture
在這個 task 里面,我在第一幀畫了一個彩虹 texture,然后用我們的 correspondence 可以把彩虹 texture 一直傳遞下去。
4. Optical Flow
我們還能將 correspondence visualize 出來,結果和 optical flow 類似。
總結
我們希望這個工作能將 tracking 和 optical flow 聯系起來。針對 tracking tasks, 我們能突破有限的 human annotation 的限制,提供一種新的訓練 tracker 的思路。我們還希望能夠提供一種新的 video 里面,或者有時序關系的數據中的無監督學習的方法。在未來可以用這種 cycle-consistency in time 來作為一種 supervisory signal 幫助其他任務。
論文地址:
https://arxiv.org/abs/1903.07593
(本文經授權轉載自知乎,作者Xiaolong Wang,原文鏈接:https://zhuanlan.zhihu.com/p/61607755)
反應式機器。代表性范例:深藍。能夠識別棋盤上的形勢,并做出預測,但沒有記憶。
有限記憶。能利用過去的記憶為未來決策提供幫助。代表性范例:自動駕駛
意志理論:能夠理解影響自身決策的觀點、欲求和目的。目前這類AI尚不存在。
自我意識:具有自我意識的機器,能夠理解自身目前的狀態,并能利用現有信息推測他人的感覺。目前這類AI也不存在。
AI技術應用舉例:
自動化機器人:對機器進行編程,使其高質量地完成一般由人完成的重復性任務,同時具備對不同任務條件的適應性。
機器視覺:讓計算機能夠“看見”的技術,利用攝像頭捕獲并分析視覺信息,完成模-數轉換與數字信號處理。
機器學習:讓計算機在未經編程的情況下運行。機器學習的子領域之一是深度學習,其目標是實現自動化的預測性分析。
自然語言處理:利用計算機程序處理人類語言。垃圾郵件檢測、文本翻譯、語義分析和語音識別等都屬于該領域。
機器人技術:機器人能夠比人類更精確、更持久地完成困難的重復性任務。
全球AI技術競爭中最具優勢的10大企業
1、DeepMind:目前居于AI研究企業第一位
2、谷歌:旗下設谷歌大腦團隊,在每個可能的領域聚焦長期AI研發。
3、Facebook:主要關注語言領域的問題,如動態記憶,問答系統開發等。
4、OpenAI:團隊規模雖然不大,配置屬于全明星級別。
5、百度:在語音交互、自動駕駛等領域表現出色。
6、微軟:在AI領域耕耘多年,目前聚焦實時翻譯。
7、蘋果:正在研發面部識別技術,分析用戶面對設備上出現廣告的面部反應
8、IBM:利用AI技術從照片、視頻、語音和文本中提取語義。
9、亞馬遜:目前多個部門業務向AI傾斜,比如無人商店、無人機貨物配送,以及Alexa語音助理等業務。
全球10大AI國家
1、美國:每年有100億風投資金進入AI領域
2、中國:在過去5年中,中國與AI相關的專利數量上漲了190%。
3、日本:制造業部門的自動化程度可能高達71%。
4、英國:英國政府每年資助1000位AI專業的博士
5、德國:首都柏林的AI初創公司數量位居世界第四。
6、法國:到2022年,法國政府對AI行業的投資將達18億美元。
7、加拿大:正在興建價值1.27億美元的AI研究設施。
8、俄羅斯:到2025年,俄羅斯30%的軍事裝備將實現機器人化。
9、以色列:自2014年以來,AI初創公司的數量增長了3倍。
10、愛沙尼亞:在處理與解決與AI相關的法律問題上走在世界前列。
AI 的未來
全面自動化的交通:AI技術將讓未來的交通走向全面智能化和自動化。
賽博技術:AI和機器人技術將成功助我們超越認知和身體上的極限。
代替人類從事危險職業:機器人和無人機將代替我們完成炸彈拆除等危險任務,我們不必為了完成這些任務冒上生命危險。
解決氣候變化問題:有朝一日,AI可以利用大數據獲得判斷趨勢的能力,并利用這些信息解決氣候變化這樣的重大問題。
探索新的邊界:機器人可以幫我們進一步探索太空和海洋。
預測未來:機器學習利用過去的信息預測未來,誰將開啟一段浪漫之旅?誰將面臨離婚等等。
原信息圖及更多內容:
https://www.visualcapitalist.com/ai-revolution-infographic/
https://techjury.net/stats-about/ai/
-
神經網絡
+關注
關注
42文章
4762瀏覽量
100535 -
視頻跟蹤
+關注
關注
0文章
2瀏覽量
6085 -
數據集
+關注
關注
4文章
1205瀏覽量
24641
原文標題:【CVPR Oral】視頻跟蹤新思路,完全無需手工標注
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論