研究背景介紹
近年來,隨著大數據、云計算、人工智能等領域日新月異的發展及交互融合,智慧電商、智慧交通、智慧城市等概念越發受到關注。隨著人們對更智能、更便捷、更高質量生活的向往,同時伴隨著重大的學術價值和廣闊的商業前景,眾多高校、科研機構、政府部門均對相關產業投入了大量的人力、物力和財力。人工智能,被喻為新時代工業革命的引擎,正在悄然滲入到各行各業并改變著我們的生活方式。計算機視覺是人工智能領域的重要分支,旨在研宄如何讓計算機像人類視覺系統一樣智能地感知、分析、處理現實世界。以圖像和視頻為信息載體的各項計算機視覺算法,早己滲透到大眾的日常生活中,如人臉識別、人機交互、商品檢索、智能監控、視覺導航等。視頻目標跟蹤技術,作為計算機視覺領域中基礎的、重要的研宄方向之一,一直是研宄人員的關注熱點。
視頻目標跟蹤要求在已知第一幀感興趣物體的位置和尺度信息的情況下,對該目標在后續視頻幀中進行持續的定位和尺度估計W。廣義的目標跟蹤通常包含單目標跟蹤和多目標跟蹤。兩者既有差別又有緊密的聯系。多目標跟蹤算法主要包括目標檢測和軌跡關聯,以確保同一個物體在視頻中獲得固定的、唯一的數字標識。多目標跟蹤通常限定在目標類別已知的場景中,如多行人、多車輛的視覺跟蹤。因此,多目標跟蹤算法高度依賴現成的目標檢測器。物體檢測的質量直接關系到后續的多目標軌跡關聯。不同地,單目標跟蹤算法要求處理任意類別的物體,即不知道任何關于目標的先驗信息。雖然前提條件略有差異,但正如其名,單目標跟蹤與多目標跟蹤都緊緊圍繞著視頻中的物體識別與跟蹤,因而在外觀建模、運動分析、軌跡關聯等技術細節上有緊密的關聯。如何將單目標跟蹤技術應用于多目標跟蹤領域也被廣泛研宄。因此,研究經典的、通用的單目標跟蹤任務對于整個跟蹤領域的發展有重要意義
隨著計算機運算性能的突飛猛進、高性能攝像終端的廣泛普及、以及視頻分析需求的與日俱增,目標跟蹤算法應用范圍愈發廣泛,落地需求愈加強烈。實現一個可以精準地、穩健地、快速地執行目標定位的高效視覺跟蹤系統是目前不懈努力的技術方向=近年來,在國內外大量學者的努力研宄下,該方向已經取得了突飛猛進的進展,但同時仍存在許多亟需解決的問題,例如如何應對跟蹤過程中目標的形變、模糊、旋轉、遮擋、超出視野等。隨著深度模型如卷積神經網絡(Convolutional Neural Network,CNN)等的應用,以及GPU設備帶來的計算效率的巨大躍升,目標跟蹤技術受益于更魯棒的特征表達以及端到端的模型訓練,已經在速度和精度方面漸漸接近了人們在實際生活中的應用需求。視頻目標跟蹤作為一個中低層的視覺分析任務,對眾多其它視覺任務具有良好的輔助作用,如協助視頻目標檢測、視頻目標分割、視頻行人重識別等。在實際應用場景中,如圖下圖所示,目標跟蹤的應用包括但不局限于以下方面:
1安全監控:安全監控需要對特定區域中的行人及物體進行持續的檢測和跟蹤,以便及時發現行人的異常行為或場景中的安全隱患。安全監控廣泛應用于日常生活的各個角落,如學校、銀行、超市、火車站、停車場、辦公樓以及街道路口等。智能監控通過對可疑行人的識別、跟蹤、以及更高層面的語義理解,自動分析并預警,提高效率的同時極大地減輕了人們的工作負擔。
2城市交通:伴隨著現代城市巨大的車流量、人流量、遮擋建筑物等,城市交通場景的分析任務復雜且繁重。利用視頻目標跟蹤技術,對行人軌跡、違章車輛、超速駕駛、車流密度等進行實時監控,為進一步的場景分析、秩序維護、智能調度提供便利,節約人力物力。
3人機交互:隨著計算機設備的智能化提升、虛擬現實等技術的成熟,人們不再僅僅滿足于傳統的機械式人機交互(如使用鼠標、鍵盤),如何與智能設備更便捷地進行溝通顯得愈發重要。攝像頭準確、高效地捕捉并持續跟蹤用戶的眼神、表情、手勢以及姿態是人機智能交互的第一步,而這離不開目標跟蹤技術的支持。
4軍事領域:視覺跟蹤技術在現代戰爭中一直扮演著重要角色。隨著現代戰爭武器的自動化部署,電光火石的交鋒已經遠遠超出了人類感知的極限。視覺跟蹤技術在導彈制導、火炮控制、武器觀測瞄準、無人機偵察等領域發揮著舉足輕重的作用。結合視覺感知并輔以多元信息(如激光和雷達)融合的跟蹤技術一直是軍事研宄的熱點。
5自動駕駛:自動駕駛需要車輛對周圍的場景進行實時的感知和分析。毋庸置疑,視覺跟蹤技術在其中發揮著重要作用。通過攝像頭對周圍環境中的目標進行持續的跟蹤定位,為無人車的路況分析、智能導航、行駛決策等提供了重要信息,保障交通順暢,減少事故發生。
6醫療診斷:視覺跟蹤技術為智慧醫療提供了堅實的保障并促進其發展。例如,使用跟蹤技術標記特定的細胞、蛋白質等,通過對其進行跟蹤和軌跡分析,輔助醫生進行疾病診斷和醫療救治。通過內窺鏡等設備的跟蹤和軌跡控制,精準地掌握病人情況。此外,跟蹤技術也用于對特定患病部位的持續追蹤和對比,為疾病動態檢測提供了極大便利。
此外,目標跟蹤技術也在視頻編輯、三維重建、機器人、機械自動控制等領域發揮著重要作用。
模塊之-運動模型
運動模型主要對目標在視頻中的運動軌跡進行建模和估計。在每一幀中,為較少不必要的運算開銷,跟蹤算法通常依據運動模型在特定的區域采樣候選樣本來尋找最可能的目標。跟蹤領域中,常見的運動模型包括卡爾曼濾波、粒子濾波、滑窗采樣等。早期的跟蹤算法(如基于稀疏表達和SVM的跟蹤器)廣泛地采用粒子濾波作為運動模型,其基本假設是目標在相鄰幀間的運動符合高斯分布。類似地,基于分類網絡的跟蹤器如MDNET同樣在目標前一幀位置處以高斯分布采樣大量的候選粒子,并依據觀測模型進一步分類。在后續的判別式跟蹤算法(如相關濾波器和雙路網絡)中,最常見的是滑窗式采樣,即假設目標在相鄰幀間的運動符合均勻分布。相關濾波器和雙路網絡通常以前一幀跟蹤位置為中心剪裁出目標的幾倍大區域,通常被稱為感興趣區域(Region of Interest),并在該區域內稠密地、滑窗式地搜索目標位置。必要時,這些跟蹤算法還會在跟蹤響應圖上增加漢明窗以懲罰目標相鄰幀間運動過遠的預測。最新的基于梯度的深度跟蹤算法也普遍地采用均勻分布的運動估計。上述的基于高斯分布或均勻分布的運動估計均沒有較好的建模目標的運動信息。在SINT算法中,作者使用光流算法來指導候選樣本的采樣過程,但在性能提升有限的同時又帶來了巨大的運算代價。針對DTB數據集M,作者針對無人機拍攝的跟蹤場景提出了有效的運動模型,但是僅局限于特定的情況。由于跟蹤領域的數據集眾多且拍攝場景多樣、復雜,其中不乏人為制造的相機劇烈抖動、目標無規則運動等因素來增加視頻的難度,因此單純地依賴運動模型很難準確地估計目標的運動軌跡。正因如此,科研人員將主要的研宄精力放在了觀測模型的構造和改進上,即依賴觀測模型的強大辨別能力來篩選和精煉運動模型產生的大量候選粒子。
模塊之-特征提取
依據運動模型確定當前幀的目標搜索范圍后,接下來需要對候選區域或候選樣本進行特征提取。在跟蹤任務中,良好的特征表達不僅需要刻畫候選目標豐富的、魯棒的、具有(旋轉、形變、光照等)不變性的外觀表達,同時還要凸顯出樣本間最具有區分力的特征差異以便于正負樣本的辨別。視覺跟蹤任務的特征表達大體經歷了手工特征和深度特征兩階段。在早期的手工特征階段,研究人員使用各種人為手工設計的規則將候選樣本進行向量化表達。早期的基于稀疏表達的目標跟蹤構造關于目標的完備字典,并通過衡量候選樣本在字典下的重構誤差來預測目標的位置。由于稀疏表達的求解相對耗時,早期的稀疏表達跟蹤通常使用維度較低的灰度值特征。在后續工作中,Zhang等人通過在稀疏建模中引入循環矩陣性質并近似得到閉合解,使得稀疏表達跟蹤器可以使用更高維度的特征(如HOG)來進一步提升性能?;赟VM(Support Vector Machine)的目標跟蹤同樣取得了優異的性能。該類算法通常采用Harr特征。基于顏色直方圖的跟蹤器也曾經受到了廣泛的關注。顏色直方圖的統計特性使得這類算法可以更加魯棒地處理目標形變。最早的相關濾波器MOSSE算法采用單通道的灰度值特征,因而展現了極高的運算速度。在后續的相關濾波器算法中,被證明是最有效、適合于相關濾波器的特征表達,并已經成為這類算法中最常見的兩類手工特征。當前眾多性能優異的相關濾波器算法都不同程度地使用HOG和ColorNames,如SRDCF、BACF、CSR-DCF、STRCF、ECOHC等。
隨著近年來深度學習的流行,視覺跟蹤中特征表達逐漸由手工特征轉換到深度特征。相比于注重局部的、底層的、紋理和輪廓等信息的手工特征,深度特征無需人工啟發式地設計,而是端到端地通過數據驅動來學習,具有高層語義特征表達的能力。早期的工作DLT中,研宄人員將圖像預訓練的深度特征用于目標跟蹤。由于缺乏大規模的訓練數據,該時期的深度跟蹤算法并沒有展現出明顯的性能優勢。在2015年,不同的研究團隊幾乎同時地使用Image Net預訓練的CNN網絡(如VGG-19、VGG-M)用于跟蹤器的特征提取。Ma等人發現CNN網絡不同層的特征具有不同層面的表達能力,將多尺度特征進行結合可以進一步提升跟蹤性能。此后,深度相關濾波器算法普遍地采用多層CNN特征。然而,該時期的深度相關濾波器算法僅使用現成的CNN網絡用于特征提取,并沒有充分發揮端到端訓練的優勢。在2017年,同時期的CFNET和DCFNet將特征提取網絡和相關濾波器進行聯合訓練,使得深度特征更加適合于相關濾波算法。后續工作中,相關濾波器的建模方式被廣泛地應用于跟蹤框架中,如CREST、ATOM、DiMP等跟蹤器。它們的特征提取網絡也從VGG-M漸漸轉換到更深的ResNet?;诜诸惥W絡的跟蹤器(如MDNet、VITAL)主要采用VGG-M網絡進行特征提取并在線地訓練全連接層進行樣本分類。早期的雙路網絡跟蹤算法主要采用AlexNet網絡結構進行端到端的模型訓練。在2019年,研宄人員探索了如何使用更深、更寬的神經網絡(如ResNet-50)以進一步提高雙路網絡的性能。此后,性能頂尖的雙路網絡基本都采用具有強大特征表達能力的ResNet-50網絡。
模塊之-觀測模型
根據觀測模型的不同,跟蹤算法大體上可以分為生成式和判別式跟蹤器。生成式模型僅僅使用前景的目標信息來構造跟蹤模型,通過衡量候選樣本的重構誤差或相似性來挑選最優樣本。常見的生成式跟蹤框架包含稀疏表達、子空間學習等。判別式跟蹤器同時考慮前景信息和背景信息,以學習到具有區分力的跟蹤模型。常見的判別式跟蹤器包括隨機森林分類器、SVM跟蹤器、相關濾波器、分類式神經網絡、雙路網絡等。由于同時利用了前景和背景信息,判別式模型憑借其優異的區分能力成為跟蹤領域的主流,并在性能上遠遠超過生成式跟蹤算法。接下來的內容主要介紹近年來流行的生成式和判別式跟蹤器。
1.生成式模型
基于子空間學習的跟蹤算法:該類算法的核心思想在于將特征從高維到低維進行映射,從而構造一系列子空間對目標外觀進行建模,進一步計算候選樣本在子空間下的重構誤差或相似性以挑選出最可能的目標。Black等人最早利用子空間學習搭建視覺跟蹤算法,并提出了基于不同視角、光照樣本下的子空間學習方案進行外觀建模。由于該算法需要大量的先驗知識,因而不適合實際應用場景。IVT算法采用了增量主成分分析來更新子空間,以適應目標的外觀變化。Yu等人進一步將増量流型子空間算法引入到視覺跟蹤領域,以同時保持多個子空間。
基于稀疏表達的跟蹤算法:自從稀疏表達算法在人臉識別中大放異彩,基于稀疏表達的目標跟蹤受到了廣泛關注。Mei等人較早地使用基于l1范數的稀疏表達模型對目標進行建模,通過使用初始幀和后續跟蹤得到的正樣本構造稀疏表達字典,并衡量候選樣本在字典集下的重構誤差來選擇其中最可能的目標。由于l1范數的求解過程復雜度很高,后續的研究采用了改進的優化算法如加速近似梯度算法(Accelerated Proximal Gradient,APG)和正交匹配追蹤(Orthogonal Matching Pursuit OMP)處理跟蹤任務。Jia等人采用基于局部圖像塊的稀疏表達建模方法,并獲得穩健的跟蹤結果。Zhong等人將基于局部圖像稀疏表達的生成模型和基于前景背景的辨別模型結合起來以達到模型間的優勢互補。最近的工作中,Zhang等人通過在稀疏表達框架中引入循環矩陣的性質,從而獲得了頻域上的高效運算,進一步提高了稀疏表達跟蹤的效率。
2.判別式模型
基于SVM的跟蹤算法:早在2001年,Avidan將支持向量機(Support Vector Machine,SVM)用于視頻目標跟蹤,通過SVM學習的分類器模型來區分正負樣本。隨后,各種改進的SVM跟蹤器不斷涌現。Supancic等人提出了基于自步學習(Self-paced learning)的SVM跟蹤器。Hare等人提出了結構化輸出的SVM跟蹤算法Struck,在當時取得了令人印象深刻的性能。Zhang等人在2014年提出了基于熵最小化原則的集成式SVM跟蹤框架,達到了十分魯棒的預測結果。隨著深度學習的興起,將神經網絡和SVM算法結合的CNN-SVM跟蹤器大幅度超越了之前采用手工特征的SVM跟蹤器。
基于相關濾波器的跟蹤算法:相關濾波器(Correlation Filter,CF)通過學習一個具有區分力的濾波器來處理待跟蹤圖片,其輸出結果為一個響應圖,表示目標在后續幀中不同位置的置信度。相關濾波器通過利用循環樣本和循環矩陣的性質求解嶺回歸問題,得到了頻域上的高效閉合解,計算效率十分出色。但由于相關濾波器的學習過程中引入了循環樣本,這些樣本不可避免地帶來了邊界效應,因此傳統的相關濾波器算法在如何抑制邊界效應上開展了大量的研宄,典型的工作包括SRDCF、BACF等。此外,許多先進的技術也融入在相關濾波器算法中,如結合多種核函數和粒子濾波器結合適用于長時跟蹤的重檢測、集成學習等。
隨著深度學習的日益發展,深度學習和相關濾波器的結合受到了廣泛的關注。早期的工作中,研究人員探索如何將離線訓練好的深度特征和相關濾波器進行結合。典型的工作HCF提出將不同層的深度特征分別訓練相關濾波器并進行由粗到精(coarse to fine)的融合。在后續的工作中,如何更加充分地利用深度特征被進一步探索,如HDT算法研究了如何自適應地改變各尺度特征下跟蹤響應的權重。在深度相關濾波器的基礎上,代表性工作C-COT和ECO取得了當時優異的性能。C-COT算法重點研究了不同層深度特征的分辨率不同而導致的響應圖融合問題,并提出了連續性插值和濾波器聯合優化的方法,取得了良好的效果。ECO在C-COT的基礎上,研宄了自適應的相關濾波器選取、目標樣本的聚類、稀疏的目標更新,獲得了速度和存儲上的進一步優化并輕微提升了性能。在UPDT中,作者詳細分析了深度相關濾波器算法的性能瓶頸,并提出了適合深度相關濾波器的數據增廣、濾波器帶寬、融合權重優化等細節,使得相關濾波器在采用更深的神經網絡后可以得到持續的性能提升。
隨著研究的深入,研究人員發現離線訓練的深度特征可能并不是相關濾波器的最優選擇。得益于相關濾波器的閉合解,研究人員嘗試將濾波器和特征提取網絡進行聯合訓練,經典的工作包括CFNet和DCFNet。CFNet將相關濾波器嵌入在雙路網絡中進行端到端的學習,在獲得相關濾波器辨別能力的情況下,同時保證了極高的運行效率。但是,具有邊界效應抑制能力的一系列工作(如SRDCF、BACF)和其它優化算法(如C-COT、ECO)破壞了經典相關濾波器的閉合解,通常需要使用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)進行優化,為端到端訓練帶來挑戰。
在最新的工作中,研究者采用梯度優化的方法來端到端地優化基于相關濾波器算法的深度框架。在CREST算法中,深度學習中常見的隨機梯度下降算法(Stochastic Gradient Descent,SGD)被用于優化正則化最小二乘損失(即嶺回歸),來學習一個類似于相關濾波器的、具備前景背景區分能力的卷積核。此卷積核與搜索圖的特征圖進行卷積,生成目標跟蹤響應圖。在CREST跟蹤器中shrink loss,作者進一步引入殘差項來彌補目標外觀的快速變化,取得了進一步的性能提升。在DLST算法中,作者引入了收縮式損失,極大地抑制了冗余的、容易分類的負樣本的權重,使得學習到的濾波器更加具有區分力且學習的速度更快。上述的隨機梯度下降方案通常需要數十次甚至上百次迭代才能較好地收斂,因而一定程度抑制了跟蹤器的效率。在最近的工作中,研宄人員轉向更加快速的梯度下降方法。在最近的ATOM算法中,作者采用共軛梯度策略結合深度學習框架進行快速優化。該研宄團隊在工作DiMp中進一步將該思想擴展到了端到端的學習中,并通過神經網絡學習跟蹤模型所需的各種參數。由于端到端地估計梯度下降的優化步長,使得模型可以在少數幾次迭代中快速收斂,保持了嶺回歸損失的區分能力同時保證了跟蹤效率。該算法在數個跟蹤數據集上都刷新了當時的性能記錄。
基于分類網絡的跟蹤算法:基于分類的深度跟蹤方法將視頻目標跟蹤視為前景(目標)和背景的二分類任務,并借鑒流行的目標檢測算法R-CNNM訓練跟蹤器。該深度跟蹤網絡包含一系列卷積層以提取候選樣本的魯棒特征表達,并通過后續的全連接層對樣本進行二分類。該方法利用初始幀中的標注樣本進行模型微調,并在跟蹤過程中不斷更新網絡,因而效率較低。MDNet方法%最早使用分類式網絡進行目標跟蹤,并針對待跟蹤物體在不同視頻中引發的歧義問題,即該視頻中的目標可能成為其它視頻中的背景物體,從而引入了多數據域的訓練框架。在MDNet的訓練過程中,網絡的共享層由訓練集中所有視頻共同訓練以學習魯棒的通用特征表達。對每個視頻,MDNet又分別訓練獨立的分類層(最后一個全連接層)用于區分當前視頻域中的目標和背景。經過離線訓練階段,在跟蹤時,利用第一幀的標注信息快速微調一個新的全連接層用于辨別當前視頻的目標和背景。
后續的一系列工作圍繞該分類式模型展開。BmnchOut算法在l0的基礎上引入了模型集成的思想,在線地學習并更新多個全連接層,并逐幀挑選最具判別力的全連接層進行跟蹤。VITAL方法在MDNet的基礎上引入了生成對抗式網絡,通過在訓練時遮擋目標的不同區域以增強網絡的特征表達能力以及預測的魯棒性。分類式跟蹤方法的主要弊端在于速度很慢,在GPU中僅能達到1FPS,其主要原因在于大量的候選樣本需要重復的特征提取。后續的實時MDNet算法(RT-MDNet)在分類式網絡借鑒Fast RCNN的思想,對搜索區域進行共享特征提取,然后再使用ROI-Align裁剪出候選樣本特征,使得精度僅有輕微影響的情況下跟蹤速度提高25倍以上。
基于雙路網絡的跟蹤算法:雙路網絡將目標跟蹤視為模板匹配任務,通過尋找和第一幀模板最相似的候選進行目標定位。由于雙路網絡的前景、背景判別能力是通過離線階段大量數據訓練得到的,不需要模型的在線更新,因而展示了極為出色的跟蹤效率。SINT算法通過衡量候選樣本和初始幀模板的相似度進行跟蹤。同時期,Bertinetto等人間提出了全卷積的雙路網絡框架SiamFC,此方法利用共享權重的卷積網絡提取目標模板和搜索區域的特征,然后通過相關操作生成搜索區域的響應圖進行目標定位。
研究人員針對SiamFC框架,提出一系列改進算法,包括集成學習引入互補的雙路網絡分支、引入注意力機制、圖卷積神經網絡、采用強化學習來調整模型參數等。此外,考慮到SiamFC對目標的尺度回歸仍采用傳統的金字塔形式,不能準確地獲得目標的尺度信息,Li等人提出SiamRPN。此方法將目標檢測中的RPN結構引入到SiamFC中,利用參數共享的模塊提取特征,然后分別經過分類支路獲得目標的位置以及回歸支路獲得目標尺度的精確估計。相比于SiamFC中采用傳統的圖像金字塔方式來估計目標尺寸,SiamRPN的推理速度更快,可以達到160FPS。此后Li等人進一步對SiamRPN進行拓展并提出DaSiamRPN,在訓練階段通過挖掘負樣本對提高了雙路網絡的辨別能力。為了使雙路算法充分利用現有的深層神經網絡,Li等人將ResNet網絡引入到雙路跟蹤并提出SiamRPN++算法。SiamRPN++—方面隨機平移目標在搜索區域內的位置以解決CNN的邊界填充對雙路網絡平移不變性的破壞,另一方面采用了高層、中層、低層特征融合的方式獲得更好的目標特征表達。SiamRPN++在多個目標跟蹤數據集上獲得了當時最優的性能。
模塊之-模型更新
為了適應目標的外觀變化,視覺跟蹤算法普遍采用模型更新技術。例如,稀疏表達跟蹤器利用新收集的正樣本來更新稀疏字典;基于SVM的跟蹤算法使用后續幀中收集的正、負樣本來更新決策平面;相關濾波器將后續楨中得到的濾波器以指數型滑動平均(exponential moving average)的策略更新初始濾波器;基于分類網絡的跟蹤器不斷收集新的正、負樣本來在線微調分類網絡。
然而,由于目標遮擋、形變、跟蹤漂移等因素,跟蹤過程中收集的受污染正樣本可能導致模型退化。針對這個問題,SRDCFdecon提出了樣本權重優化的方式來抑制不可靠正樣本的權重。Wang等人提出了APCE(Average Peak-to-Correlation Energy)評估準則來衡量跟蹤結果的可靠性。另一方面,跟蹤過程中存在大量的無意義負樣本,嚴重影響了判別式分類器的區分力。MDNet算法W通過挖掘困難負樣本(hard negative mining)來増強算法的魯棒性。DSLT算法通過設計損失函數來抑制冗余的負樣本。在最新的判別式跟蹤算法如ATOM和DiMP中,模型更新時重點關注困難負樣本己經成為了算法標配。
不同于多數跟蹤算法,早期的雙路網絡通常不使用模型更新策略。為了更好地適應目標外觀變化,MemTrack算法利用LSTM(Long Short Term Memory)結構挖掘歷史幀的模板信息以更新當前幀的模板。UpdateNet算法訓練一個獨立的卷積網絡并利用歷史模板在下一幀預測一個最優的模板特征。GradNet算法通過梯度信息更新模板,一定程度上可以抑制模板中的背景信息。
視頻跟蹤數據集
OTB:OTB數據集包含OTB-2013和OTB-2015兩個版本。其中OTB-2013包含51個以往跟蹤領域的常用測試視頻。同時作者還提出了一系列的評估準則。該數據集及評價標準為跟蹤算法提供了統一的測試與評估環境,極大地促進了早期視覺跟蹤領域的發展。OTB-2015數據集是OTB-2013的擴充,共包含100個挑戰性視頻。此外,該數據集還對視頻標出了遮擋、形變、快速運動、光照變化、模糊等11個視頻屬性,便于分析跟蹤器應對不同場景的能力。
TempleColor:Liang等人于2015年提出此數據集。針對OTB數據集中存在大量的灰度視頻,不利于實際場景的算法評估,TempleColor數據集收集了128個彩色視頻,包含27個物體類別。其中部分視頻來源于OTB-2015。
NFS:該數據集包含100個視頻,包含17個物體類別。不同于常規數據集的每秒30幀的視頻采樣頻率,NFS中的視頻幀率達到240FPS。更高的視頻幀率對跟蹤性能有明顯的提升。在該數據集上,傳統跟蹤算法和最新跟蹤器之間的性能差距大幅度縮小。
UAV123:此數據集包含123個視頻,共具有9個物體類別。不同于以往的針對通用目標的跟蹤數據集,UAV123針對特定的無人機跟蹤場景,其視頻往往由高空俯視角度拍攝,物體通常更小且視角變化較多。
VOT:單目標視覺跟蹤競賽(Visual Object Tracking,VOT)自2013年首次舉辦,每年一期,發展至今。VOT競賽采用的數據集主要針對短時目標跟蹤,近些年也會評價算法的實時性以及長時目標跟蹤的性能。不同于以上數據集,跟蹤器在VOT上測試時,失敗時會被復位到正確位置。最終根據失敗次數以及成功幀的準確度綜合成統一的指標來評價跟蹤器的性能。
LaSOT:LaSOT是近年來Fan等人提出的大規模跟蹤數據集,共含1400個人工標注的高質量視頻。其分為訓練集與測試集,且兩者沒有重疊。該數據集包含70個物體類別,視頻平均長度在2500幀左右,十分具有挑戰性。
OxUvA:此數據集包含366個視頻,總時長超過14個小時。OxUvA專門針對長時間目標跟蹤的場景。長時跟蹤,由于目標頻繁地被遮擋及超出視野,對跟蹤器的魯棒性有更高要求。與此同時,作者還提出了評價長時跟蹤性能的評估指標,有助于長時跟蹤領域的發展。
GOT-10K:此數據集包含1萬個視頻,共560個目標類別。值得說明的是,該數據集的訓練視頻和測試視頻中的物體類別沒有重合,目的在于更加貼近通用目標跟蹤的任務設定,即跟蹤算法不依賴于特定物體類別或數據集,也沒有任何關于待跟蹤目標的先驗知識,可以更好地驗證算法的泛化性。
TrackingNet:此數據集包含超過3萬個視頻,共有27個目標類別,其視頻數量和標注數量比以往的跟蹤數據集更大。同時該數據集也進行了訓練集和測試集的劃分。該數據集提供的大規模訓練視頻能夠有效地緩解當前跟蹤領域的訓練數據不足的問題。
審核編輯 :李倩
-
人工智能
+關注
關注
1791文章
46853瀏覽量
237547 -
計算機視覺
+關注
關注
8文章
1696瀏覽量
45927 -
數據集
+關注
關注
4文章
1205瀏覽量
24641
原文標題:一文熟悉視頻目標跟蹤
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論