CVPR 2019期間,專注于AR技術(shù),整合軟硬件的人工智能公司亮風(fēng)臺(tái)公開(kāi)大規(guī)模單目標(biāo)跟蹤高質(zhì)量數(shù)據(jù)集LaSOT,包含超過(guò)352萬(wàn)幀手工標(biāo)注的圖片和1400個(gè)視頻,這也是目前為止最大的擁有密集標(biāo)注的單目標(biāo)跟蹤數(shù)據(jù)集。
論文《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》詳細(xì)闡述了LaSOT數(shù)據(jù)集的構(gòu)造原理和評(píng)估方法,由亮風(fēng)臺(tái)、華南理工大學(xué)、美圖-亮風(fēng)臺(tái)聯(lián)合實(shí)驗(yàn)室等單位共同完成,收錄于CVPR 2019。此外,亮風(fēng)臺(tái)另一算法成果投影AR新成果入選CVPR 2019 oral。
LaSOT貢獻(xiàn)
視覺(jué)跟蹤是計(jì)算機(jī)視覺(jué)中最重要的問(wèn)題之一,其應(yīng)用領(lǐng)域包括視頻監(jiān)控、機(jī)器人技術(shù)、人機(jī)交互等。隨著跟蹤領(lǐng)域的巨大進(jìn)步,人們提出了許多算法。在這一過(guò)程中,跟蹤基準(zhǔn)對(duì)客觀評(píng)估起到了至關(guān)重要的作用。LaSOT的推出,是希望為行業(yè)提供一個(gè)大規(guī)模的、專門的、高質(zhì)量的基準(zhǔn),用于深度跟蹤訓(xùn)練和跟蹤算法的真實(shí)評(píng)估。
圖1:常用跟蹤數(shù)據(jù)集統(tǒng)計(jì)示意圖。包括OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017和LaSOT。圓直徑與數(shù)據(jù)集的總幀數(shù)數(shù)成比例。所提出的LaSOT比所有其他基準(zhǔn)都要大,并且專注于長(zhǎng)期跟蹤。
觀察和比較不同的跟蹤算法發(fā)現(xiàn),其進(jìn)一步發(fā)展和評(píng)估受到現(xiàn)有評(píng)測(cè)集的限制,存在的問(wèn)題主要包括:
1.規(guī)模小。現(xiàn)有數(shù)據(jù)集很少有超過(guò)400個(gè)序列,由于缺乏大規(guī)模的跟蹤數(shù)據(jù)集,很難使用跟蹤特定視頻訓(xùn)練深度跟蹤器。
2.短時(shí)跟蹤。理想的跟蹤器能夠在相對(duì)較長(zhǎng)的時(shí)間內(nèi)定位目標(biāo),目標(biāo)可能消失并重新進(jìn)入視圖。然而,大多數(shù)現(xiàn)有的基準(zhǔn)都集中在短期跟蹤上,其中平均序列長(zhǎng)度小于600幀(即20秒左右),而且目標(biāo)幾乎總是出現(xiàn)在視頻幀中。
3.類別偏見(jiàn)。一個(gè)穩(wěn)健的跟蹤系統(tǒng)應(yīng)該表現(xiàn)出對(duì)目標(biāo)所屬類別的不敏感性,這意味著在訓(xùn)練和評(píng)估跟蹤算法時(shí)都應(yīng)該抑制類別偏差(或類別不平衡)。然而,現(xiàn)有的基準(zhǔn)通常只包含幾個(gè)類別,視頻數(shù)量不平衡。
許多數(shù)據(jù)集被提議處理上述問(wèn)題,然而,并都沒(méi)有解決所有的問(wèn)題。
基于上述動(dòng)機(jī),他們?yōu)樯鐓^(qū)提供了一個(gè)新的大型單目標(biāo)跟蹤(LaSOT)基準(zhǔn),并提供了多方面的貢獻(xiàn):
1. LaSOT包含1400個(gè)視頻,每個(gè)序列平均2512幀。每一幀都經(jīng)過(guò)仔細(xì)檢查和手動(dòng)標(biāo)記,并在需要時(shí)對(duì)結(jié)果進(jìn)行目視檢查和糾正。這樣,可以生成大約352萬(wàn)個(gè)高質(zhì)量的邊界框注釋。
此外,LaSOT包含70個(gè)類別,每個(gè)類別包含20個(gè)序列。據(jù)了解,LaSOT是迄今為止最大的具有高質(zhì)量手動(dòng)密集注釋的對(duì)象跟蹤數(shù)據(jù)集。
2. 與之前的數(shù)據(jù)集不同,LaSOT提供了可視化邊界框注釋和豐富的自然語(yǔ)言規(guī)范,這些規(guī)范最近被證明對(duì)各種視覺(jué)任務(wù)都是有益的,包括視覺(jué)跟蹤。這樣做的目標(biāo)是鼓勵(lì)和促進(jìn)探索集成視覺(jué)和語(yǔ)言功能,以實(shí)現(xiàn)強(qiáng)大的跟蹤性能。
3. 為了評(píng)估現(xiàn)有的跟蹤器,并為將來(lái)在LaSOT上的比較提供廣泛的基準(zhǔn),團(tuán)隊(duì)在不同的協(xié)議下評(píng)估了35個(gè)具有代表性的跟蹤器,并使用不同的指標(biāo)分析其性能。
LaSOT大規(guī)模多樣化的數(shù)據(jù)采集
LaSOT數(shù)據(jù)集的構(gòu)建遵循大規(guī)模、高質(zhì)量的密集注釋、長(zhǎng)期跟蹤、類別平衡和綜合標(biāo)記五個(gè)原則。
LaSOT基準(zhǔn)數(shù)據(jù)采集涵蓋了各種不同背景下的各種對(duì)象類別,包含70個(gè)對(duì)象類別。大多數(shù)類別是從ImageNet的1000個(gè)類別中選擇的,但少數(shù)例外(如無(wú)人機(jī))是為流行的跟蹤應(yīng)用程序精心選擇的。以往的數(shù)據(jù)集通常含有的類別少于30個(gè),并且一般分布不均勻。相比之下,LaSOT為每個(gè)類別提供相同數(shù)量的序列,以減輕潛在的類別偏差。
在確定了LaSOT中的70個(gè)對(duì)象類別之后,他們從YouTube中搜索了每個(gè)類的視頻。最初,他們收集了5000多個(gè)視頻。考慮到追蹤視頻的質(zhì)量和LaSOT的設(shè)計(jì)原則,他們挑選了1400個(gè)視頻。但是,由于大量無(wú)關(guān)內(nèi)容,這1400個(gè)序列不能立即用于跟蹤任務(wù)。例如,對(duì)于個(gè)人類別的視頻(例如,運(yùn)動(dòng)員),它通常在開(kāi)始時(shí)包含每個(gè)運(yùn)動(dòng)員的一些介紹內(nèi)容,這不適合跟蹤。因此,他們仔細(xì)過(guò)濾掉每個(gè)視頻中不相關(guān)的內(nèi)容,并保留一個(gè)可用于跟蹤的剪輯。此外,LaSOT的每一個(gè)分類都包含20個(gè)目標(biāo),反映了自然場(chǎng)景中的分類平衡和多樣性。
最終,他們通過(guò)收集1400個(gè)序列和352萬(wàn)幀的YouTube視頻,在Creative Commons許可下,編譯了一個(gè)大規(guī)模的數(shù)據(jù)集。LaSOT的平均視頻長(zhǎng)度為2512幀(即30幀每秒84秒)。最短的視頻包含1000幀(即33秒),最長(zhǎng)的視頻包含11397幀(即378秒)。
LaSOT提供可視化邊界框注釋
為了提供一致的邊界框注釋,團(tuán)隊(duì)還定義了一個(gè)確定性注釋策略。對(duì)于具有特定跟蹤目標(biāo)的視頻,對(duì)于每個(gè)幀,如果目標(biāo)對(duì)象出現(xiàn)在幀中,則標(biāo)注者會(huì)手動(dòng)繪制/編輯其邊界框,使其成為最緊的右邊界框,以適合目標(biāo)的任何可見(jiàn)部分;否則,標(biāo)注者會(huì)向幀提供一個(gè)“目標(biāo)不存在”的標(biāo)簽,無(wú)論是不可見(jiàn)還是完全遮擋。請(qǐng)注意,如任何其他數(shù)據(jù)集中所觀察到的那樣,這種策略不能保證最小化框中的背景區(qū)域。然而,該策略確實(shí)提供了一個(gè)一致的標(biāo)注,這對(duì)于學(xué)習(xí)物體的運(yùn)動(dòng)是相對(duì)穩(wěn)定的。
雖然上述策略在大多數(shù)情況下都很有效,但也存在例外情況。有些物體,例如老鼠,可能有細(xì)長(zhǎng)和高度變形的部分,例如尾巴,這不僅會(huì)在物體的外觀和形狀上產(chǎn)生嚴(yán)重的噪聲,而且對(duì)目標(biāo)物體的定位提供很少的信息。他們?cè)贚aSOT中仔細(xì)識(shí)別這些對(duì)象和相關(guān)的視頻,并為它們的注釋設(shè)計(jì)特定的規(guī)則(例如,在繪制它們時(shí)不包括鼠標(biāo)的尾部)。
圖2:LaSOT示例序列和標(biāo)注
序列的自然語(yǔ)言規(guī)范由描述目標(biāo)的顏色、行為和環(huán)境的句子表示。對(duì)于LaSOT,他們?yōu)樗幸曨l提供1400個(gè)描述語(yǔ)句。請(qǐng)注意,語(yǔ)言描述旨在為跟蹤提供輔助幫助。例如,如果追蹤器生成進(jìn)一步處理的建議,那么語(yǔ)言規(guī)范可以作為全局語(yǔ)義指導(dǎo),幫助減少它們之間的模糊性。
構(gòu)建高質(zhì)量密集跟蹤數(shù)據(jù)集的最大努力顯然是手動(dòng)標(biāo)記、雙重檢查和糾錯(cuò)。為了完成這項(xiàng)任務(wù),他們組建了一個(gè)注釋小組,包括幾個(gè)在相關(guān)領(lǐng)域工作的博士生和大約10名志愿者。
35個(gè)代表性跟蹤器的評(píng)估
他們沒(méi)有對(duì)如何使用LaSOT進(jìn)行限制,但提出了兩種協(xié)議來(lái)評(píng)估跟蹤算法,并進(jìn)行相應(yīng)的評(píng)估。
方案一:他們使用1400個(gè)序列來(lái)評(píng)估跟蹤性能。研究人員可以使用除了LaSOT中的序列以外的任何序列來(lái)開(kāi)發(fā)跟蹤算法。方案一旨在對(duì)跟蹤器進(jìn)行大規(guī)模評(píng)估。
方案二:他們將LaSOT劃分為訓(xùn)練和測(cè)試子集。根據(jù)80/20原則(即帕累托原則),他們從每類20個(gè)視頻中選出16個(gè)進(jìn)行培訓(xùn),其余的進(jìn)行測(cè)試。具體來(lái)說(shuō),訓(xùn)練子集包含1120個(gè)視頻,2.83m幀,測(cè)試子集包含280個(gè)序列,690k幀。跟蹤程序的評(píng)估在測(cè)試子集上執(zhí)行。方案二的目標(biāo)是同時(shí)提供一大套視頻用于訓(xùn)練和評(píng)估跟蹤器。
根據(jù)流行的協(xié)議(如OTB-2015[53]),他們使用OPE作為量化評(píng)估標(biāo)準(zhǔn),并測(cè)量?jī)蓚€(gè)協(xié)議下不同跟蹤算法的精度、標(biāo)準(zhǔn)化精度和成功率。他們?cè)u(píng)估了LaSOT上的35種算法,以提供廣泛客觀的基準(zhǔn),Tab. 3按時(shí)間順序總結(jié)這些跟蹤器及其表示方案和搜索策略。
表3:已評(píng)估跟蹤程序的摘要。
方案一評(píng)估結(jié)果
方案一旨在對(duì)LaSot的1400個(gè)視頻進(jìn)行大規(guī)模評(píng)估。每個(gè)跟蹤器都按原樣用于評(píng)估,沒(méi)有任何修改。他們使用精度、標(biāo)準(zhǔn)化精度和成功率在OPE中報(bào)告評(píng)估結(jié)果,
圖3:利用精度、歸一化精度和成功率對(duì)一號(hào)方案下的算法量化評(píng)估。
圖4:在協(xié)議I下,追蹤器在三個(gè)最具挑戰(zhàn)性的屬性上的代表性結(jié)果。
圖5:六大典型挑戰(zhàn)序列上的的定性評(píng)價(jià)結(jié)果。
方案二評(píng)估結(jié)果
圖6:使用精度、標(biāo)準(zhǔn)化精度和成功率對(duì)方案II下的跟蹤算法評(píng)估。
根據(jù)方案二,他們將LaSOT分為訓(xùn)練集和測(cè)試集。研究人員可以利用訓(xùn)練集中的序列來(lái)開(kāi)發(fā)他們的跟蹤器,并評(píng)估他們?cè)跍y(cè)試集中的表現(xiàn)。為了提供測(cè)試集的基線和比較,他們?cè)u(píng)估了35種跟蹤算法。每個(gè)跟蹤器都被用于評(píng)估,沒(méi)有任何修改或再培訓(xùn)。使用精度、歸一化精度和成功率的評(píng)價(jià)結(jié)果如圖6所示。
除了對(duì)每一種跟蹤算法進(jìn)行評(píng)估外,他們還對(duì)兩種具有代表性的深跟蹤算法MDNET[42]和SIAMFC進(jìn)行了重新培訓(xùn),并對(duì)其進(jìn)行了評(píng)估。評(píng)估結(jié)果表明,這些跟蹤器在沒(méi)有重訓(xùn)練的情況下具有相似的性能。一個(gè)潛在的原因是他們的重新培訓(xùn)可能和原作者使用配置不同。
他們對(duì)SiamFC的LaSOT訓(xùn)練集進(jìn)行了再培訓(xùn),以證明使用更多的數(shù)據(jù)如何改進(jìn)基于深度學(xué)習(xí)的跟蹤器。Tab. 4報(bào)告了OTB-2013和OTB-2015的結(jié)果,并與在ImageNet視頻上培訓(xùn)的原始SIAMFC的性能進(jìn)行了比較。請(qǐng)注意,使用彩色圖像進(jìn)行培訓(xùn),并應(yīng)用3個(gè)比例的金字塔進(jìn)行跟蹤,即SIAMFC-3S(彩色)。表4為在LaSOT上對(duì)siamfc進(jìn)行再培訓(xùn)。
跟蹤在這兩個(gè)實(shí)驗(yàn)中保持不變。他們?cè)趦蓚€(gè)評(píng)測(cè)集上觀察到了一致的性能提升,顯示了針對(duì)深度追蹤器的特定大規(guī)模訓(xùn)練集的重要性。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46859瀏覽量
237557 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1696瀏覽量
45927 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1205瀏覽量
24643
原文標(biāo)題:352萬(wàn)幀標(biāo)注圖片,1400個(gè)視頻,亮風(fēng)臺(tái)推最大單目標(biāo)跟蹤數(shù)據(jù)集
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論