精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用TRansformer進行端到端的目標檢測及跟蹤

3D視覺工坊 ? 來源:計算機視覺研究院 ? 2023-04-18 09:12 ? 次閱讀

現存的用檢測跟蹤的方法采用簡單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過于簡單,不足以建模復雜的變化,如通過遮擋跟蹤。

1

簡要

多目標跟蹤(MOT)任務的關鍵挑戰是跟蹤目標下的時間建模。現存的用檢測跟蹤的方法采用簡單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過于簡單,不足以建模復雜的變化,如通過遮擋跟蹤。所以現有的方法缺乏從數據中學習時間變化的能力。

ddad6866-dd74-11ed-bfe3-dac502259ad0.png

在今天分享中,研究者提出了第一個完全端到端多目標跟蹤框架MOTR。它學習了模擬目標的長距離時間變化。它隱式地執行時間關聯,并避免了以前的顯式啟發式方法。MOTR建立在TRansformer和DETR之上,引入了“跟蹤查詢”的概念。每個跟蹤查詢都會模擬一個目標的整個跟蹤。逐幀傳輸和更新,以無縫地執行目標檢測和跟蹤。提出了時間聚合網絡Temporal aggregation network)結合多框架訓練來建模長期時間關系。實驗結果表明,MOTR達到了最先進的性能

2

簡單背景

多目標跟蹤(MOT)是一種視覺目標檢測,其任務不僅是定位每一幀中的所有目標,而且還可以預測這些目標在整個視頻序列中的運動軌跡。這個問題具有挑戰性,因為每一幀中的目標可能會在pool environment中被遮擋,而開發的跟蹤器可能會受到長期和低速率跟蹤的影響。這些復雜而多樣的跟蹤方案在設計MOT解決方案時帶來了重大挑戰。

ddb96274-dd74-11ed-bfe3-dac502259ad0.png

對于基于IoU的方法,計算從兩個相鄰幀檢測到的檢測框的IoU矩陣,重疊高于給定閾值的邊界框與相同的身份相關聯(見上圖(a))。類似地,基于Re-ID的方法計算相鄰幀的特征相似性,并將目標對與高相似性相關起來。此外,最近的一些工作還嘗試了目標檢測和重識別特征學習的聯合訓練(見上圖(b))。

由于DETR的巨大成功,這項工作將“目標查詢”的概念擴展到目標跟蹤模型,在新框架中被稱為跟蹤查詢。每個跟蹤查詢都負責預測一個目標的整個跟蹤。如上圖(c),與分類和框回歸分支并行,MOTR預測每一幀的跟蹤查詢集。

3

新框架分析

最近,DETR通過采用TRansformer成功地進行了目標檢測。在DETR中,目標查詢,一個固定數量的學習位置嵌入,表示一些可能的實例的建議。一個目標查詢只對應于一個使用bipartite matching的對象。考慮到DETR中存在的高復雜性和慢收斂問題,Deformable DETR用多尺度deformable attention取代了self-attention。為了展示目標查詢如何通過解碼器與特征交互,研究者重新制定了Deformable DETR的解碼器。

ddbfda64-dd74-11ed-bfe3-dac502259ad0.png

MOTR

在MOTR中,研究者引入了跟蹤查詢和連續查詢傳遞,以完全端到端的方式執行跟蹤預測。進一步提出了時間聚合網絡來增強多幀的時間信息

ddc6430e-dd74-11ed-bfe3-dac502259ad0.png

DETR中引入的目標(檢測)查詢不負責對特定目標的預測。因此,一個目標查詢可以隨著輸入圖像的變化而預測不同的目標。當在MOT數據集的示例上使用DETR檢測器時,如上圖(a),相同檢測查詢(綠色目標查詢)預測兩個不同幀預測兩個不同的目標。因此,很難通過目標查詢的身份來將檢測預測作為跟蹤值聯系起來。作為一種補救措施,研究者將目標查詢擴展到目標跟蹤模型,即跟蹤查詢。在新的設計中,每個軌跡查詢都負責預測一個目標的整個軌跡。一旦跟蹤查詢與幀中的一個目標匹配,它總是預測目標,直到目標消失(見上圖(b))。

ddd03396-dd74-11ed-bfe3-dac502259ad0.png

Overall architecture of the proposed MOTR

Query Interaction Module

在訓練階段,可以基于對bipartite matching的GTs的監督來實現跟蹤查詢的學習。而對于推斷,研究者使用預測的軌跡分數來確定軌道何時出現和消失。

dddc4938-dd74-11ed-bfe3-dac502259ad0.png

Overall Optimization

我們詳細描述下MOTR的訓練過程。給定一個視頻序列作為輸入,訓練損失,即track loss,是逐幀計算和逐幀生成的預測。總track loss是由訓練樣本上的所有GT的數量歸一化的所有幀的track loss的總和:

dde3c58c-dd74-11ed-bfe3-dac502259ad0.png

單幀圖像Lt的track loss可表示為:

dde90a24-dd74-11ed-bfe3-dac502259ad0.png

4

實驗

ddf1574c-dd74-11ed-bfe3-dac502259ad0.png

Implementation Details

All the experiments are conducted on PyTorch with 8Tesla V100 GPUs. We use the Deformable-DETR withResNet50 as our basic network. The basic network ispretrained on the COCO detection dataset.We trainour model with the AdamW optimizer for total 200 epochswith the initial learning rate of 2.0 · 10?4. The learning ratedecays to 2.0 · 10?5 at 150 epochs. The batch size is set to1 and each batch contains 5 frames.

ddfda3a8-dd74-11ed-bfe3-dac502259ad0.png

The effect of multi-frame continuous query passing on solving ID switch problem. When the length of video sequence is setto two (top), the objects that are occluded will miss and switch the identity. When improving the video sequence length from two to five(bottom), the track will not occur the ID switch problem with the help of enhanced temporal relation.

de2b7882-dd74-11ed-bfe3-dac502259ad0.png






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1131

    瀏覽量

    40676
  • 檢測器
    +關注

    關注

    1

    文章

    860

    瀏覽量

    47651
  • MOT
    MOT
    +關注

    關注

    0

    文章

    18

    瀏覽量

    6943

原文標題:利用TRansformer進行端到端的目標檢測及跟蹤(附源代碼)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    連接視覺語言大模型與自動駕駛

    自動駕駛在大規模駕駛數據上訓練,展現出很強的決策規劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為
    的頭像 發表于 11-07 15:15 ?149次閱讀
    連接視覺語言大模型與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛

    智己汽車“”智駕方案推出,老司機真的會被取代嗎?

    與Momenta聯合打造的IM AD 3.0端直覺智能駕駛系統,在結構設計和決策邏輯上,進行了大膽的創新,試圖用“直覺化”思維模式替代傳統的模塊化系統。 ? IM AD 3.0的技術架構:
    的頭像 發表于 10-30 09:47 ?181次閱讀
    智己汽車“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕方案推出,老司機真的會被取代嗎?

    InfiniBand網絡解決LLM訓練瓶頸

    的,這需要大量的計算資源和高速數據傳輸網絡。InfiniBand(IB)網絡作為高性能計算和AI模型訓練的理想選擇,發揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)訓練的概念,并探索
    的頭像 發表于 10-23 11:26 ?288次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網絡解決LLM訓練瓶頸

    Mobileye自動駕駛解決方案的深度解析

    自動駕駛技術正處于快速發展之中,各大科技公司和汽車制造商均在爭相布局,試圖在這個新興領域占據一席之地。Mobileye作為全球自動駕駛技術的領軍企業之一,憑借其獨特的自動駕駛解決方案,展現了
    的頭像 發表于 10-17 09:35 ?296次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛解決方案的深度解析

    測試用例怎么寫

    編寫測試用例是確保軟件系統從頭到尾能夠正常工作的關鍵步驟。以下是一個詳細的指南,介紹如何編寫
    的頭像 發表于 09-20 10:29 ?342次閱讀

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設備,提供了完整的解決方案,從連接和安全解決方案到處理器和軟件,應有盡有,為Matter標準的規模化商用提供有力支撐。
    的頭像 發表于 08-26 18:04 ?2491次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>解決方案

    實現自動駕駛,唯有

    ,去年行業主流方案還是輕高精地圖城區智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發表于 08-12 09:14 ?618次閱讀
    實現自動駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    周光:不是真“無圖”,談何

    “如果智能駕駛系統不能徹底擺脫高精度地圖,談何。” ? 6月1日,元戎啟行CEO周光在粵港澳大灣區車展暨2024(第二屆)未來汽車先行者大會上表示。 ? 這并非周光第一次強調“無圖”方案與
    發表于 06-03 11:06 ?2845次閱讀
    周光:不是真“無圖”,談何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>

    小鵬汽車發布國內首個量產上車的大模型

    小鵬汽車近日宣布,國內首個大模型量產上車,這一革命性的技術將大幅提升智能駕駛的能力。據小鵬汽車介紹,這一大模型將使智駕能力提升二倍,感知距離同樣翻倍,同時能夠識別超過50種目標
    的頭像 發表于 05-28 11:47 ?681次閱讀

    小鵬汽車發布大模型

    小鵬汽車近日宣布,其成功研發并發布了“國內首個量產上車”的大模型,該模型可直接通過傳感器輸入內容來控制車輛,標志著智能駕駛技術的新突破。
    的頭像 發表于 05-21 15:09 ?651次閱讀

    佐思汽研發布《2024年自動駕駛研究報告》

    自動駕駛是直接從傳感器信息輸入(如攝像頭圖像、LiDAR等)控制命令輸出(如轉向、加減速等)映射的一套系統,最早出現在1988年的ALVINN項目,通過相機和激光測距儀
    的頭像 發表于 04-20 11:21 ?2812次閱讀
    佐思汽研發布《2024年<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛研究報告》

    理想汽車自動駕駛模型實現

    理想汽車在感知、跟蹤、預測、決策和規劃等方面都進行了模型化,最終實現了的模型。這種模型不僅完全模型化,還能夠虛擬化,即在模擬環境中
    發表于 04-12 12:17 ?412次閱讀
    理想汽車自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型實現

    百度開源DETRs在實時目標檢測中勝過YOLOs

    這篇論文介紹了一種名為RT-DETR的實時檢測Transformer,是第一個實時目標
    的頭像 發表于 03-06 09:24 ?1412次閱讀
    百度開源DETRs在實時<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>中勝過YOLOs

    移動協作機器人的RGB-D感知的處理方案

    本文提出了一種用于具有雙目視覺的自主機器人的三維語義場景感知的流程。該流程包括實例分割、特征匹配和點集配準。首先,利用RGB圖像進行
    發表于 02-21 15:55 ?624次閱讀
    移動協作機器人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>處理方案

    Sparse4D-v3:稀疏感知的性能優化及拓展

    上限,解決更多的corner case,讓系統更加魯棒。因此,在Sparse4D-v3中,我們主要做了兩部分工作,其一是進一步提升模型的檢測性能,另一是將Sparse4D拓展為一個
    的頭像 發表于 01-23 10:20 ?1263次閱讀
    Sparse4D-v3:稀疏感知的性能優化及<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>拓展