這篇論文介紹了一種名為RT-DETR的實時檢測Transformer,是第一個實時端到端目標檢測器。該方法通過設計高效的混合編碼器和IoU感知的查詢選擇,有效處理多尺度特征,并支持靈活調整推斷速度,無需重新訓練。在COCO val2017數據集上,RT-DETR-L實現了53.0%的AP和114 FPS,RT-DETR-X實現了54.8%的AP和74 FPS,RT-DETR-R50實現了53.1%的AP和108 FPS,性能優于同等規模的YOLO檢測器和DINO-DeformableDETR-R50模型。
讀者理解:
本文提出了一種新的實時端到端目標檢測器RT-DETR,并通過詳細的分析和實驗證明了其在速度和準確性方面的優勢。文章對NMS進行了深入的分析,并指出了當前實時檢測器中存在的問題,為提出新的解決方案提供了理論基礎。RT-DETR的設計理念和實驗結果為實時目標檢測領域的研究和應用提供了新的思路和方法。整體來說,這篇文章對實時目標檢測領域具有重要的學術和應用價值。
1 引言
目標檢測是一項重要的視覺任務,涉及在圖像中識別和定位物體。現代目標檢測器有兩種典型架構:基于CNN和基于Transformer。基于CNN的檢測器架構從最初的兩階段發展到單階段,并出現了基于錨點和基于無錨點的檢測范式。這些研究取得了顯著進展。基于Transformer的目標檢測器(DETRs)自提出以來受到廣泛關注,因為它消除了各種手工制作的組件,如非最大抑制(NMS),實現了端到端的目標檢測。實時目標檢測是一個重要的研究領域,現有的實時檢測器通常采用基于CNN的架構,但需要NMS進行后處理,導致推理速度延遲。
近年來,基于Transformer的檢測器取得了顯著進展,但其高計算成本限制了實際應用。為了解決這些問題,作者提出了實時檢測Transformer(RT-DETR),是第一個實時端到端目標檢測器,不需要后處理,推理速度穩定。RT-DETR在速度和準確性上均優于當前最先進的實時檢測器,成為新的SOTA。
2 探測器端到端速度
2.1 NMS的分析
本部分介紹了目標檢測中常用的后處理算法非極大值抑制(NMS),用于消除檢測器輸出的重疊預測框。NMS需要兩個超參數:分數閾值和IoU閾值。作者通過實驗驗證了NMS對這兩個超參數的敏感性,并展示了NMS操作在不同超參數下的執行時間。實驗結果表明,NMS的執行時間主要取決于輸入預測框的數量和超參數的選擇。此外,作者還介紹了實驗中使用的模型(YOLOv5和YOLOv8)以及評估準確性和執行時間的方法。這些實驗結果有助于更好地理解NMS在目標檢測中的作用和影響。
2.2 端到端速度基準
本部分介紹了建立了一個端到端速度測試基準,以公平比較各種實時檢測器的推理速度。選擇了COCO val2017作為默認數據集,并使用了TensorRT的NMS后處理插件。通過測試基于錨點的檢測器(如YOLOv5和YOLOv7)以及無錨點檢測器(如PP-YOLOE、YOLOv6和YOLOv8)在T4 GPU上的端到端速度,發現無錨點檢測器在等效準確性下優于基于錨點的檢測器,因為前者的后處理時間明顯少于后者。這對于實時檢測器的后處理時間進行了新的探討,為實時目標檢測提供了重要的參考。
3 實時DETR
3.1
本部分介紹了提出的實時DETR(RT-DETR)的模型架構。RT-DETR由骨干網絡、混合編碼器和Transformer解碼器組成,解碼器帶有輔助預測頭。模型利用骨干網絡最后三個階段的輸出特征作為編碼器的輸入,然后通過混合編碼器將多尺度特征轉換為圖像特征序列。接下來,使用IoU感知的查詢選擇從編碼器輸出序列中選擇一定數量的圖像特征作為解碼器的初始對象查詢。最后,解碼器利用輔助預測頭迭代優化對象查詢,生成框和置信度分數。這種架構使得RT-DETR能夠實現端到端的實時目標檢測。
3.2 高效混合編碼器
本部分詳細介紹了實時DETR中的高效混合編碼器的設計和優化。作者通過分析多尺度Transformer編碼器中的計算冗余,提出了一種新穎的編碼器結構。該編碼器包括兩個模塊,即基于注意力的內部尺度特征交互(AIFI)模塊和基于CNN的跨尺度特征融合模塊(CCFM)。AIFI模塊在高級特征上執行內部尺度交互,以捕捉圖像中概念實體之間的關系。而CCFM模塊則通過融合塊實現跨尺度特征融合,進一步優化了編碼器性能。通過實驗驗證,這種編碼器結構顯著降低了計算成本,同時提高了模型的準確性和實時性,為實時目標檢測提供了重要的技術支持。
3.3 基于IoU的查詢選擇
本部分介紹了IoU感知的查詢選擇方法,用于在DETR模型中選擇高質量的編碼器特征作為對象查詢的初始化。傳統的查詢選擇方法可能導致選擇具有高分類分數但低IoU分數的特征,從而降低了檢測器的性能。為了解決這個問題,提出了IoU感知的查詢選擇,通過在訓練期間約束模型對具有高IoU分數的特征產生高分類分數,并對具有低IoU分數的特征產生低分類分數。實驗結果表明,這種方法可以提供更準確的分類和定位結果,從而提高了檢測器的準確性。
3.4 縮放RT-DETR
本部分介紹了縮放的RT-DETR,通過將ResNet骨干網絡替換為HGNetv2來提供可擴展的版本。我們使用深度倍增器和寬度倍增器一起縮放骨干網絡和混合編碼器。因此,我們得到了兩個具有不同參數數量和FPS的RT-DETR版本。對于我們的混合編碼器,我們通過調整CCFM中RepBlocks的數量和編碼器的嵌入維度來控制深度倍增器和寬度倍增器。值得注意的是,我們提出的不同規模的RT-DETR保持了相同的解碼器,這有助于使用高精度大型DETR模型對輕量級檢測器進行蒸餾。
4 實驗
該部分介紹了實驗設置和結果。實驗在Microsoft COCO數據集上進行,使用COCO train2017進行訓練,使用COCO val2017進行驗證。使用單尺度圖像作為輸入,采用標準的COCO AP指標評估性能。使用在ImageNet上預訓練的ResNet和HGNetv2作為骨干網絡,AIFI由1個transformer層組成,CCMF中的融合塊默認由3個RepBlocks組成。在IoU感知的查詢選擇中,選擇前300個編碼器特征來初始化解碼器的對象查詢。訓練策略和解碼器的超參數幾乎遵循DINO。使用AdamW優化器進行訓練,基礎學習率為0.0001,權重衰減為0.0001,全局梯度剪裁范數為5。實驗結果表明,使用IoU感知的查詢選擇可以提高檢測器的準確性。
總結
在本文中,提出了RT-DETR,據作者所知是第一個實時端到端檢測器。作者首先對NMS進行了詳細分析,并建立了一個端到端速度基準,驗證了當前實時檢測器的推理速度受到NMS延遲的事實。作者還從NMS的分析中得出結論,無錨點檢測器在相同準確性下優于基于錨點的檢測器。為了避免NMS造成的延遲,設計了一個實時端到端檢測器,包括兩個關鍵改進組件:一個能夠高效處理多尺度特征的混合編碼器和提高對象查詢初始化的IoU感知查詢選擇。大量實驗證明,與其他實時檢測器和相似大小的端到端檢測器相比,RT-DETR在速度和準確性上均達到了最先進的水平。此外,提出的檢測器支持通過使用不同的解碼器層靈活調整推理速度,無需重新訓練,這有利于實時目標檢測器的實際應用。
審核編輯:劉清
-
檢測器
+關注
關注
1文章
860瀏覽量
47651 -
編解碼器
+關注
關注
0文章
253瀏覽量
24206 -
FPS
+關注
關注
0文章
35瀏覽量
11964 -
NMS
+關注
關注
0文章
9瀏覽量
6021
原文標題:CVPR'24 | 百度開源DETRs在實時目標檢測中勝過YOLOs
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論