本文介紹了來自北京大學王選計算機研究所的王勇濤團隊與其合作者的最新研究成果RCBEVDet。針對自動駕駛場景,該篇工作提出了一個基于毫米波雷達和環視相機鳥瞰圖(BEV)特征融合的3D目標檢測模型架構RCBEVDet,在顯著提升3D目標檢測精度的同時可保持實時的推理速度,且對模態信號丟失、干擾等情況魯棒,論文已被CVPR 2024錄用。
論文概述:
本文提出了一個基于毫米波雷達和環視相機鳥瞰圖(BEV)特征融合的3D目標檢測模型架構RCBEVDet。該架構針對毫米波雷達的特性設計了一種高效的毫米波雷達主干網絡(RadarBEVNet)進行點云鳥瞰圖特征提取,提出了一種基于可形變的跨注意力機制進行毫米波雷達特征和環視相機特征融合。該架構對現有主流的環視相機3D檢測器具有較強的兼容性,在顯著提升3D目標檢測精度的同時可保持實時的推理速度,且對模態信號丟失、干擾等情況魯棒。同時,該架構在自動駕駛感知數據集nuScenes上取得了領先的毫米波雷達-多攝相機3D目標檢測精度以及推理速度-精度綜合性能。? ??
研究背景:
近期,研究者們關注于使用經濟且高效的多視角相機進行自動駕駛場景的3D目標檢測。多視角相機能夠捕捉物體的顏色和紋理信息,同時提供高分辨率的語義信息。然而,僅依賴單獨的多視角相機難以實現高精度且魯棒的3D目標檢測。例如,多視角相機難以提供準確的深度信息,且圖像質量受天氣和光照的影響較大。為了提升智能駕駛系統的安全性和魯棒性,智能駕駛車輛通常采用多種模態的傳感器獲取場景信息進行感知,如環視相機、激光雷達、毫米波雷達等。毫米波雷達是一種經濟實惠的常用傳感器,能夠提供較為準確的深度信息和速度信息,并且能夠在各種天氣和光照條件下給出高質量毫米波點云。因此,使用毫米波雷達-環視相機多模態組合感知方案具有優秀的感知能力和較高的性價比,受到了現在很多研究人員和車廠的青睞。但是,由于4D毫米波雷達和環視相機模態間的巨大差異,如何融合這兩種模態信息高精度且魯棒地完成智能駕駛感知任務(如3D目標檢測)具有非常大的技術挑戰性。
方法部分:
作者提出了RCBEVDet,一種基于毫米波雷達和多視角相機鳥瞰圖融合的3D感知方法,以實現高精度、高魯棒性的自動駕駛多模態3D感知。具體架構如下圖所示:
圖1 RCBEVDet架構圖
RCBEVDet針對毫米波雷達的特性,設計了一種高效的毫米波雷達主干網絡(RadarBEVNet),進行點云鳥瞰圖特征提取,RadarBEVNet使用兩種特征表征方式對毫米波雷達點云進行特征表示,并使用基于雷達反射截面(RCS)的離散方法得到鳥瞰圖特征。此外,該方法還提出了一種基于可形變的跨注意力機制進行毫米波雷達特征和多視角相機鳥瞰圖特征進行魯棒和高效的融合,從而提高自動駕駛的3D感知任務的性能和多模態魯棒性。
1、RadarBEVNet
給定輸入的毫米波雷達點云,RadarBEVNet采用point-based和transformer-based兩種表征形式對點云進行特征提取,point-based提取器將針對毫米波雷達點云提取局部點云特征,而transformer-based的模塊則針對毫米波雷達點云提取全局點云特征。同時兩種特征表示通過injection和extraction模塊進行特征關聯,將局部特征和全局特征進行交互,得到更加全面的毫米波雷達點云特征。
a、兩種特征表征方式 ? ?
兩種特征表征的提取器如下圖所示:
圖 2 兩種特征表征的提取器
point-based表征的架構采用扁平化設計思路,由多層感知機和最大值池化層組成,毫米波點云特征首先被輸入到多層感知機進行特征升維,得到高維的點云特征,之后通過最大值池化模塊提取全局的點云特征,并將該全局特征與高維點云特征進行通道連接,得到最終的點云特征。
Transformer-based表征的架構由三個階段組成,每個階段是一個標準的Trasnformer塊,由一個注意力機制、一個前向網絡和歸一化層組成。其中,為了提升模型的收斂性,作者采用了距離調制的注意力機制(Distance-Modulated Self-Attention)。具體而言,給定N個毫米波雷達點云的坐標,首先計算點與點之間的距離矩陣D。之后,根據距離矩陣D生成高斯權重圖G,G可以表示為
其中表示可學習參數,可以用來控制高斯分布的帶寬。本質上,高斯權重圖G會將更大的權重放置在局部區域,將更小的權重給那些遠離當前點云的點。給定高斯權重圖之后,采用下述公式對自注意力機制進行調制:? ?
為了保證在訓練過程中,基于距離調制的自注意力機制能夠退化回常規的自注意力機制,采用b替代1/。當b=0時,基于距離調制的自注意力機制退化回常規的自注意力機制。
b、injection和extraction模塊
兩種特征表示的每個block中,使用injection和extraction模塊進行兩個特征的融合和交互。具體而言,來自point-based的第i個block的特征為,來自transformer-based的第i個block的特征為。在injection模塊中,將設為query,視為key為value,采用多頭跨注意力機制將來transformer-based的特征注入到中。
類似的,extraction模塊采用跨注意力機制將point-based特征抽取出來,并傳入transformer-based的block中。兩者的架構具體如下所示:
圖3 injection和extraction模塊架構圖
2、基于雷達反射截面(RCS)的離散方法
RCS是毫米波雷達特有的特征,它是用來反映一個物體可檢測性的指標。相同條件下(材料、形狀),較大的物體會產生較強的毫米波雷達反射響度,從而使毫米波雷達傳感器獲得較強的雷達反射截面。因此,雷達反射截面能夠在一定程度上反映出物體的大小。基于RCS引導的體素離散化操作將雷達反射截面作為物體大小的先驗知識,從而能夠使得一個毫米波雷達點云被離散化到多個體素柵格上,提高毫米波雷達特征的稠密程度,使后續的特征聚集變得更加簡單。如下圖所示:? ?
圖4 基于RCS的離散方式示意圖
3、可形變的跨注意力機制融合模塊
毫米波雷達點云會偏離其真實位置,因此作者采用可形變跨注意力機制來動態學習這種位置偏置,提高融合的魯棒性,如下圖所示。同時,采用可形變跨注意力機制能夠將普通的跨注意力機制的計算復雜度從降低到,提高融合的效率。其中H和W分別表示體素的長和寬,C表示特征體素的通道數,K表示可形變跨注意力機制中的參考點數量。? ?
圖5 可形變的跨注意力機制融合模塊架構圖
實驗部分:
RCBEVDet主要在多模態自動駕駛數據集nuScenes上進行實驗。以BEVDepth為基礎模型,RCBEVDet在增加少量推理時延的情況下(仍保證實時推理速度),能夠大幅度穩定提升3D檢測的性能,同時實現最優的速度-精度權衡,如下所示:
圖6 速度-精度權衡圖
在nuScenes驗證集上,作者驗證了RCBEVDet在不同backbone和image size的性能,如下表所示,RCBEVDet在各個設置下相比于之前的方法都有明顯提升。? ?
圖7 nuScenes驗證集結果
在nuScenes測試集上,增加Radar輸入后,相比于相機基準模型BEVDepth,RCBEVDet提升了3.4 NDS,實現了63.9 NDS的性能。值得注意的是,RCBEVDet能夠非常方便地與現有的其他高精度多視角相機檢測器(例如streamPETR)相結合,實現更高精度的3D檢測結果。
圖8 nuScenes測試集結果
此外,作者模擬隨機丟失傳感器的情況,將部分傳感器(相機或者毫米波雷達)的輸入設為空,來驗證RCBEVDet的魯棒性,具體結果如下所示? ??
圖9?魯棒性驗證
RCBEVDet對相機和毫米波雷達的缺失均表現出較強的魯棒性。
結論:
本文提出了RCBEVDet,一個基于毫米波雷達和環視相機鳥瞰圖(BEV)特征融合的3D目標檢測模型架構,在顯著提升3D目標檢測精度的同時可保持實時的推理速度,且具有較強魯棒性。
審核編輯:黃飛
評論
查看更多