1 前言
自動駕駛車輛必須能夠感知周圍環境并預測其他交通參與者的未來行為。現有的研究要么進行目標檢測,然后對檢測到的目標進行軌跡預測,要么對整個場景進行密集的占位和流格預測。前者存在安全問題,因為為了提高效率,需要保持較低的檢測數量,從而犧牲了目標的回收率。后者由于輸出格的高維度和完全卷積網絡固有的有限感受野而計算成本高。此外,這兩種方法都利用了許多計算資源來預測可能永遠不會被運動規劃器查詢的區域或對象。
本文介紹了一種統一的感知和預測方法:通過單個神經網絡隱式地表示占位和流格隨時間變化。該方法避免了不必要的計算,因為運動規劃器可以直接在連續的時空位置查詢它。此外,論文作者設計了一種架構,通過添加高效而有效的全局注意機制,克服了先前明確的占位預測方法的有限感受野。通過在城市和高速公路環境中進行大量實驗,論文作者證明了他們的隱式模型優于當前的最先進技術。
2 算法介紹
2.1 基礎概念補充——隱式幾何重建:
幾何重建是指在給定某個不完整表示(如圖像、LiDAR、體素)的情況下,預測對象的三維形狀的任務。隱式神經幾何重建方法已被證明優于顯式對應方法,后者將三維形狀表示為網格、點集、體素或網格。相反,隱式方法訓練一個神經網絡來預測一個連續場,為3D空間中的每個點分配一個值,以便從等值面中提取出形狀。具體而言,該網絡可以預測3D空間中的非線性二值占位,或者是到表面的有符號距離函數。論文作者則將它們應用在自動駕駛的感知和預測任務中的。
2.2 任務參數化
輸入參數化:模型接受體素化的LiDAR表示()和高清地圖的光柵()作為輸入。對于LiDAR,設作為最近 次掃描的序列更準確地說,是在時間步長t '結束的LiDAR掃描,其中包含Pt '個點,每個點由三個特征描述:。和是點相對于當前時間步長下的SDV參考框架的位置,該參考框架以SDV的當前位置為中心并且x軸沿著其行進方向。表示點相對于地面的高度。最后,,采用多次掃描鳥瞰圖體素化方法,沿著BEV平面法線方向分為D個深度通道,高度像素為H,寬度像素為W。對于光柵地圖,將高清地圖中表示車道中心線的多段線C進行光柵化,生成具有相同的空間維度的單通道光柵圖。輸出參數化:設為BEV中的一個時空點,在未來的時間t。這項工作是預測占位概率和流向量,指定占據該位置的任何車輛在BEV中的運動。采用反向流來建模流向量f,因為它可以用單個反向流向量來捕捉多模態的前向運動。更具體地,反向流描述了時間t和位置(x, y)處的運動,它是該位置從到的平移向量,如果該位置有一個對象占據,則為:
其中,表示時間時占據點在t時的BEV位置。
2.3 網絡架構
作者使用一個多頭神經網絡來參數化預測的占位概率和流向量。該網絡以體素化的LiDAR數據、光柵地圖和一個包含個時空查詢點的小批量作為輸入,并行估計小批量的占位概率和流向量:
其中,網絡分為卷積編碼器和隱式解碼器兩部分,用于計算場景特征并輸出占位概率和流向量的估計結果,如下圖所示。
編碼器由兩個處理BEV LiDAR和地圖光柵的卷積模塊組成,一個接收LiDAR和地圖光柵特征拼接的ResNet 輸出多分辨率特征平面,以及一個輕量級特征金字塔網絡(FPN)來處理這些特征平面。這樣就得到了一個分辨率為輸入的一半的BEV特征圖,其中包含了場景的幾何、語義和運動等上下文特征。值得注意的是,特征圖中的每個空間位置(特征向量)都包含了關于其鄰域(編碼器的感受野大小)的空間信息,以及過去秒的時間信息。換句話說,Z中的每個特征向量可能包含關于運動、局部道路幾何和鄰近車輛的重要線索。
作者設計了一個隱式占位概率和流向量解碼器,靈感來自于這樣的直覺:查詢點的占位概率可能是由于一個在時間t之前以快速速度移動的遠處物體引起的。因此,我們希望利用時空查詢位置周圍的局部特征來指示接下來應該觀察的區域。例如,關于一個對象的特征可能在其原始位置周圍(在時間{}更具表達力,因為那里有LiDAR的證據。與在時間t占據查詢點的對象可能發生交互的鄰近交通參與者也是需要關注的(例如,前車、在相似時間到達合并點的另一輛車)。
為了實現這些直覺,作者首先使用雙線性插值在查詢BEV位置處對特征圖進行插值,得到包含查詢周圍局部信息的特征向量。然后,我們通過偏移初始查詢點來預測K個參考點,其中偏移量?q是通過使用基于全連接的ResNet架構計算得到的。對于所有的偏移量都獲得相應的特征。這可以看作是一種形變卷積的形式;它預測并添加2D偏移量到卷積的規則網格采樣位置,并在這些偏移位置進行特征向量的雙線性插值。為了聚合來自形變采樣位置的信息,我們使用了學習的線性投影的之間的交叉注意力。結果是聚合的特征向量z。有關該特征聚合過程的可視化。最后,將z和z_q與q進行拼接,然后通過另一個基于全連接的ResNet架構,帶有兩個線性層頭來預測占位概率和流向。
3 網絡分析
在目標位置對進行插值操作;
使用該插值的特征向量來預測到特征圖中其他位置的K個注意力偏移;
在偏移位置處對Z進行插值以獲得更多的特征向量;
在所有插值的特征上執行交叉關注以生成最終特征向量Z;
并使用Z來預測每個查詢點的占位率和流格。
4 總結
本文介紹了一種針對自動駕駛的聯合感知和預測的統一方法,通過神經網絡隱式地表示隨時間變化的占位和流格。這種可查詢的隱式表示能夠更有效、更高效地向下游的運動規劃器提供信息。
-
神經網絡
+關注
關注
42文章
4765瀏覽量
100568 -
網絡架構
+關注
關注
1文章
92瀏覽量
12571 -
自動駕駛
+關注
關注
783文章
13694瀏覽量
166168
原文標題:CVPR2023 l 新方法!自動駕駛中統一感知和預測的隱式占位流場!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論