摘要: 鳥瞰圖(Bird’s Eye View, BEV)表示可以隱式而優(yōu)雅地將多視圖信息進(jìn)行統(tǒng)一表示,避免了耗時的多視圖融合后處理操作,其對于自動駕駛中的環(huán)境感知具有很大的實用價值。在CoRL2022上,地平線-天津大學(xué)-華中科技大學(xué)聯(lián)合發(fā)表了研究成果PolarBEV:基于極坐標(biāo)劃分和表面高度估計的純視覺非均勻BEV表示學(xué)習(xí)。不同于基于矩形表示和深度估計的方案,PolarBEV提出將BEV空間沿著角度和半徑進(jìn)行柵格化,并結(jié)合迭代的高度估計來確定2D到3D的對應(yīng)關(guān)系,極大地提升了BEV分割的精度和推理速度。
簡介
本文提出了一個基于極坐標(biāo)劃分和表面高度估計的純視覺非均勻BEV表示學(xué)習(xí)方法PolarBEV。相比于之前基于矩形表示和深度估計的方法[1],PolarBEV通過將BEV空間沿著角度和半徑進(jìn)行柵格化來得到非均勻劃分的網(wǎng)格點,之后通過將每個網(wǎng)格點的向量映射分解為角度向量映射和半徑向量映射來增強(qiáng)每個網(wǎng)格點的表征能力,最后通過迭代的高度估計來確定2D到3D的對應(yīng)關(guān)系。在這一范式下,PolarBEV在Nuscenes[2]數(shù)據(jù)集語義分割和實例分割任務(wù)上的性能都超越了之前的方法,并且在2080Ti GPU上取得了實時的推理速度。
動機(jī)
非均勻表示相比均勻表示更有優(yōu)勢
對于自動駕駛來說,自車周圍的感知結(jié)果相比于遠(yuǎn)處來說更重要,因此自車周圍區(qū)域應(yīng)該需要更高的分辨率。我們通過將BEV空間沿著角度和半徑進(jìn)行劃分,從而得到一個距離相關(guān)的非均勻的網(wǎng)格分布-密集分布于自車周圍,稀疏分布于遠(yuǎn)處。
對于均勻表示來說,大范圍的BEV空間通常需要較多的網(wǎng)格點和更大的計算量。通過在半徑上進(jìn)行長尾不均勻的劃分,可以實現(xiàn)以較小的計算成本覆蓋較大的BEV空間。
因為相機(jī)近大遠(yuǎn)小的成像特點,相同角度不同距離的同一個物體在成像上應(yīng)該具有相似外形、尺度不一的特點,而相同距離不同角度的同一物體在成像上應(yīng)該具有相似尺度、不同外形的特點。通過將BEV空間沿著角度和半徑進(jìn)行劃分,可以使得BEV表示和相機(jī)的這一成像特點相適應(yīng)。此外,可以通過將每個網(wǎng)格點的向量映射分解為角度向量映射和半徑向量映射來建模圓形BEV表示下每個網(wǎng)格點之間的關(guān)系,從而增強(qiáng)每個網(wǎng)格點的特征表示。
高度估計相比于深度估計更有優(yōu)勢
深度估計方法通常需要為每個像素點估計一個深度分布,而這通常限制了該類方法的推理速度。此外,深度的真實范圍通常是[0,+∝),網(wǎng)絡(luò)很難在如此大的解空間中估計出準(zhǔn)確的深度。高度估計方法只需要為每個網(wǎng)格點隱式地估計一個高度,這可以極大地加速網(wǎng)絡(luò)的推理速度,而且高度的估計也比深度的估計要簡單的多。
方法
整體框架
PolarBEV的整體框架如圖1所示,其總共包含三個部分:1)圖像特征抽取部分 2)BEV空間柵格化和重組 3)迭代的表面高度估計和2D到3D的特征變換。
圖1PolarBEV整體框架示意圖
極坐標(biāo)柵格化和重組
本工作首先將BEV空間沿著角度和半徑分別進(jìn)行柵格化,得到個半徑劃分和個角度劃分。為了便于后續(xù)的處理,該工作將柵格化后的網(wǎng)格點重組成大小的矩形。如圖一所示,因為在角度這一維上,和?雖然表示相同角度,但是卻被分割在矩形的兩端,所以需要對重組后的矩形網(wǎng)格點做相應(yīng)處理才能滿足一般的卷積操作。這里,通過在角度這一維上使用循環(huán)填充來彌補(bǔ)該缺陷。?
極坐標(biāo)向量映射分解
對于每個角度為,半徑為的極坐標(biāo)點,本工作將其對應(yīng)的查詢向量映射分解為半徑相關(guān)的和角度相關(guān)的??,這一過程形式化表示為:
本工作通過該分解來建模圓形BEV表示下每個網(wǎng)格點之間的關(guān)系,從而增強(qiáng)每個網(wǎng)格點的特征表示。
迭代的表面高度估計和2D到3D的特征變換
為了確定圖像和BEV之間的對應(yīng)關(guān)系,本工作首先設(shè)置一個初始高度為的假設(shè)表平面,然后根據(jù)每個查詢向量映射??來迭代更新每個網(wǎng)格點??的對應(yīng)高度:
隨后,本工作將歸一化到[0,1]范圍,再縮放至目標(biāo)高度范圍:
然后,本工作根據(jù)每個網(wǎng)格點對應(yīng)的極坐標(biāo),構(gòu)造出該網(wǎng)格點的三維齊次坐標(biāo)??:
最后,本工作根據(jù)相機(jī)內(nèi)參矩陣和外參矩陣將投影到圖像平面:
再根據(jù)投影點從圖像特征中采樣得到最終的BEV特征:
其中表示從位置采樣出的特征,是一個用于掩碼超出圖像邊緣的投影點的二值掩膜。
實驗結(jié)果
語義分割結(jié)果
表1和表2分別展示了在不掩碼不可見車輛和掩碼不可見車輛兩種情況下,PolarBEV和其他方法的結(jié)果對比??梢钥闯鯬olarBEV在使用相同輸入分辨率的設(shè)置下,不僅在精度上超過了FIERY Static[1],而且取得了實時的推理速度(25FPS,2080Ti)。
表1 不掩碼不可見車輛的BEV語義分割結(jié)果
表2 掩碼不可見車輛的BEV語義分割結(jié)果
實例分割結(jié)果
表3展示了PolarBEV相比于FIERY Static[1]在實例分割上的優(yōu)勢,可以看出PolarBEV主要在RQ指標(biāo)上比FIERYStatic高,說明PolarBEV能夠更加準(zhǔn)確的分類出不同實例。
表3 掩碼不可見車輛的實力分割結(jié)果
消融實驗
表4和表5分別驗證了PolarBEV提出的圓形表示相比于矩形表示的優(yōu)勢、基于高度的特征變換相比于基于深度的特征變換的優(yōu)勢。
表4 矩形表示和圓形表示對比結(jié)果
表5 基于深度和基于高度的對比結(jié)果
表6驗證了PolarBEV提出的各個模塊的有效性。在添加環(huán)卷積之后,模型在IoU和PQ指標(biāo)上分別提升了0.33和1.03個點。在環(huán)卷積之后,添加向量映射分解(PED)可以使得模型在IoU和PQ指標(biāo)上進(jìn)一步提升0.55和0.36個點。
表6 各個模塊的消融實驗結(jié)果
表7驗證了圓形BEV表示在分辨率上的消融實驗。從該表可以看出無論是增大角度分辨率或是增大半徑分辨率,模型的精度都有提升。
表7 圓形BEV表示在分辨率上的消融實驗
表8驗證了迭代次數(shù)對模型精度的影響。從該表可以看出,隨著迭代次數(shù)的增多,模型的精度越來越高。當(dāng)?shù)螖?shù)到達(dá)3或者6時,模型精度趨向飽和,但是FPS下降明顯。
表8 迭代次數(shù)的消融實驗
可視化結(jié)果
圖2展示了PolarBEV在不同場景下的分割質(zhì)量,可以看出PolarBEV即使在復(fù)雜環(huán)境中依然可以得到準(zhǔn)確的分割結(jié)果。
圖2 PolarBEV在不同場景下分割質(zhì)量的可視化圖
-
3D
+關(guān)注
關(guān)注
9文章
2864瀏覽量
107341 -
網(wǎng)格
+關(guān)注
關(guān)注
0文章
139瀏覽量
16000 -
自動駕駛
+關(guān)注
關(guān)注
783文章
13694瀏覽量
166168
原文標(biāo)題:CoRL 2022 | PolarBEV: 基于極坐標(biāo)劃分和表面高度估計的純視覺非均勻BEV表示學(xué)習(xí)
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論