黑芝麻智能的科研團隊在最新公開的論文中提出兩點創(chuàng)新:一是建立了一種更加準確和合理的基于柵格化的“矢量化高精地圖構建”的評價指標;二是推出了 MapVR,一個受益于柵格化視角的更精準的“矢量化高精地圖構建”的框架。
引言
在自動駕駛領域,BEV感知能為自動駕駛感知任務提供有效的時空表征方法,將成為車載感知的主流發(fā)展方向,能在多樣而復雜的駕駛場景中都能穩(wěn)定地構建高質量的矢量化高精地圖(vectorized HD map),對于BEV感知能力的提升至關重要。它能為環(huán)境感知提供重要的高層級語義信息。然而,現(xiàn)有的矢量化高精地圖構建方法往往存在一些偏差,現(xiàn)有的評估指標對于這些偏差的敏感度卻不足。這在對精度要求極高的自動駕駛場景中,可能帶來安全隱患。因此,我們需要更有效的地圖矢量化方法和更敏感的評估指標,以提高地圖構建的準確性,滿足自動駕駛的嚴格要求。
為應對這一挑戰(zhàn),黑芝麻智能的科研團隊與新加坡南洋理工大學的研究者們在最新公開的論文中提出了一個新觀點:在“矢量化高精度地圖構建”任務中,應當引入柵格化(rasterization)的視角。基于這一動機,他們提出了兩點創(chuàng)新:一是建立了一種更加準確和合理的基于柵格化的“矢量化高精地圖構建”的評價指標;二是推出了 MapVR(Map Vectorization via Rasterization),一個受益于柵格化視角的更精準的“矢量化高精地圖構建”的框架。
在接下來的內容中,我們將深入介紹此研究的背景,所提出的評價指標和 MapVR 的細節(jié),以及討論如何利用柵格化來提高矢量化高精地圖的精準度和實用性。
背景
在線高精度地圖構建是指利用車載傳感器(如攝像頭)的輸入,實時構建自車周圍地圖(包含車道線、道路邊沿、人行橫道、泊車位等)的任務。現(xiàn)有的在線高精度地圖構建方法主要分為兩大模式:地圖柵格化(map rasterization)和地圖矢量化(map vectorization)。地圖柵格化相對簡單直觀,它將周圍環(huán)境在鳥瞰視圖(Bird's-eye View,BEV)中建模為語義分割任務,將分割結果作為輸出的柵格化地圖。然而,這種柵格化的地圖并非適用于自動駕駛應用的理想表達形式,因為它難以區(qū)分不同地圖元素,無法提供結構信息,因而需要進行大量的后處理才能供下游任務使用。為解決這些問題,地圖矢量化方法應運而生,成為實時構建高精地圖的熱門方案。最新的地圖矢量化方法,例如VectorMapNet和MapTR,使用有序點集來表征各個地圖元素,直接回歸每個地圖元素的一系列點坐標,實現(xiàn)了更準確的結果和更快的運行速度。
然而,最新方法在實踐中常常表現(xiàn)得不盡如人意,原因主要有三。首先,如下圖所示,稀疏點集的表征方式在處理地圖結構的尖銳彎曲或復雜細節(jié)時,精度不足,會導致明顯的參數(shù)化誤差。第二,將等距離的點集作為回歸目標時,中間的點會缺乏清晰的視覺線索。這會導致監(jiān)督信號的模糊性,使得學習過程變得困難。再者,單純依賴點集間的L1損失進行回歸監(jiān)督,往往會忽視細粒度的特征,導致預測結果過于平滑,模型對微小的變化不敏感。
同樣地,當前的評價指標也是基于點集之間的Chamfer距離,這種方式也容易忽視微小的偏差和幾何細節(jié)。
總而言之,針對自動駕駛這樣對精度要求苛刻的場景,我們認識到現(xiàn)有的地圖矢量化方法和評價指標仍有很大不足。為了滿足真實駕駛場景的需求,業(yè)界和學術界都應采用更高精度、更面向業(yè)務的評估指標和方法。
動機
為了解決上述問題,我們嘗試了一個新的思路——在地圖矢量化任務中引入柵格化(rasterization)的視角。柵格化的表達方式有其獨特的優(yōu)勢,它與人類對環(huán)境的感知模式更為相符,能提供更為詳細和直觀的信息。
然而,如何將這一思路有效地融合到地圖矢量化中,以提升精度和實用性,無疑是一項挑戰(zhàn)。我們希望,通過引入柵格化視角,能夠在方法和評價指標上均更準確地捕捉到地圖的細節(jié)和結構,提升地圖矢量化的精度,同時還能保留其矢量化的優(yōu)勢,使其更適合自動駕駛的各種下游任務。
基于柵格化的地圖矢量化評價指標
1.回顧現(xiàn)有的評價指標
現(xiàn)有的評價指標使用Chamfer距離來確定預測的地圖元素和真實的地圖元素是否匹配。Chamfer距離是一種衡量兩個無序點集之間不相似性的量,它量化了一個集合中每個點到另一個集合中最近點的平均距離,可以用公式表達為:
盡管它簡單且能給出大致合理的評價結果,但這一指標的以下缺陷使得其在如自動駕駛等對精度要求極高的場景中顯得不足:首先,它不具備尺度不變性,對于較小的地圖元素(如停車線),Chamfer距離無論預測是否準確都會很小,無法提供有意義的評價。其次,Chamfer距離僅依賴于無序點集的距離,完全忽視了地圖元素的形狀和幾何特性,因此對許多實際駕駛場景會產生不合理的評價。
2.更精準與合理的基于柵格化的評價指標
為了解決上述限制,我們提出了一種基于柵格化的評價指標,該指標對細微偏差更敏感,并更適合真實的駕駛場景。在此指標中,我們采用柵格化來準確地確定預測的地圖元素和真實地圖元素的匹配。
如上圖所示,我們使用線形的地圖元素(例如,車道線和泊車線等)來示例我們的評價指標。首先,目標地圖元素和預測的地圖元素都被柵格化(rasterization)為一條折線。柵格化后的圖像分辨率應較高(例如,柵格化后的每個像素代表現(xiàn)實中的0.1米),以保證評價的精準性。然后,為了使我們的評價指標能對細長的折線的輕微偏移有一定的容忍度,我們將柵格化的折線在每側膨脹(dilate)2個像素。最后,我們計算柵格化的預測和目標之間的交并比(IoU)以判斷其是否匹配。與MS-COCO目標檢測的的評價指標指標類似,我們在多個IoU閾值下計算Average Precision(AP)。
值得注意的是,地圖通常還包含除線形之外的元素,如人行橫道,交叉路口和停車位等。這些地圖元素都可以被抽象為多邊形。在對此類地圖元素進行評價時,我們采用類似的方法計算AP,但不同的是,我們將其柵格化為多邊形,而非折線,以更合理地進行評價。
3. 兩種指標的評價質量
我們以下圖所示的一些實例來對比兩種評價指標的評價質量。紅色代表Ground Truth,藍色代表預測結果。一般來說,Chamfer距離小于1.0即可認為匹配,而mIoU大于0.35才可認為匹配。
(a)所示的是一條較短的停車線。由于Chamfer距離缺乏尺度不變性,對于這種較小的地圖元素,Chamfer距離都會誤判為匹配。而我們提出的基于柵格化的指標判斷更為合理。
(b)所示的車道線預測出現(xiàn)了輕微的橫向偏移。在實際駕駛場景中,即使是輕微的橫向偏移也可能帶來重大危險。由于Chamfer距離僅依賴于點集間的距離,缺乏對形狀和幾何細節(jié)的理解,因此它認定預測和Ground Truth匹配。然而,我們提出的基于柵格化的評價指標在確定匹配的過程中考慮了幾何信息,因此能正確地識別出預測和Ground Truth之間的差異,判定兩者不匹配。
(c)所示車道線的預測出現(xiàn)了輕微的縱向偏移。這種偏移通常是由于遮擋現(xiàn)象造成的,在實際的自動駕駛場景中,其風險并不大。因為隨著車輛的移動,地圖會持續(xù)更新。由于我們所提出的基于柵格化的評價指標考慮了地圖元素的形狀和幾何信息,因此能夠對這種情況給出更為合理的評估。
(d)所示的情況也能說明,我們提出的指標對微小的偏差更為敏感。
基于柵格化的地圖矢量化評價指標
本文還提出了一個新型的地圖矢量化框架——MapVR。這是一個通用框架,不涉及網(wǎng)絡結構的設計,因此可以與其他地圖矢量化的網(wǎng)絡模型共同使用,如最新的MapTR。
相對于當前的地圖矢量化方法,MapVR在訓練過程中采用了一種獨特的技巧。它將矢量化的輸出(即地圖元素的有序點集)進行可微分的柵格化處理,將每個矢量化的地圖元素渲染成一張具有高分辨率的分割掩碼。然后,我們將在這些渲染后的高分辨率分割掩碼上進行分割監(jiān)督。這個思路與我們之前提到的評估指標是一致的,它能夠提供更精確、更詳細、并包含了幾何形狀先驗的監(jiān)督,這將顯著提升地圖構建的精度。此外,MapVR還能夠提供更合理的監(jiān)督。在現(xiàn)有的地圖矢量化方法中,我們通常會回歸等間距的點作為目標,但這常常會在缺乏明顯視覺線索的中間部分的點帶來模糊性。MapVR的出現(xiàn),有效地解決了這個問題。
另外,地圖中經(jīng)常包含很多不能被抽象成線的元素,如人行橫道、十字路口、停車位等。這些元素更適合被抽象為多邊形。如上圖所示,我們也對這些多邊形地圖元素設計了可微分柵格化的策略。具體的柵格化公式請讀者參閱論文。
值得一提的是,MapVR額外引入的柵格化步驟僅需在訓練時使用。在推理階段,我們可以簡單地去掉額外的可微分柵格化步驟,直接使用網(wǎng)絡的矢量化輸出作為最終的結果。因此,MapVR在推理階段并不會引入任何額外的計算負擔。這意味著我們的方法在保持高效率的同時,還能夠提供更準確、更穩(wěn)健的地圖構建結果。
此外,由于MapVR所提出的監(jiān)督方式很大程度上消除了之前方法的“等距離目標點”的要求,我們還引入了一個額外的損失函數(shù)作用于正則化預測的折現(xiàn)之間的夾角。這能鼓勵網(wǎng)絡輸出更加平滑的地圖元素,同時在轉彎處得到更加精力的結果。該正則項可用公式表示為:
在論文中,我們也通過實驗證實了該正則項的有效性。
實驗結果
在論文中,作者將所提出的方法在4個數(shù)據(jù)集上進行了充分的實驗。MapVR無論在現(xiàn)有的評價指標上,還是在論文中提出的新的指標上,都取得了最佳的性能。有關具體的量化實驗結果和消融實驗結果,請讀者參閱論文。
如下圖所示比較了我們所提出的MapVR和現(xiàn)有的最佳基線方法——MapTR。我們可以觀察到,我們的方法能夠生成更加精確的矢量化高精地圖,尤其是在捕捉復雜的細節(jié)以及準確呈現(xiàn)復雜或曲線形狀的地圖元素方面表現(xiàn)出色。相比之下,盡管MapTR方法可以產生大體正確的矢量化地圖,但在細節(jié)部分不可避免地會出現(xiàn)偏差,且在精確構造復雜地圖元素上存在困難。這些結果證明了我們的方法的有效性。
我們還對兩種方法在兩種評價指標下的精確度-召回率曲線(Precision-Recall Curve)進行了比較。觀察可知,在未引入MapVR的情況下,MapTR基線在相對簡單的APchamfer指標和嚴格的APraster指標上存在較大的差距。這說明當前的方法在捕捉地圖元素的細節(jié)方面確實存在不足。而當引入MapVR后,這兩者的差距顯著縮小,并且性能都有所提升。
這證明了在地圖矢量化任務中引入柵格化的精細監(jiān)督確實能幫助模型提升性能,尤其是在捕捉更細節(jié)的部分上,證實了我們工作的有效性。
結語
本文提出了一種全新的視角去理解和處理地圖矢量化的任務:通過柵格化,我們能夠更準確地學習和評估地圖矢量化。我們發(fā)現(xiàn),雖然矢量化表示方式簡潔易用,但其在細節(jié)表示能力上存在不足;因此,有必要在學習和評估中引入柵格化作為補充。我們希望我們的視角能夠為地圖矢量化的進一步創(chuàng)新提供基礎,最終促進安全可靠的自動駕駛技術的發(fā)展。
-
矢量
+關注
關注
0文章
95瀏覽量
23737 -
柵格
+關注
關注
0文章
13瀏覽量
11238 -
自動駕駛
+關注
關注
783文章
13682瀏覽量
166144
原文標題:開芯課堂丨使用柵格化視角優(yōu)化BEV算法中矢量化場景構建
文章出處:【微信號:BlackSesameTech,微信公眾號:黑芝麻智能】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論