一個理想的點云配準框架應具備卓越的精度、可接受的效率和強大的泛化能力。然而,這是非常具有挑戰性的,因為現有的配準技術要么不夠準確,要么效率低下,要么泛化能力差。如何在這三個關鍵要素之間取得令人滿意的平衡仍然是一個懸而未決的問題。在本文中提出了BUFFER,一種點云配準方法,用于平衡精度、效率和泛化能力。本文方法的關鍵在于同時利用點對點和面對面的技術,同時克服了固有的缺點。與現有方法的簡單組合不同,本文網絡的每個組件都經過精心設計,以解決特定的問題。具體而言,本文首先引入了一個點對點學習器,通過預測關鍵點并通過估計點的方向來改善特征的表示能力,從而提高了計算效率。然后,本文部署了一個面對面嵌入器,利用輕量級的本地特征學習器來提取高效且通用的面對面特征。此外,本文還提出了一個內點生成器,它結合了簡單的神經層和通用特征,用于搜索內點對應關系。在真實世界的場景中進行的大量實驗證明,本文的方法在精度、效率和泛化性方面兼顧了最佳表現。特別是,本文的方法不僅在未見過的場景中取得了最高的成功率,而且幾乎比專注于泛化的強基線方法快了近30倍。
1 前言
點云配準在 LiDAR SLAM、3D 重建和機器人導航中發揮著關鍵作用。理想的配準框架不僅需要準確有效地配準幾何形狀,而且在不同傳感器獲取的未見過的場景中也需要準確有效地配準幾何形狀。然而,由于數據質量不均勻(例如噪聲分布、密度不均勻、視角不同、不同傳感器之間的域間隙),如何在效率、準確性和泛化之間實現令人滿意的平衡仍是一個具有挑戰的問題。這里也推薦「3D視覺工坊」新課程三維點云處理:算法與實戰匯總》。
現有的配準方法主要可分為基于對應關系的方法和無對應關系的方法。通過建立一系列可靠的對應關系,基于對應關系的方法通常比無對應關系的方法具有更好的配準性能,特別是在大規模場景中。然而,這些基于對應關系的方法仍然沒有為大規模的現實應用做好準備,因為它們要么不夠準確,要么效率低下,要么泛化性差。
總體而言,現有基于對應關系方法的局限性在于兩個方面。首先,目前還沒有統一、高效、通用的特征學習框架。許多 patch-wise 方法通常采用復雜的網絡和復雜的步驟來編碼局部 3D patch 的細粒度幾何形狀。得益于固有的對遮擋具有魯棒性且易于區分的局部特征,patch-wise方法通常具有良好的泛化能力,但效率較低。為了提高計算效率,幾種逐點方法采用分層架構來連續采樣原始點云。然而,層次結構傾向于捕獲全局上下文而不是局部幾何,這使得學習的逐點特征容易同質化并且難以正確匹配,特別是對于不可見的上下文。其次,缺乏高效、通用的對應關系查找機制。大多數基于對應關系的配準利用 RANSAC 或從粗到細的匹配策略來搜索可靠的對應關系??紤]到 RANSAC 算法的效率與內點率有關,當內點率很低時,該方法將非常耗時。此外,由于依賴全局上下文匹配,從粗到細的策略無法推廣到未見領域中。
最近的一些工作還嘗試利用無監督域適應技術或簡化網絡架構以實現泛化性和效率之間更好的平衡。然而,這些方法要么需要額外的目標數據集進行訓練,要么犧牲學習模型的表示能力。總的來說,效率和泛化性似乎是相互矛盾的,因為現有技術本質上只專注于一個領域,并且不能相互補充。
在本文中,通過結合 point-wise 和 patch-wise 方法,在效率和泛化性方面實現了完美的平衡。此外還提出了一種有效且通用的搜索機制來提高對應關系的內點率。所提出的配準框架稱為 BUFFER,主要由 Point-wise Learner、Patch-wise Embedder 和 Inliers Generator 組成。輸入點云首先被輸入到逐點學習器中,其中使用新穎的等變全卷積架構來預測逐點顯著性和方向,進一步降低計算成本并增強特征的表示能力。通過選定的關鍵點和學習的方向,Patch-wise Embedder 利用輕量級的基于 patch 的特征學習器,即 MiniSpinNet,來提取高效且通用的局部特征和圓柱形特征圖。通過匹配局部特征,可以獲得一組初始對應關系以及相應的圓柱特征圖。然后將這些通用的圓柱形特征圖輸入 Inlier Gener-ator,它使用輕量級 3D 圓柱卷積網絡預測每個對應關系的剛性變換,并通過尋求最佳變換來生成最終可靠的對應關系集,然后使用 RANSAC來估計更精細的變換。
實際上,如果簡單地結合現有方法,在準確性、效率和泛化性之間取得令人滿意的平衡是極其困難的。例如,點式方法 Predator 很容易受到看不見的場景的影響,而補丁式方法 SpinNe 則非常耗時。當直接將它們組合在一起時,整個框架既不高效也不通用。相比之下,本文提出的 BUFFER 中的每個組件都經過精心設計來解決特定問題,因此更有可能實現卓越的平衡。
僅在 3DMatch 數據集上進行訓練,本文的 BUFFER 不僅在 3DMatch 數據集上實現了 92.9% 的最高配準召回率,而且在未見過的室外 ETH 數據集上也達到了 99.30% 的最佳成功率(顯著)超過最佳逐點基線 GeoTrans 近 10%)。同時,本文的 BUFFER 幾乎比 patch-wise 方法快一個數量級。大量實驗證明了本文方法的卓越性能和效率。
總的來說,本文的貢獻有三方面:
? 本文提出了一種新的點云配準框架,巧妙地結合了 point-wise 和 patch-wise 方法,在準確性、效率和泛化性方面達到了完美的平衡。
? 本文引入了等變全卷積架構來預測逐點方向和顯著性。
? 引入新的對應關系搜索策略以提高初始對應關系的內點率。
2 相關背景
基于對應的配準首先提取點云特征,然后通過特征匹配在兩次掃描之間建立明確的點對應關系,最后估計剛性變換。從特征的角度來看,現有的基于對應關系的配準方法可以大致分為兩類:patch-wise 和 point-wise 方法。patch-wise 方法利用共享權重網絡來表征以關鍵點為中心的局部 3D patch,為每個 patch 生成稀疏描述。逐點方法。point-wise 方法基于分層架構在一次前向傳遞中處理整個點云,為每個片段生成密集的描述。無對應關系配準意味著直接估計兩片點云之間的剛性變換,通常通過建立端到端的可微分網絡來實現。根據網絡架構的不同,現有的無對應關系配準方法可以分為基于軟對應關系和基于直接回歸的配準方法。盡管沒有明確的對應關系,基于軟對應的方法通常依賴特征之間的軟對應關系,然后是利用 SVD 來生成剛性變換?;谥苯踊貧w方法的目的是在沒有任何硬或軟對應關系的條件下回歸剛性變換。
現有方法在配準精度方面表現出令人滿意的性能,但仍無法實現效率和泛化性之間的完美平衡。本文通過巧妙地集成 patch-wise 和 point-wise 網絡并設計一個新的3D配準框架來解決這個問題,其中 point-wise 組件主要負責提高效率并使 patch-wise 模塊能夠提取通用特征。
3 方法
3.1. Problem Statement
給定兩個部分重疊的點云 和 ,點云配準的目標是計算 和 之間的最優剛性變換 。如果子集 和 之間存在真實的一一對應關系,配準問題可以重新表述為最小化問題:
其中 是正確匹配對應關系的數量, 是置換矩陣。
為了獲得點子集 和 ,本文提出了一種新的配準框架,稱為 BUFFER,它主要由 Point-wise Learner、Patch-wise Embedder 和 Inliers Generator 組成。如圖2所示。
圖 2. 本文所提點云配準框架 BUFFER 的總體結構。
3.2. Point-wise Learner
Point-wise Learner 旨在預測旋轉不變關鍵點和旋轉等變方向,進一步提高配準效率和準確性。如圖2所示,它由兩個組件組成。等變全卷積網絡。為了獲得魯棒的關鍵點和點方向,第一步是構建主干網絡來學習密集和旋轉等變特征?,F有的方法如要么具有極高的空間和時間復雜度,要么依賴于對平移敏感的全局點坐標。本文設計了一種輕量且對平移不變的等變全卷積網絡(EFCN)。為了保證旋轉等變性和平移不變性,本文探索了點云 的以下三個幾何屬性:
相對坐標:
鄰域中心:
初始方向: 為最小特征值對應的特征向量。
這里,表示 在支撐半徑 內的所有鄰近點。基于此,第 層中點 的等變卷積可以重新表述為:
其中是權重矩陣,表示等變映射。
由于與 SO(3) 旋轉等變且對平移不變,因此整個卷積網絡也具有相同的不變性和等變性。本文的 EFCN 基于 KPConv 的分層架構(詳細信息在補充材料中)。與現有的等變網絡相比,本文的EFCN更加高效并且可以應用于場景級任務。盡管分層架構中的采樣/上采樣不可避免地會帶來一些定量誤差,但其背后嚴格的數學模型已經為網絡學習等變特征提供了強大的歸納偏差。點云的 EFCN 是相同的。等變和不變分支。下一步是預測旋轉不變關鍵點和旋轉等變方向。為此,本文將最后一個卷積層中的等變特征輸入到兩個獨立的解碼器分支中,以產生密集方向和顯著性。如圖 2 所示。同樣的操作也適用于點云 。
受益于每層的等變性,最終學習到的方向自然與 SO(3) 旋轉等變。在另一個不變分支中,我們采用與前任工作相同的不變變換來產生不變信號。通過扁平化并將其輸入三個 MLP 層,然后進行 Softplus 激活函數,預測最終的逐點顯著性,其中具有較高顯著性的個點被視為關鍵點。
綜上所述,基于本文的 EFCN,Point-wise Learner 可以預測密集的顯著性,以選擇更容易匹配的關鍵點,從而提高配準效率。同時,Point-wise Learner 能夠學習魯棒的點方向,這有利于后續的 Patch-wise Embedder 學習高度描述性的特征。
3.3. Patch-wise Embedder
該模塊旨在學習所選關鍵點的高效且通用的特征。它包含兩個關鍵組件,如下所述。
Mini-SpinNet.本文利用局部特征學習器,即 SpinNet,來提取一般特征。然而,普通的 SpinNet 非常耗時且占用大量內存。為了緩解這些問題,本文開發了一種輕量級架構,稱為 Mini-SpinNet 以提取一般的局部補丁特征。
Reference Axes.在獲得效率極大提升的同時,必須承認這種輕量級結構不可避免地惡化了特征的可辨別性。為了補償性能,本文采用學習的方向作為參考軸,這比普通 SpinNet 中使用的手工制作的 Z 軸更具可重復性和魯棒性,以提取更獨特的特征。
最后,可以獲得一組通用局部特征和圓柱特征圖。通過在和之間進行特征匹配,可以建立一系列初始對應關系,如圖 2 所示??偟膩碚f,本文的 Patch-wise Embedder 不僅輕量級且高效,而且還可以學習獨特和通用的局部特征用于特征匹配。
3.4. Inliers Generator
該模塊旨在從一系列初始對應關系中搜索內部點,提高整個框架的配準性能。如圖 2 所示,它由兩個組件組成,如下所述。
變換估計。在這里,從特征的角度來處理內點搜索問題。給定初始點對應關系的列表,對于每對對應關系,還獲得兩個圓柱特征圖,其中表示高度,寬度,以及展開的圓柱形特征圖的特征維數。根據 3.3 節,可以知道以關鍵點為中心的局部補丁使用旋轉矩陣與學習的方向預先對齊。因此,和之間僅存在 SO(2) 旋轉。基于此,本文的目標是估計兩個圓柱形特征圖之間的 SO(2) 旋轉,從而恢復兩個匹配的局部補丁之間的剛性變換。
受立體匹配中視差回歸的啟發,首先通過計算在不同寬度值下計算的兩個圓柱形特征圖之間的差異來構造4D匹配 cost volume。請注意,cost volume 在圓柱體上 360° 內是連續的。為了保留此特性,利用輕量級 3D 圓柱卷積網絡 (3DCCN) 進行成本聚合。經過 softmax 運算,獲得每個偏移的概率。然后通過 softargmax 運算計算預測偏移:因此,兩個圓柱特征圖和之間的 SO(2) 旋轉可以通過以下方式求出:
此外,為每對對應關系產生旋轉矩陣和平移向量以用于內點搜索。內點搜索。由于內點對應關系具有相似的估計變換,因此很容易從許多假定的對應關系中找到它們。具體來說,首先根據每個變換滿足的對應數量尋求最佳變換,其中是指示函數,表示歐氏距離,表示內點距離閾值。然后獲得內部對應關系,
總的來說,本文的內點生成器首先利用簡單的神經層和一般的圓柱特征來估計每對對應關系的粗略剛性變換,然后根據內點之間的變換相似性搜索可靠的對應關系。內部值生成器從特征級別而不是對應級別修剪異常值。因此,所提出的 Inliers Generator 與現有的異常值拒絕方法并不矛盾,并且還可以與這些方法相結合來估計更精細的剛性變換。
3.5. Training and Inference
損失函數。本文使用由四項組成的損失函數來訓練整個模型:。給定一組真實對應關系和真實變換,可以獲得相應的方向由逐點學習器。受概率倒角損失的啟發,本文定義了概率余弦損失函數作為學習方向的監督:其中是真實匹配對應關系的數量,是可學習的參數。接下來,按照 D3Feat 利用對比損失進行特征學習,利用檢測損失進行關鍵點檢測。為了訓練所提出的 Inliers Generator,首先計算兩個圓柱形特征圖之間的真實偏移,然后采用 L1 損失作為變換估計監督:假設生成。本文發現 RANSAC 算法對于具有高內點率的對應關系非常有效。在整個注冊框架中, RANSAC 的時間消耗幾乎可以忽略不計。因此,利用 RANSAC 計算精確的剛性變換。
4 實驗
在本節中,首先測試訓練集和測試集屬于同一域時 BUFFER 的配準性能。然后在未見過的領域進行廣泛的比較實驗以評估泛化性。最后,進行了一組消融研究。
4.1. Datasets and Settings
選擇四個數據集,即室內 3DMatch 和 3DLoMatch 、室外KITTI 和 ETH 來評估所有方法的配準性能。在 3DMatch 和 3DLoMatch 數據集上,使用注冊召回(RR)作為評估指標。
在 KITTI 和 ETH 數據集上,均使用相對平移誤差(RTE)、相對旋轉誤差(RRE)和成功率作為評估指標。實施細節。BUFFER 是用 PyTorch 實現的。為了保證公平性,利用基線發布的代碼和訓練模型進行對比實驗。所有方法均使用 PyTorch 實現,并在具有 Intel Xeon CPU @2.30GHZ 和 NVIDIA RTX 3090 GPU 的計算機上運行。
4.2. Evaluation on Datasets of Same Domains
室內 3DMatch 數據集的結果。將所提出的 BUFFER 與在 3DMatch 和 3DLoMatch 數據集上注冊召回和運行時間方面最先進的方法進行了比較。如表 1 所示, BUFFER 在 3DMatch 數據集上實現了最高的配準召回率和顯著的計算效率。得益于高效的子流形稀疏卷積,FCGF 是最快的方法。然而,FCGF 實現的注冊召回率幾乎是所有方法中最差的,比 BUFFER 低了近 8%。在低重疊 3DLoMatch 數據集上, BUFFER 的結果與最先進的方法相當。特別是, BUFFER 是最輕量級的方法,比普通 SpinNet 快約 35 倍。
戶外 KITTI 數據集的結果。將 BUFFER 與 KITTI 數據集上的強基線進行比較,如表 2 所示。很明顯, BUFFER 實現了最高的成功率,并且是最輕量級的模型且效率很高。雖然 FCGF 比BUFFER 更快,但其注冊成功率明顯低于 BUFFER 15.86%。還觀察到所有方法在 KITTI 數據集上花費更多時間來注冊點云,而不是在 3DMatch 數據集上。這是因為室外KITTI數據集包含更大的場景和更多的采樣點。
4.3. Generalizing to Unseen Domains
為了廣泛評估所提出的 BUFFER 在未知領域的泛化能力,進行了三組實驗:從室內到室外、從室外到室內、從室外到室外的泛化。在每組實驗中,所有方法都在一個數據集上進行訓練,然后直接在其他未見過的數據集上進行測試。
從室內 3DMatch 到室外 ETH 和 KITTI。表3和表4分別列出了從3DMatch到ETH和從3DMatch到KITTI的泛化結果??梢宰⒁獾剑斨苯油茝V到未見過的數據集時,所有逐點方法都表現出較低的成功率。這主要是因為他們采用分層網絡架構來學習特征描述符,這不利于泛化。
還值得注意的是,patch-wise 方法具有出色的泛化能力,但它們非常耗時,幾乎比 point-wise 方法慢一個數量級。相比之下, BUFFER 巧妙地結合了這兩種方法,不僅在未見過的領域中實現了最高的成功率,而且比 patch-wise 方法要高效得多。誠然, BUFFER 在 RTE 和 RRE 上比 SpinNet 稍差,主要是因為 SpinNet 使用了更多的采樣點。
從室外 KITTI 到室內 3DMatch。如表 5 所示,這些逐點方法,即 FCGF、D3Feat、Predator 和 GeoTrans,由于域間隙較大而表現出較差的泛化結果。值得注意的是,本文方法在 3DMatch 數據集上的召回率超過 SpinNet 3.6%,而在 3DLoMatch 數據集上性能差距擴大到 11.7%。這主要是因為 SpinNet 只能在低重疊的 3DLoMatch 數據集上生成具有較低內點率的點對應。相比之下,所提出的 Inliers Generator 可以顯著提高 內點率,進一步提高整個框架的配準性能。值得注意的是,當直接推廣到未見過的 3DMatch 時, BUFFER 達到了 91.2% 的最高 RR,甚至超過了在 3DMatch 上訓練的那些強基線(例如 Predator 和 YOHO)。這進一步證明了 BUFFER 強大的泛化能力及其潛在的效用。
從戶外 KITTI 到戶外 ETH。如表6所示,與從3DMatch到ETH的泛化實驗相比,GeoTrans和D3Feat等逐點方法在此實驗設置下具有顯著的性能提升。這是因為 KITTI 和 ETH 數據集僅包含相同的 SO(2) 旋轉,并且兩個數據集之間的域差距并不大。盡管這個泛化實驗確實有利于對旋轉和域間隙敏感的逐點方法,但 BUFFER 仍然實現了最佳成功率。這里也推薦「3D視覺工坊」新課程三維點云處理:算法與實戰匯總》。
4.4. Ablations
為了證明所提出的等變全卷積網絡的有效性,在 3DMatch 數據集上進行了一系列消融實驗。系統地評估 BUFFER 中每個組件的貢獻。學習方向的消融。為了研究不同設置對方向重復性的影響,進行了以下 3 項消融研究。
用手工方法取代本文學習的方向。在此設置中,方向是通過手工方法計算的,即法線、SHOT、FLARE 和 SpinNet。
用KPConv替換所提出的等變卷積。在此設置中,消融模型對于平移不變,但對于旋轉不等變。
用向量神經元(VN)代替所提出的等變卷積。在這種情況下,消融模型對于旋轉是等變的,但對于平移不是不變的。
用向量神經元(VN)代替所提出的等變卷積。在這種情況下,消融模型對于旋轉是等變的,但對于平移不是不變的。圖 3 顯示了 3DMatch 數據集上所有消融模型的方向誤差的定量結果。可以看出:1)與手工技術相比,本文的方法對于現實世界的點云更具可重復性和魯棒性。這主要是因為所提出的 EFCN 可以學習魯棒的深度等變特征,而手工方法僅依賴于低級幾何屬性來計算方向。2)如果神經網絡對于旋轉不是等變的,或者對于平移不是不變的,則無法估計可重復且魯棒的方向。這是合理的,因為網絡只能粗暴地記住方向,這對于新數據來說無疑是失敗的。還發現,所提出的 EFCN 對于等變特征學習和方向估計具有重要意義,并且具有擴展到更多任務的巨大潛力。BUFFER 框架的消融。BUFFER 引入了三個關鍵組件:學習方向 (LO)、預測關鍵點 (PK) 和內點生成器 (IG)。為了調查每個模塊的影響,進行了以下 6 項消融研究,以證明每個組件的有效性。特別是在 3DMatch 數據集上訓練所有消融模型,然后直接在 3DMatch、3DLoMatch 和 ETH 數據集上測試它們。
表 7 顯示了所有消融實驗的定量結果??梢钥吹剑?)在不使用任何所提出的組件的情況下,基線(Mini-SpinNet [1])在室內 3DMatch 和 3DLoMatch 數據集上實現了最低的配準召回率,在室外 ETH 數據集上實現了最差的泛化能力。2)當使用所提出的LO或PK時(第2和第3),整個框架的配準精度和泛化能力得到提高。當同時采用 LO 和 PK 時(第 4 點),消融模型在 3DLoMatch 數據集上的召回率和 ETH 數據集上的成功率分別顯著超過基線 2.9% 和 5.19%。這清楚地表明,所提出的Point-wise Learner不僅可以提高配準精度,而且有利于模型的泛化。3)當僅采用所提出的IG時(No.5),整個框架的配準性能仍然大大提高。這是因為所提出的IG可以有效地從初始對應中修剪掉一些異常值(定性結果如圖4所示),使得在后續假設生成階段更容易求解正確的位姿。
5 總結
本文提出了一種用于點云配準深度學習框架,稱為 BUFFER。引入了高效且通用的特征學習框架和對應關系搜索機制。大量的實驗表明,本文的方法在準確性、效率和泛化性之間實現了最佳權衡,大大優于現有技術。
-
算法
+關注
關注
23文章
4599瀏覽量
92645 -
深度學習
+關注
關注
73文章
5493瀏覽量
120979 -
點云
+關注
關注
0文章
58瀏覽量
3786
原文標題:CVPR2023 I BUFFER:點云配準中卓越精度、高效性和泛化性的完美平衡
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論