來源:3D視覺工坊
1. 導讀
視覺匹配是關鍵計算機視覺任務中的關鍵步驟,包括攝像機定位、圖像配準和運動結構。目前最有效的匹配關鍵點的技術包括使用經過學習的稀疏或密集匹配器,這需要成對的圖像。這些神經網絡對兩幅圖像的特征有很好的總體理解,但它們經常難以匹配不同語義區域的點。本文提出了一種新的方法,通過將語義推理結合到現有的描述符中,使用來自基礎視覺模型特征(如DINOv2)的語義線索來增強局部特征匹配。因此,與學習匹配器不同,學習描述符在推理時不需要圖像對,允許使用相似性搜索進行特征緩存和快速匹配。我們提出了六個現有描述符的改編版本,在相機定位方面的性能平均提高了29%,在兩個現有基準中與LightGlue和LoFTR等現有匹配器的準確性相當。
2. 引言
視覺匹配關系對于相機姿態估計、同步定位與地圖構建(SLAM)以及運動恢復結構(SfM)等重要高級視覺任務至關重要。最近,用于在圖像對之間尋找視覺匹配關系的流程正在發生變化,更偏向于采用提供不同類型上下文聚合的方法,如學習的稀疏匹配器或密集對應關系網絡。這些方法依賴于從兩個視角收集信息,以調節特征,從而更好地預測對應關系。盡管它們已被證明在下游任務中能提供更好的結果,但需要對每對圖像都運行一次,因此在諸如SfM流程等大型任務中使用成本高昂,在這些任務中,單張圖像將與其他具有相似視點的圖像多次匹配。雖然傳統的單視圖流程可以為單個圖像預先提取特征,并使用高效的相似性搜索(如互最近鄰MNN),但其表現不如上下文聚合方法。
本文提出了一種方法,通過語義調節關鍵點描述符,以找到更好且更一致的對應關系,同時保持單視圖提取和緩存的優勢?;A模型(如DINOv2和SAM)可以提取包含場景中語義概念理解的特征,以補充局部紋理模式。通過凍結主干網絡并針對特定任務訓練新層,這些特征可以適應于各種任務,例如圖像分類、實例檢索、視頻理解、深度估計、語義分割和語義匹配。為了捕捉場景和對象的意義,DINOv2等模型已經發展出對局部紋理變化具有強大不變性的能力。然而,這些特征的高度不變性在識別圖像之間的像素級匹配時會降低其敏感性。相反,它們可以為區域之間的一致性提供基礎,這可用于過濾視覺上相似但語義上不同的區域之間的連接。
在本文中,我們提出了一種有效的技術,不是依賴于雙視圖上下文聚合,而是利用來自大型視覺模型(LVM)的高級特征理解,來語義調節基于紋理的對應關系。
3. 效果展示
利用語義信息改善視覺匹配關系。該圖示展示了使用互最近鄰(MNN)對基礎描述符XFeat和我們的方法(采用語義條件,如圖右上角所示)進行匹配的過程。正確匹配用綠色表示,錯誤匹配用紅色表示。我們還可以通過使用語義或紋理特征,在圖像中找到給定查詢點(左下角紅點)的128個最接近的匹配項,來評估描述符的可解釋性和一致性。顏色越暖表示相似性越高。請注意,在水槽區域附近,使用條件特征后的相似性排名有所提升。
4. 主要貢獻
本文的關鍵技術貢獻是一種新穎的學習方法,用于將語義上下文整合到局部特征中,從而在匹配過程中實現高效的相似性搜索,并顯著提高匹配準確性。實驗結果表明,我們的方法在室內環境中的相機姿態估計和視覺定位任務中,顯著提升了各種檢測和描述技術的性能。
5. 方法
我們闡述了本研究方法的主要概念,詳細說明了如何將語義感知添加到局部描述符中,以及為訓練該描述符所設計的監督方法。整體訓練和推理階段的方案如圖2所示。推薦課程:面向三維視覺的Linux嵌入式系統教程[理論+代碼+實戰]。
所提策略首先提取兩組描述符:一組是使用現成的局部特征方法獲得的紋理特征,另一組是來自用于上下文信息的局部視覺模型(LVM)(如本文所選的DINOv2)。為此,我們采用了一種提取傳統、以紋理為中心特征的基礎方法,以及一種提取以語義為中心特征的基礎方法。在基礎提取之后,我們使用自注意力推理模塊對特征進行細化。為了找到匹配的圖像對,我們使用為每幅圖像獨立提取的兩組紋理和語義特征,通過語義條件計算相似度矩陣,以找到相互匹配項。
在訓練過程中,基礎提取器的參數保持不變(凍結),我們僅優化初始投影和描述符推理的權重,如圖2所示。我們凍結權重是因為每個基礎提取器可能有更適合其的特定訓練策略。通過使用凍結的、現成的提取器,我們可以容納更多方法。DINOv2也根據[11]進行了凍結,該文獻將其用作多個任務的骨干網絡。
6. 實驗結果
定量配準結果如表1和表2所示。表1中包含了雙視圖上下文聚合方法,如Light-Glue和LoFTR,以及其他也利用語義信息的描述符,如DeDoDe-G和SFD2。值得注意的是,即使僅進行單視圖提取,SuperPoint與語義條件相結合也能與LightGlue(沒有任何配對視圖感知)相比產生具有競爭力的結果。表2描述了我們設計的利用語義信息提高現有描述符匹配能力的策略。我們可以注意到,當與我們所提出的語義條件相結合時,所有基線均取得了顯著改進。盡管其中許多方法(如DeDoDe、SFD2、ALIKE和ALIKED)僅使用MegaDepth數據集中的室外圖像進行訓練,但在不重新訓練特征提取器或DINOv2骨干網絡的情況下,我們仍可將它們的室內位姿估計結果提高至少24%。這一結果表明,所提取的視覺線索本身并不優于這些描述符的原始版本,但通過語義信息的輔助,其條件得到了改善。
視覺定位基準測試結果如表3所示。一個有趣的觀察結果是,我們的方法能夠在多種情況下減少XFeat的錯誤。對于SuperPoint,我們的方法未能提供有意義的改進。我們推測,由于XFeat的骨干網絡較小,它提供的特征更簡潔、冗余更少,因此不易過擬合,且能最大程度地利用語義信息。在考慮不同閾值內定位相機的百分比時,我們實現了最高的正確定位相機平均百分比。從更嚴格的閾值(1?、1厘米至500厘米、10?)來看,LightGlue是黃金標準但匹配成本高昂,正確定位了66.97%的相機。緊隨其后的是我們的方法(以SuperPoint為基礎紋理檢測器):66.95%,SuperPoint:66.88%,XFeat:66.36%,DeDoDe-G:64.44%。這表明,語義信息可以增加模糊區域的對應點數量,如圖3所示。
7. 總結 & 未來工作
本研究工作引入了一種基于學習的視覺特征描述技術,該技術能夠利用圖像中存在的語義線索。我們設計了一個執行信息聚合的網絡,該網絡利用語義特征來細化和調整現成的描述符,從而提高室內視覺匹配的準確性。在相機位姿估計方面,我們的方法性能優于現有的探索語義線索的最先進模型,并且即使與最近的學習匹配器(如LightGlue)相比也頗具競爭力,而我們僅使用單幅圖像進行特征提取,并使用最近鄰搜索進行匹配。通過大量實驗,我們證明了我們的方法可以將六種不同基礎描述符的位姿估計結果平均提高25%。改進后的描述符可以在大規模結構從運動恢復(SfM)重建中使用單視圖進行圖像提取,因為最近鄰(MNN)匹配比數千對圖像運行學習匹配器要快得多。
-
神經網絡
+關注
關注
42文章
4765瀏覽量
100561 -
相機
+關注
關注
4文章
1347瀏覽量
53522 -
計算機視覺
+關注
關注
8文章
1696瀏覽量
45930 -
視覺模型
+關注
關注
0文章
6瀏覽量
6911
原文標題:ACCV'24開源 | 完虐LightGlue!使用語義線索增強局部特征匹配!定位精度暴漲29%!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論