普通手機“隨手”拍的雕像,一下就變成了精細的三維重建圖。
水杯來回動的動態場景下,細節清晰可見:
靜態場景效果也同樣nice,狗狗突出的肋骨都被還原了出來:
對比來看其他方法,效果是醬嬸的……
這是一種可對未知物體的6D姿態追蹤和三維重建的方法。
用于從單目RGBD視頻序列中跟蹤未知物體的6自由度運動,同時進行物體的隱式神經三維重建,方法接近于實時(10Hz)。
這種方法適用于任意剛性物體,即使視覺紋理大部分確實,僅需在第一幀中分割出物體,不需要任何額外的信息,并且不對智能體與物體的交互模式做任何假設。
目前,該方法已被CVPR 2023接收。
可處理大幅度姿態變化、有遮擋視頻
該方法的關鍵是一個神經物體場,它與姿態圖優化過程同時進行,以便將信息穩健地累積到一致的3D表示中,捕捉幾何和外觀。
方法自動維護了一組動態的姿態內存幀,以便這些線程之間進行通信。
它能處理具有大幅度姿態變化、部分和完全遮擋、無紋理表面和高光反射等具有挑戰性的視頻。
作者展示了HO3D、YCBInEOAT和BEHAVE數據集上的結果,證明了我們的方法顯著優于現有方法。
野外測試
用于iPhone 12 Pro Max的效果:
用于Intel RealSense的效果:
該方法不僅適用于更具挑戰性的動態場景,還適用于此前經常被考慮的靜態場景(移動相機)。
因此實現了比專門設計用于靜態場景的那些方法更好或相當的結果(即文章開頭展示動圖)。
與SOTA對比
HO3D數據集上三種最具競爭力方法的定性比較。
左圖:6自由度姿態跟蹤可視化,其中輪廓(青色)以估計的姿態渲染。
值得注意的是,如第二列所示,我們的預測姿態有時甚至會糾正GT的錯誤。
右圖:每種方法輸出的最終3D重建的正面和背面視圖。
由于手部遮擋,視頻中的某些部分永遠不可見。雖然從相同的視角渲染網格,但是DROID-SLAM和BundleTrack的顯著漂移導致網格錯誤旋轉。
定量結果對比如下:
問題設置
給定一段單目RGBD輸入視頻以及僅在第一幀中目標物體的分割掩碼,該方法能持續追蹤物體的6-DoF姿態并重建物體的3D模型。
所有處理都是在線自回歸的(沒有假設未來幀可用)。
處理的物體是剛性的,但不依賴其特定豐富的紋理 - 方法適用于無紋理的物體。
此外,不需要物體的實例級CAD模型,也不需要物體類別的先驗知識(例如事先對同一物體類別進行預訓練)。
具體框架
首先,在連續的分割圖像之間匹配特征,以獲得粗略的姿態估計(第3.1節)。
其中一些帶姿態的幀被存儲在內存池中,以便稍后使用和精化(第3.2節)。
從內存池的子集動態創建位姿圖(第3.3節);在線優化與當前姿態一起聯合細化圖中的所有姿態。
然后,這些更新的姿態被存儲回內存池中。
最后,內存池中的所有帶姿態的幀用于學習神經物體場(在單獨的線程中),該場建模了物體的幾何和視覺紋理(第3.4節),同時調整其先前估計的姿態,使姿態跟蹤更加魯棒。
項目地址:
https://bundlesdf.github.io/
審核編輯 :李倩
-
3D
+關注
關注
9文章
2863瀏覽量
107336 -
三維重建
+關注
關注
0文章
26瀏覽量
9904 -
姿態
+關注
關注
0文章
3瀏覽量
7887
原文標題:英偉達新方法入選CVPR 2023:對未知物體的6D姿態追蹤和三維重建
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論