為了解釋周圍的世界,AI系統必須理解三維視覺場景。這種需求不僅只局限于機器人技術,同時包括導航,甚至是增強現實應用。即便是2D照片與視頻,所描繪的場景和對象本身都屬于三維。真正智能的內容理解系統必須能夠視頻中識別出杯子旋轉時的把手幾何形狀,或者識別出對象是位于照片的前景還是背景。
日前,Facebook公布了多項能夠推進3D圖像理解的AI研究項目。雖然不盡相同,但互為補充。正在國際計算機視覺大會(International Conference on Computer Vision)進行演示的項目涉及一系列的用例和情形,包含不同種類的訓練數據和輸入。
Mesh R-CNN是一種新穎的,先進的解決方案,可以通過各種現實世界2D圖像預計最精確的3D形狀。這個方法利用了Facebook的Mask R-CNN框架進行對象實例分割,其甚至可以檢測諸如凳腳或重疊家具等復雜對象。
Facebook指出,通過利用Mesh R-CNN的替代和補充方法C3DPO,他們是第一個通過解釋3D幾何形狀而在三個基準上成功實現非剛性形狀的大規模3D重建,對象類別涉及14種以上。需要注意的是,團隊僅使用2D關鍵點來實現這一目標,零3D注釋。
Facebook提出了一種新穎的方法來學習圖像與3D形狀之間的關聯,同時大大減少了對含注釋訓練示例的需求。這使得團隊更接近于開發出能夠為更多種類對象創建3D表示的自我監督系統。
Facebook團隊同時開發了一種稱為VoteNet的新穎技術,其可以利用LIDAR或其他傳感器的3D輸入執行對象檢測。盡管大多數傳統系統都依靠2D圖像信號,但這個系統完全基于3D點云。與以前的研究相比,它可以實現更高的精度。
這項研究的基礎包括:利用深度學習來預測和定位圖像中對象的最新進步,以及用于3D形狀理解的全新工具和架構(如體素,點云和網格)。計算機視覺領域已經擴展到各種各樣的任務,但3D理解將在支持AI系統進一步理解現實世界和執行相關任務方面發揮核心作用。
1. 以高精度預測非約束遮擋對象的3D形狀
諸如Mask R-CNN這樣的感知系統是理解圖像的強大通用工具。但由于它們是根據2D數據進行預測,所以其忽略了世界的3D結構。利用2D感知技術的進步,Facebook設計了一種3D對象重建模型,可以根據非約束的真實世界圖像預測3D對象形狀,包含具有一系列光學挑戰的圖像(如具有遮擋,雜波和各種拓撲的對象)。將第三維帶到對象檢測系統,同時實現對復雜情況的穩定增加工作,這要求更為強大的工程能力,而當下的工程架構阻礙了所述領域的發展。
Mesh R-CNN根據輸入圖像預測里面的對象實例,并推斷其3D形狀。為了捕獲幾何形狀和拓撲的多樣性,它首先預測粗略體素,將其精化并進行精確的網格預測。
為了應對挑戰,Faceboook團隊通過網格預測分支增強了Mask R-CNN的2D對象分割系統,并構建了Torch3d(Pytorch庫,其中包含高度優化的3D運算符)以實現所述系統。Mesh R-CNN利用Mask R-CNN來檢測和分類圖像中的各種對象。然后,它使用新穎的網格預測器來推斷3D形狀(所述預測器由體素預測和網格細化的混合方法組成)。在預測精細3D結構方面,這個兩步過程實現了比以前更高的精度。通過支持復雜操作的高效,靈活和模塊化實現,Torch3d能夠幫助實現這一點。
他們利用Detectron2來實現最終的系統,其使用RGB圖像作為輸入并同時檢測物體和預測3D形狀。與Mask R-CNN使用監督學習來實現強大的2D感知類似,Facebook的新穎方法使用完全監督學習(成對的圖像和網格)來學習3D預測。為了進行訓練,團隊使用了由10000對圖像和網格組成的Pix3D數據集,而這比通常包含數十萬個圖像與對象注釋的2D基準要小得多。
Facebook用兩組數據集評估了Mesh R-CNN,而他們均取得了亮眼的結果。對于Pix3D數據集,Mesh R-CNN是第一個能夠同時檢測所有類別對象,并在各種雜亂無章的家具場景中預計完整3D形狀的系統。先前的工作重點是在完美裁剪的,無遮擋的圖像中評估模型。對于ShapeNet數據集,體素預測和網格細化的混合方法的表現要比先前的研究提升7%。
Mesh R-CNN的系統綜述,Facebook用3D形狀推斷強化了Mask R-CNN
精確預測和重建非約束場景形狀是邁向增強虛擬現實和其他新型體驗的重要一步。盡管如此,與為2D圖像收集注釋數據相比,為3D圖像收集注釋數據要更加復雜和耗時,所以3D形狀預測的數據集發展相對滯后。所以,Facebook正在探索不同的方法來利用監督學習和自我監督學習來重建3D對象。
相關論文:Mesh R-CNN完整論文
2. 用2D關鍵點重建3D對象類別
對于無法利用網格對象和相應圖像進行訓練,而且無需完全重建靜態對象或場景的情況,Facebook開發了一種替代方法。全新的C3DPO(Canonical 3D Pose Networks)系統可以對3的D關鍵點模型進行重建,并通過更廣泛的2D關鍵點監督來實現先進的重建結果。C3DPO能夠以適合大規模部署的方式來幫助你理解對象的3D幾何形狀。
C3DPO根據檢測到的2D關鍵點來為一系列對象類別生成3D關鍵點,能夠精確區分視點變化和形狀變形。
追蹤對象類別特定部分(如人體關節或小鳥翅膀)的2D關鍵點提供了有關對象幾何形狀及其形狀變形或視點變化的完整線索。生成的3D關鍵點十分有用,如用于3D面容和全身網格的建模,從而為VR構建更逼真的虛擬化身圖形。與Mesh R-CNN相似,C3DPO使用非約束圖像來重建3D對象。
C3DPO是第一種能夠用數千個2D關鍵點來重建包含數十萬個圖像的數據集的方法。Facebook針對三種不同的數據集,14種以上不同的非剛性對象類別實現了先進的重建精度。相關代碼已經托管至GitHub 。
Facebook的模型包含兩個重要的創新。首先,給定一組單目2D關鍵點,這個全新的3D重建網絡將預測相應camera視點的參數以及3D關鍵點位置。其次,Facebook提出了一種名為Canonicalization的新穎正準化技術(其包括一個第二輔助深度網絡)。所述技術解決了因分解3D視點和形狀而帶來的歧義。這兩項創新使得Facebook團隊能夠實現比傳統方法更優秀的統計模型。
原來無法實現這種重建,這主要是因為以前基于矩陣分解的方法的存儲限制。與Facebook的深度網絡不同,所述方法不能在“小批量”狀態下運行。以前的方法通過利用多個同時出現的圖像,并建立瞬時3D重建之間的對應關系來解決變形建模問題,而這需要特殊實驗室中專門研發的硬件。C3DPO帶來的高效率使得在不使用硬件進行3D捕捉的情況下實現3D重建成為可能。
相關論文:C3DPO的完整論文。
3. 從圖像采集中學習像素到表面映射
Facebook的系統學習了一個參數化卷積神經網絡(CNN),它將圖像作為輸入并預測每個像素的正準表面映射,其可以說明模板形狀的相應位置點。2D圖像和3D形狀之間的正準表面映射的相似著色暗示了對應關系。
Facebook進一步減少了開發通用對象類別3D理解所需的監督程度。他們介紹了一種可以通過近似自動實例分割來利用未注釋圖像集合的方法。Facebook沒有明確預測圖像的基礎3D結構,而是解決了將圖像像素映射到3D形狀類別模板表面的補充任務。
這種映射不僅允許團隊能夠在3D形狀類別的背景下理解圖像,而且可以歸納相同類別對象之間的對應關系。例如,對于你在左側圖像中看到的高亮鳥喙,Facebook可以輕松地在右側圖像定位相應的點。
這可以實現的原因是,Facebook能夠直觀地理解實例之間的共同3D結構。將圖像像素映射到正準3D表面的新穎方法同時為Facebook的學習系統帶來了這項功能。當評估所述方法在各個實例之間傳輸對應關系的準確性時,其結果比原來的自我監督方法(不利用任務的底層3D結構)高出兩倍。
Facebook的關鍵見解是,像素到3D表面的映射可以與逆操作(從3D到像素)配對,從而完成一個循環。Facebook團隊的新穎方法可實現這個目的,并且可以利用檢測方法的近似分割和無注釋的,免費的,公開可用的圖像集進行學習。Facebook的系統可以直接使用,并與其他自上而下的3D預測方法結合,從而提供對像素級3D的補充理解。相關代碼已經托管至GitHub 。
如視頻中汽車顏色一致性所表明,Facebook的系統為運動和旋轉對象產生了不變的像素嵌入。這種一致性超出了特定的實例,并且在需要理解對象之間共性的情況下十分有用。
Facebook不是直接學習兩個圖像之間的2D到2D對應關系,而是學習2D到3D對應關系,并確保與3D到2D重投影的一致性。這種一致循環可用作學習2D到3D對應關系的監督信號。
例如,如果要訓練系統學習椅子就座的正確位置或茶杯握持的正確位置,當系統下次需要理解如何就座另一張椅子或如何握持另一個茶杯時,這種表示就十分有用。這種任務不僅可以幫助你加深對傳統2D圖像與視頻內容的理解,同時可以通過轉移對象表示來增強AR/VR體驗。
相關論文:正準表面映射論文
4. 提升當前3D系統的對象檢測基礎
隨著自動代理和3D空間掃描系統等尖端技術的不斷發展,我們需要推動對象檢測機制的進步。在這些情況下,3D場景理解系統需要知道場景中存在什么對象以及它們的位置,從而支持諸如導航之類的高級任務。Facebook通過VoteNet改進了現有系統。VoteNet是為點云量身定制的高精確端到端3D對象檢測網絡,而它同時獲得了ICCV 2019大會的最佳論文提名。與傳統系統不同,VoteNet依賴于2D圖像信號,而這是首批完全基于3D點云的系統之一。與以前的研究相比,這種方法效率更高,識別精度更高。
Facebook的模型已經開源。據介紹,NoteNet實現了最先進的3D檢測,其性能比原來所有的3D對象檢測方法都要優秀,比SUN RGB-D和ScanNet中至少增加了3.7和18.4 mAP(平均精度)。VoteNet僅使用幾何信息,不依賴標準的彩色圖像,其性能優于以前的方法。
VoteNet具有簡單的設計,緊湊的模型尺寸,能夠實現高效率,全場景的速度約為100毫秒,而且內存占用空間較小。Facebook的算法從深度攝像頭獲取3D點云,并返回對象的3D邊界框,包含語義類。
VoteNet架構的示例圖
Facebook提出了受經典Hough投票算法啟發的投票機制。使用這種方法,Facebook的系統能夠生成位于對象中心附近的新點,然后可以將它們進行分組和匯總。利用投票(由深度神經網絡進行學習)的基本概念,可以將一組3D種子點投票給對象中心,從而恢復它們的位置和狀態。
從自動駕駛汽車到生物醫學,隨著3D掃描儀的使用情況正在日益增多,通過對3D場景的對象進行定位和分類來實現對3D內容的語義理解非常重要。通過為2D攝像頭補充更先進的深度攝像頭傳感器以進行3D識別,Facebook團隊能夠捕獲任何給定場景的強大視圖。借助VoteNet,系統可以更好地識別場景中的主要對象,并支持諸如放置虛擬對象,導航或LiveMap構建等任務。
5. 開發對真實世界有著進一步理解的系統
3D計算機視覺存在大量的開放性研究問題,而Facebook正在嘗試通過多種問題假設,技術和監督方法來推動所述領域的進步。隨著數字世界的不斷發展,3D照片和AR和VR體驗等新型產品的興起,我們需要不斷開發出更為智能的系統來更準確理解視覺場景中的對象,并支持與其交互。
這是Facebook AI團隊的長期愿景,亦即開發出一個能如同人類般理解世界并與之交互的AI系統。他們表示:“我們一直在致力于縮小物理空間與虛擬空間之間的差距,并實現各個方面的科學突破。我們以3D為重點的最新研究同時可以幫助改善和更好地補充Facebook AI仿真平臺中的3D對象推動我們應對在現實世界中進行實驗所面臨的復雜挑戰一樣,3D研究對于訓練系統如何理解對象的所有視點(即使被遮擋或其他光學挑戰)同樣很重要?!?/p>
Facebook團隊最后指出:“當結合諸如觸覺感知和自然語言理解等技術時,諸如虛擬助手這樣的AI系統可以以更加無縫和有用的方式運行??偠灾瑢τ谖覀円獦嫿ǔ瞿軌蛉缤祟惏憷斫馊齻€維度的AI系統,這種前沿研究正在幫助我們朝目標不斷邁進。”
評論
查看更多