基于圖像進行三維重建是一個十分重要的研究問題,來自于計算機視覺、圖形學和機器學習領域的研究人員對這個領域進行了多年的探索。同時通過圖像進行三維重建在機器人導航、視覺感知、物體識別、環境理解、三維建模等領域有著重要意義,也會為工業制造、智能控制和醫療健康等行業帶來廣泛的應用。
隨著深度學習的飛速發展,基于圖像的重建問題呈現出新的面貌、出現了很多令人驚嘆的研究工作和新的探索方向。
為了充分了解基于深度學習方法利用圖像進行三維重建的發展脈絡、技術路線和主要方法、分析這一領域的關鍵問題和主要技術手段,來自天津大學、西澳大學和莫道克大學的研究人員們對這一領域進行了全面的梳理,對利用深度學習手段從圖像估計三維形貌的諸多工作進行了總結。從114+論文中整理了詳盡的資源,分別從三維表示、網絡架構和訓練策略等方面進行分析,并給出這一領域的開放問題和未來值得探索的方向。
從2D圖像中恢復出缺失的維度曾是多視圖立體視覺以及從多種線索恢復形狀(shape from …)研究的天下。基于幾何視角的研究主要理解并構建3D到2D的投影關系,并建立有效的數學模型來解決這一問題。這種方法通常需要進行相機標定和多視角拍攝的圖像,并基于特征匹配和三角關系在3D坐標系中進行重建。同樣基于其他線索的三維重建也需要大量的圖像和相機標定,這會大大限制了多種環境下的應用。但我們在日常生活中可以感受到萬能的人眼可以結合大量的先驗知識通過一眼就能推斷出物體的三維形狀,甚至是在其他視角下的模樣。在人眼的啟發下,研究人員開始利用深度學習和先驗知識構架第二代3D重建方法,在大量數據的支撐下實現從單張或多張RGB圖像直接重建出物體的三維形貌,而無需復雜的標定和數學過程。
這些方法在近年來取得了令人矚目的效果,在通用物體重建和類似人臉的特殊物體重建上都取得了不錯的結果。接下來我們將從重建問題的流程,三維表示,基于不同表示的重建方法、模型架構、數據集以及訓練過程等方面回顧過去幾年間深度學習在這一領域的發展。
三維重建問題及關鍵概念
三維重建問題可以歸結為通過n張RGB圖I(n>=1)預測出單個或多個目標X,學習的過程就是將圖像I映射為形狀X的函數f(theta),并盡可能地縮小預測形狀與真實形狀間的差異,這一差異在深度學習中就以損失函數的形式表現出來。輸入:基于圖像的三維重建,其輸入可以是單張圖像也可以是多張圖像、甚至可以是視頻流,可以是內參已知的也可以是內參未知的。除了通常的圖像外,還可以通過一系列額外信息輔助三維重建,包括輪廓、語義標簽、分割掩膜等,作為先驗信息引導算法進行重建;
輸出:在三維空間中,物體通常有多種表示方法,包括體素、表面網格以及其他中間媒介。作為三維重建的輸出,合適的表示方式對于算法的選擇和重建的結果至關重要。
體素(volumetric,voxel)表示是基于深度學習的三維重建領域最早開始采用的方式,使得諸多參數化物體可以通過規則的空間體素網格來表示。這種方法可以將圖像領域使用的架構拓展到三維領域,利用規則的三維卷積實現三維重建。這種方法雖然是二維卷積的自然延伸,但在三維空間中操作收到了內存的限制,會消耗巨大的算力資源。
在學界和工業界,基于體素的表示方法主要分為四種主要的類型,分別是基于二值占據的柵格、基于概率占據的柵格、符號距離函數(SDF)的表示以及截斷符號距離函數(TSDF)的表示。這些表示創建了對于物體空間的規則采樣,如果不進行有效處理,對于物體的重建將受到體素分辨率的限制。
早期基于體素的三維學習方式采用了均勻的空間體素網格,雖然這種方法易于使用3D卷積在GPU上實現,但由于三維體素和卷積對于計算資源的消耗,使得均勻體素的表示空間分辨率限制在了323232到646464之間,很多細節都會缺失。
為了解決這一問題,在給定計算資源下實現較好的高分辨率重建,研究人員提出了各種方法用于提高體素表示的分辨率,通過空間刨分、形狀刨分子空間參數化和由粗到精的優化策略等實現了較好的細節重建。
三種典型的形狀刨分策略,基于八叉樹和層級空間刨分策略實現了較好的細節恢復。
除此之外還有多種體素表示方式,研究人員們總結從表示、分辨率和架構等方面總結了二十多種文獻中的方法,詳細總結了基于體素的研究。
三維表面(surface based)是三維形狀的另一種表示方法,這種方法可以克服體素帶來的計算資源消耗問題。主要的方法包括基于表面網格和點云的方法,以及參數化三維重建和基于可變形模版的三維重建。但這種高效的方法所面臨的最大問題在于表示的不規則性,使得典型的深度學習架構無法方便的處理這些表示。
研究人員們提出了各種方法來解決這一問題,包括改進的二維卷積、球卷積、可變形模型和編碼器解碼器架構。下表總結可以各種基于mesh的表示的網絡架構。
點云作為一種重要的三維表示形式也受到了研究人員的廣泛關注。人們通常使用N*3的矩陣,或者是編碼xyz三通道的柵格數據,以及深度圖來對點云進行表示,并通過卷積、編碼器和解碼器等架構來從圖像中對點云進行學習和重建。
此外,有的研究人員為了降低直接從圖像學習點云的難度,在過程中加入了一些中介,并基于這些中間結果進行重建。下面是一個典型的中間方法,模型首先通過圖像估計出目標的表面法向圖、深度圖和輪廓剪影,并基于這些信息再重建出目標的三維形貌,將一個問題分解成多個子問題是一種處理復雜問題的有效手段。
除了直接從圖像重建出三維表示,研究人員還加入了一系列其他的線索:首先通過圖像生成2.5D的中間信息,隨后在利用深度學習或傳統方法重建出完整的三維形貌。
除了上述提到的法向量、深度圖和掩膜外,研究人員還探索了將深度圖投影到球空間中進行圖像補全,隨后重新投影到三維空間中實現重建;也有研究人員重建出多張不同角度的深度圖,同時解碼出對應的mask實現三維重建。進一步的方法還有基于變形場的概念來結合深度圖進行重建。同樣與空間關系相對,時間聯系也可以用來通過圖像對物體進行重建。研究人員們提出了基于循環神經網絡的增量式重建方法,通過在編碼器和解碼器間插入LSTM來處理和基于圖像序列的特征,并通過多幀輸入重建出三維形狀;還有研究為了克服序列輸入帶來的順序依賴與效率問題,采用了多個并行的編碼器解碼器架構分別處理時序數據并在最后融合得到優化的三維重建結果。
基于圖像進行三維重建的基本流程
通常來說基于圖像進行三維重建一般分為三個部分,對圖像特征的提取也即編碼過程、對特征的分析、組合以及最后的三維重建,即解碼過程;同時還需要考慮多種不同的損失函數和針對不同任務的訓練方法。
針對圖像進行三維重建需要從圖像中抽取有效的特征并編碼成隱空間中的嵌入表示。一個有效嵌入特征應該從二維圖像中穩定的抽取,并能夠重建出合理的三維形貌。有的研究從圖像中直接抽取離散或連續的隱空間特征進行編碼,也有的方法利用三維形狀來監督二維編碼實現隱空間中編碼的相似性。有效編碼的目的在于重建與圖像對應的三維表示。
而重建過程則對應了解碼器。針對不同的三維表示形式,解碼器的結構也各不相同,包括體素、網格、點云等多種不同的形式。解碼器的目的在于從圖像中抽取的形狀編碼中重建出與對應三維目標盡可能接近的形狀。為了提高解碼器的效率和重建的精度,包括空間剖分、可變性模型等技術被紛紛引入到這一過程中。為了實現有效的訓練和重建,需要引入一系列損失函數作為監督信號。這些監督信號包含了原始的三維表示信號,包括體素表示下的體積損失和點云表示下的點集損失。同時也可以引入一系列2D或2.5D的監督信號,例如不同視角下的圖像信號。
將重建出的三維結果投影到對應的二維視角下計算誤差是一類常用的做法,包括基于輪廓剪影的誤差、基于表面法向量的誤差、基于深度的誤差,同時也可以將這些誤差與三維誤差進行加權聯合處理。在訓練方法方面,基于圖像的三維重建除了通常使用的監督訓練方法外,還包括基于對抗的訓練方法和聯合其他任務的多任務訓練方法以獲得較好的結果。
訓練上述的種類多樣的重建方法,數據龐大的數據是必不可少的。研究人員們提出了多種數據集,目前常見的三維數據集包括了ModelNet,ShapeNet這類基于CAD模型的三維數據集,還包括了IKEA,Pix3D等室內家具場景的數據集,還包括PASCAL 3D+和ObjectNet3D等。
但這些數據的設計初衷大都不是為單圖像三維重建準備的,大型的CAD數據集缺乏對應的自然圖像,而真實數據集則數量較少。研究人員們使用各種數據增強方法來解決這一問題,包括常見的尺度、旋轉和裁剪變換以及新視角下的渲染等方法。也有的研究人員通過目標的掩膜來代替對自然圖像的三維標記。
下表從各個方面總結了常見的3D數據集。
值得探索的方向
近年來基于圖像的三維重建得到了巨大的發展,可以預見深度學習在二維領域的成功將全面向三維領域深入發展,作者從數據、算法和應用方面提出了一些值得探索的方向。
在數據方面,由于深度學習需要海量的訓練數據,希望在大規模的2D-3D標記數據集方面有更多的工作,同時針對弱監督和無監督學習的三維重建也是未來的發展方向。基于域遷移的訓練算法也可以解決數據缺乏的問題;
此外模型的泛化性和重建能力需要得到進一步的提升,針對未知類別物體的重建也許可以結合深度學習與傳統方法的優勢來處理。模型對于細節的重建能力也需要加強,未來對于目標精細形貌的重建探索也值得研究人員們進行努力;
針對特定領域的應用,包括人體、人體部位、人臉、車輛、動物、建筑等可以結合統計模型與深度學習的方法進行重建,這種方法在人臉上已經得到了較多的應用,未來會向各領域進一步發展;
針對多物體和復雜環境方面,需要將目前單物體三維重建拓展到多物體和復雜場景中,從多物體的數據問題訓練監督上進行探索;最后針對三維場景的解析和理解,包括場景重建、各個物體的分離與相關性分析,最終實現3D場景的精細語義處理也是值得探索的研究方向!
2D到3D的發展正是我們拓展世界認知的方向,神經網絡的能力從圖像到空間的進步也將帶來更大的技術進步。在深度學習時代,我們一同期待!
-
機器人
+關注
關注
210文章
28231瀏覽量
206615 -
智能控制
+關注
關注
4文章
590瀏覽量
42227 -
深度學習
+關注
關注
73文章
5493瀏覽量
120999
原文標題:良心整理 | 深度學習時代,基于圖像的三維重建走過哪些歷程?
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論