文中解決了從描述復雜動態場景的單目視頻中合成新視圖的問題。作者提出了一種新方法,該方法不是在 MLP 的權重內對整個動態場景進行編碼,而是該方法通過采用基于體積圖像的渲染框架,該框架通過以場景運動感知的方式聚合來自附近視圖的特征來合成新的視點,從而解決了這些限制。此系統保留了先前方法(Dynamicn NeRFs)在對復雜場景和視圖相關效果進行建模的能力方面的優勢,但也能夠從具有無約束相機軌跡的復雜場景動態的長視頻合成逼真的新視圖。此方法在動態場景數據集上展示了對最先進方法的顯著改進,并將此方法應用于具有具有挑戰性的相機和對象運動的野外視頻,先前的方法在此應用中是無法生成高質量的渲染。
1 前言
計算機視覺方法現在可以產生具有驚人質量的靜態3D場景的自由視點渲染。那么在移動的場景的表現怎么樣呢,比如那些有人物或寵物的場景?從動態場景的單目視頻中合成新視圖是一個更具挑戰性的動態場景重建問題。最近的工作在空間和時間合成新視圖方面取得了進展,這要歸功于新的時變神經體積表示,如HyperNeRF和神經場景流場(Neural Scene Flow Fields,NSFF),它們在基于坐標的多層感知器(MLP)中對時空變化的場景內容進行體積編碼。然而,這些Dynamic NeRF方法有局限性,阻礙了它們在復雜、戶外視頻中的應用。本文提出了一種新的方法(DynIBaR),可以擴展到具有1)長時間持續時間、2)無界場景、3)不受控制的攝像機軌跡以及4)快速和復雜的物體運動捕獲的動態視頻。本文的主要貢獻如下:
提出了在場景運動調整的光線空間中聚合多視圖圖像特征,這個方法能夠正確推理時空變化的幾何和外觀。
為了有效地跨多個視圖建模場景運動,使用跨越多幀的運動軌跡場對這種運動進行建模,用學習的基函數表示。
為了在動態場景重建中實現時間一致性,引入了一種新的時間光度損失,該損失在運動調整的射線空間中運行。這里也推薦「3D視覺工坊」新課程《如何學習相機模型與標定?(代碼+實戰)》。
為了提高新視圖的質量,提出通過一種新的在貝葉斯學習框架中的基于IBR的運動分割技術將場景分解為靜態和動態組件。
2 相關背景
Novel view synthesis(新視圖生成方法)經典的基于圖像的渲染(IBR)方法通過整合輸入圖像的像素信息來合成新視圖,并根據它們對顯式幾何的依賴進行分類。光場或亮度圖渲染方法通過使用顯式幾何模型過濾和插值采樣射線來生成新的視圖。為了處理稀疏輸入視圖,許多方法 利用預先計算的代理幾何,例如深度圖或網格來渲染新視圖。
Dynamic scene view synthesis(動態場景視圖合成)大多數先前關于動態場景新視圖合成的工作需要多個同步輸入視頻,限制了它們在現實世界中的適用性。一些方法使用領域知識(domian knowledge),例如模板模型(template models)來實現高質量的結果,但僅限于特定類別的。最近,許多工作建議從單個相機合成動態場景的新穎視圖。Yoon等人通過使用通過單視圖深度和多視圖立體(multi view stereo)獲得的深度圖顯式扭曲(explicit warping)來渲染新視圖。然而,這種方法無法對復雜的場景幾何進行建模,并在不遮擋時填充真實和一致的內容。隨著神經渲染的進步,基于 NeRF 的動態視圖合成方法顯示了最先進的結果。一些方法,如Nerfies和HyperNeRF,使用變形場(deformation field)表示場景,將每個局部觀測映射到規范場景表示。這些變形以時間或每幀潛碼(per-frame latent code)為條件,參數化為平移或剛體運動場。這些方法可以處理長視頻,但大多局限于物體中心場景,物體運動相對較小,攝像機路徑控制。其他方法將場景表示為時變nerf(time-varying nerfs)。特別是,NSFF使用神經場景流場,可以捕獲快速和復雜的3D場景運動,用于戶外視頻。然而,這種方法僅適用于短(1-2 秒)、面向前向視頻。
3 方法
本文的網絡將給定一個具有幀的動態場景的單目視頻(I1, I2,…,, IN ) 和已知的相機參數 (P1, P2,., PN ),目標是在視頻中任何所需時間合成一個新的視點。與許多其他方法一樣,此方法訓練每個視頻,首先優化模型來重建輸入幀,然后使用該模型渲染新視圖。
3.1 Motion-adjusted feature aggregation(運動調整的特征聚合)
我們通過聚合從某一時刻附近的源視圖中提取的特征來合成新的視圖。為了渲染時刻i的圖像,我們首先在i的時間半徑r幀內識別源視圖Ij, j∈N (i) = [i?r, i + r]。對于每個源視圖,我們通過共享卷積編碼器網絡提取一個二維特征圖Fi,形成一個輸入元組{Ij, Pj, Fj}。
圖 2. 通過運動調整的多視圖特征聚合渲染。給定沿目標射線r在時間i的采樣位置x,我們估計其運動軌跡,它確定x在附近時間j∈N (i)處的3D對應關系,記為xi→j。然后將每個扭曲點投影到其對應的源視圖中。沿投影曲線提取的圖像特征 fj 被聚合并饋送到具有時間嵌入 γ(i) 的光線轉換器,產生每個樣本的顏色和密度 (ci, σi)。然后通過沿 r 的體積渲染 (ci, σi) 合成最終像素顏色 ^Ci。
為了預測沿目標射線r采樣的每個點的顏色和密度,我們必須在考慮場景運動的同時聚合源視圖特征。對于靜態場景,沿目標射線的點將位于相鄰源視圖中對應的極線上,通過簡單地沿相鄰極線采樣來聚合潛在的對應關系。然而移動場景元素違反極線約束,導致特征聚合不一致。因此,作者執行運動調整(motion-adjust)特征聚合。**Motion trajectory fileds(運動軌跡場) **文中使用根據學習基函數描述的運動軌跡場來表示場景運動。對于時刻i沿目標射線r的給定3D點x,用MLP GMT編碼其軌跡系數:其中是基系數(使用下面描述的運動基,x、y、z分別有系數),γ表示位置編碼。本文還引入了全局可學習的運動基,它跨越輸入視頻的每一個時間步長i,并與MLP聯合優化。將x的運動軌跡定義為,則在j時刻x與其三維對應xi→j之間的相對位移計算為:使用這種運動軌跡表示,在鄰近視圖中查找查詢點x的3D對應關系只需要一個MLP查詢,從而在本文的體繪制框架內實現高效的多視圖特征聚合。利用x在時刻i的估計運動軌跡,作者將x在時刻j對應的三維點記為。使用相機參數將每個扭曲點投影到其源視圖中,并在投影的2D像素位置提取顏色和特征向量。通過加權平均池化將輸出特征聚合到共享MLP中,從而在沿射線r的每個3D樣本點處生成單個特征向量。然后,具有時間嵌入的Ray Transformer網絡沿射線處理聚合特征序列,以預測每個樣本的顏色和密度。然后,我們使用標準NeRF體渲染,從這個顏色和密度序列中獲得射線的最終像素顏色。
3.2 Cross-time rendering for temporal consistency(跨時間渲染以實現時間一致性)
如果通過單獨比較和 來優化我們的動態場景表示,則表示可能會過度擬合輸入圖像。這可能是因為表示有能力為每個時間實例重建完全獨立的模型,而無需利用或準確地重建場景運動。因此,為了恢復具有物理上合理的運動的一致場景,本文強制場景表示的時間相干性。在這種情況下定義時間一致性的一種方法是在考慮場景運動時,兩個相鄰時間 i 和 j 的場景應該是一致的。
圖三:通過跨時間渲染實現時間一致性。為了加強動態重建中的時間一致性,我們使用來自附近時間j的場景模型渲染每個幀Ii,我們稱之為跨時間渲染。圖像i中的射線r使用彎曲射線ri→j渲染,即r扭曲到時間j。也就是說,從沿r的每個采樣位置計算出在時間j附近的運動調整點xi→j = x+?x,i(j),我們通過MLP查詢xi→j和時間j,預測其運動軌跡Γxi→j,j,我們將從時間k∈N (j)內的源視圖中提取的圖像特征fk聚合在一起。沿著ri→jr聚合的特征通過時間嵌入γ(j)輸入到射線轉換器中,在j時刻生成每個樣本的顏色和密度(cj, σj)。通過體繪制計算得到像素顏色(cj, σj) mj→iis,然后與地面真色Ci進行比較,形成重建損失Lpho。
特別是,本文通過在運動調整的光線空間中的跨時間渲染來加強優化表示中的時間光度一致性。具體為通過時間i附近的某個時間j來時間i渲染視圖,稱之為跨時間渲染。對于每個附近的時間 j ∈ N (i),不是直接使用沿光線 r 的點 x,而是考慮沿運動調整的光線 的點 并將它們視為它們位于時間 j 的光線上。具體來說,在計算運動調整點時,查詢MLP來預測新軌跡并使用公式2計算時間窗口N (j)中圖像k對應的3D點然后使用這些新的三維對應關系精確地渲染像素顏色,如第3.1節中“直”射線所述,除了現在沿著彎曲的、運動調整的射線 。也就是,每個點被投影到其源視圖和具有相機參數 的特征圖 以提取 RGB 顏色和圖像特征 ,然后將這些特征聚合并輸入到具有時間嵌入 的光線轉換器。結果是在時間j沿的顏色和密度序列,可以通過體繪制合成以形成顏色。然后通過運動錯位感知 RGB 重建損失將 與目標像素 進行比較
對 RGB 損失 ρ 使用廣義 Charbonnier 損失,是運動錯位權重,由時間 i 和 j 之間的累積 alpha 權重的差異計算,以解決 NSSF 描述的運動錯位歧義。
圖4 定性消融。從左到右,我們展示了我們的系統 (a) 中渲染的新視圖(頂部)和深度(底部),而不強制執行時間一致性,(b) 使用場景流場而不是運動軌跡聚合圖像特征,(c) 表示具有固定 DCT 基礎的運動軌跡而不是學習的視圖,以及 (d) 具有完整配置。簡單配置顯著降低了渲染質量
上圖的第一列中展示了使用和不使用時間一致性的方法之間的比較。
3.3 Combining static and dynamic models(結合靜態和動態模型)
正如在NSFF中觀察到的,使用小時間窗口合成新視圖不足以恢復靜態場景區域的完整和高質量的內容,因為相機路徑不受控制的,內容只能在空間上遙遠的幀中觀察到。因此,我們遵循NSFF的思想,并使用兩個獨立的表示對整個場景進行建模。動態內容 用如上所述的時變模型表示(在優化過程中用于跨時間渲染)。靜態內容用時不變模型表示,該模型以與時變模型相同的方式呈現,但在沒有場景運動調整(即沿極線)的情況下聚合多視圖特征。使用NeRF-W的靜態和瞬態模型相結合的方法,將動態和靜態預測組合成單個輸出顏色(或跨時間渲染期間的)。每個模型都的顏色和密度估計也可以單獨渲染,為靜態內容提供顏色,為動態內容提供。結合這兩種表示時,我們將公式3中的光度一致性項重寫為將與目標像素 進行比較的損失:
Image-based motion segmentation(基于圖像的運動分割)在本文的框架中,作者觀察到,在沒有任何初始化的情況下,場景分解往往以時不變或時變表示為主。為了便于分解,作者提出了一種新的運動分割模塊,該模塊生成分割掩碼來監督本文的主要雙分量場景表示。該想法是受到最近的工作中提出的貝葉斯學習技術的啟發,但集成到動態視頻的體積IBR表示中。在訓練主要雙分量場景表示之前,聯合訓練兩個輕量級模型來獲得每個輸入幀的運動分割掩碼。使用IBRNet對靜態場景內容進行建模,IBRNet通過沿附近源視圖的極線特征聚合沿每條射線渲染像素顏色,而不考慮場景運動;我們使用二維卷積編碼器-解碼器網絡D對動態場景內容進行建模,該網絡從輸入幀預測二維不透明度圖、置信圖和RGB圖像:然后,從兩個模型的輸出像素級合成完整的重建圖像:為了分割移動對象,我們假設觀察到的像素顏色以異方差任意方式不確定,并使用具有時間依賴置信度 的 Cauchy 分布對視頻中的觀察結果進行建模。通過取觀察的負對數似然,我們的分割損失寫成加權重建損失:
下圖展示了我們估計的運動分割掩碼疊加在輸入圖像上。
圖 5. 運動分割。我們展示了覆蓋渲染動態內容*(底部)的完整渲染(頂部)和運動分割。我們的方法分割具有挑戰性的動態元素,例如移動陰影、擺動和搖擺灌木。
Supervision with segmentation masks(基于分割掩碼的監督)本文使用掩碼初始化主要時變和時不變模型,如Omnimatte,通過將重構損失應用于動態區域的時變模型的渲染,并從靜態區域的時不變模型渲染:
對進行形態侵蝕和膨脹,分別得到動態區域和靜態區域的掩模,從而關閉掩模邊界附近的損失。我們用 Lmask 監督系統,每 50K 優化步驟將動態區域的權重衰減 5 倍。
3.4 Regularization(正則化)
如前所述,復雜動態場景的單目重建是高度不適定的,單獨使用光度一致性不足以在優化過程中避免糟糕的局部極小值。因此,我們采用先前工作中使用的正則化方案,該方案由三個主要部分組成是一個數據驅動的術語,由單眼深度和光流一致性先驗組成,使用Zhang等人和RAFT的估計。是一個運動軌跡正則化項,它鼓勵估計的軌跡場是周期一致的和時空平滑的。是一個緊實先驗,它鼓勵場景分解通過熵損失二進制,并通過失真損失減輕漂浮物。參考補充以獲取更多詳細信息。總之,用于優化時空視圖合成的主要表示的最終組合損失是:
4 實驗
4.1 Baselines and error metrics-評價指標
對比對象:Nerfies, HyperNeRF, NSFF, DVS評價指標:峰值信噪比 (PSNR)、結構相似性 (SSIM) 、通過 LPIPS 的感知相似性 ,并計算整個場景 (Full) 的誤差并僅限于移動區域 (Dynamic Only)。這里也推薦「3D視覺工坊」新課程《如何學習相機模型與標定?(代碼+實戰)》。
4.2 Quantitative evaluation-定量評價
這些結果表明,本文的框架在恢復高度詳細的場景內容方面更有效。
4.3 Ablations - 消融研究
image.png
A)基線IBRNet,具有額外的時間嵌入;B)不通過跨時間渲染強制時間一致性;C)使用場景流場在一個時間步內聚合圖像特征;D)預測多個3D場景流向量,指向每個樣本附近2r次;E)不使用時不變靜態場景模型;F)通過估計的運動分割掩碼沒有掩模重建損失;G)沒有正則化損失。
對于該項消融研究,使用每條射線 64 個樣本訓練每個模型。如果沒有我們的運動軌跡表示和時間一致性,視圖合成質量顯著下降,如表3的前三行所示。集成全局空間坐標嵌入進一步提高了渲染質量。結合靜態和動態模型可以提高靜態元素的質量,如完整場景的指標所示。最后,從運動分割或正則化中去除監督會降低整體渲染質量,證明了在優化過程中避免不良局部最小值的建議損失值。
先前的動態NeRF方法很難渲染運動物體的細節,如過于模糊的動態內容所示,包括氣球、人臉和服裝的紋理。相比之下,本文的方法綜合了靜態和動態場景內容的照片真實感新視圖,最接近地面真實圖像。
本文的方法綜合了逼真的新視圖,而先前的動態Nerf方法無法恢復靜態和動態場景內容的高質量細節,例如圖8中的襯衫皺紋和狗的毛皮。另一方面,顯式深度扭曲在咬合和視野外的區域產生孔洞。
5 Discussion and conclusion-討論與總結
Limitations(局限):由于不正確的初始深度和光流估計,我們的方法無法處理小的快速運動物體;與之前的動態NeRF方法相比,合成的視圖并不是嚴格的多視圖一致,靜態內容的渲染質量取決于選擇哪個源視圖;本文的方法能夠合成僅出現在遙遠時間的動態內容
我們的方法可能無法對移動薄物體進行建模,例如移動皮帶(左)。我們的方法只能渲染在遠距離幀(中間)中可見的動態內容。如果為給定像素聚合源視圖特征不足(右),則渲染的靜態內容可能不切實際或空白。
結論:本文提出了一種從描述復雜動態場景的單目視頻中合成時空視圖合成的新方法。通過在體積IBR框架內表示動態場景,克服了最近的方法無法對具有復雜相機和物體運動的長視頻進行建模的局限性。實驗已經證明,本文的方法可以從野外動態視頻中合成照片逼真的新視圖,并且可以在動態場景基準上比以前的最先進方法取得顯著改進。
-
3D
+關注
關注
9文章
2864瀏覽量
107340 -
AI
+關注
關注
87文章
30239瀏覽量
268478 -
模型
+關注
關注
1文章
3178瀏覽量
48731
原文標題:CVPR 2023 ,只需簡單的幾步,2D視頻變3D?最新視頻創作AI模型!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論