作者:lovelypanda
1. 筆者總結
本文方法是一種自監督的單目深度估計框架,名為GasMono,專門設計用于室內場景。本方法通過應用多視圖幾何的方式解決了室內場景中幀間大旋轉和低紋理導致自監督深度估計困難的挑戰。GasMono首先利用多視圖幾何方法獲取粗糙的相機姿態,然后通過旋轉和平移/尺度優化來進一步優化這些姿態。為了減輕低紋理的影響,該框架將視覺Transformer與迭代式自蒸餾機制相結合。通過在多個數據集上進行實驗,展示了GasMono框架在室內自監督單目深度估計方面的最先進性能。
圖1. 現有方法和GasMono的比較。我們的框架在薄物體和全局結構上展現出了卓越的精度。
2. 原文摘要
本文針對室內場景中存在的大旋轉和低紋理等挑戰,提出了一種單目自監督深度估計的框架。我們通過利用多視幾何方法從單目序列中估計粗略的相機姿態來緩解大旋轉的問題。然而,我們發現由于訓練集中不同場景間的尺度不確定性,直接使用幾何粗略姿態并不能提升深度估計的性能,這與直覺相悖。為了解決這個問題,我們提出在訓練過程中對這些姿態進行旋轉和平移/尺度優化。為了應對低紋理的問題,我們將視覺Transformer的全局推理能力與迭代式自蒸餾機制相結合,提供來自網絡自身的更準確的深度指導。在NYUv2、ScanNet、7scenes和KITTI數據集上的實驗驗證了我們框架中每個組件的有效性,我們的方法在室內自監督單目深度估計方面達到了最先進的水平,并展現了優異的泛化能力。
3. GasMono框架
圖2. GasMono: 一種基于幾何的自監督單目深度估計框架,用于室內場景。注意,在訓練過程中沒有使用真實標簽。通過從多個室內場景中選擇的單目圖像序列,使用結構從運動(structure-from-motion)軟件包COLMAP來估計每個序列上相機的粗略姿態。然后,使用圖像序列和粗略姿態來訓練深度模型。為了改善粗略的平移,設計了一個AlignNet來估計尺度sNN和殘差平移?t。此外,還設計了一個PoseNet來進一步改善姿態,特別是基于重建和目標圖像的粗略旋轉。AlignNet和PoseNet只在訓練過程中使用。
3.1. 幾何輔助姿態估計
自監督單目深度估計框架對于訓練視頻序列的標準監督協議包括根據估計的深度Dt和相對相機姿態Et→s = Rt→s|tt→s將像素從源圖像Is重投影到目標It。這意味著對于目標視圖中的像素pt,它在源視圖中的坐標ps可以得到
鑒于在圖像之間學習準確的相對姿態存在大旋轉的挑戰,我們提出擺脫通常使用的PoseNet,并用傳統姿態估計算法替換它。為此,我們利用COLMAP為訓練集中每個單獨的室內序列的圖像Ii獲得相機姿態ECPi = RCPi |tCPi。然后,對于給定的圖像對It,Is,分別是目標和源幀,我們可以獲得兩者之間的相對姿態 Et→s = RCPt→s|tCPt→s = ECPsECPt?1。與兩幀姿態估計不同,COLMAP等結構從運動管道可以在整個序列上進行全局推理。我們認為,由于姿態估計是學習單目深度的一個邊緣任務,利用整個序列是值得的。
盡管如此,COLMAP估計的姿態,我們將稱之為粗略姿態,有一些問題,特別是1)在訓練集的不同序列之間存在尺度不一致性和由于單目歧義導致的尺度漂移,2)由于缺乏紋理導致的旋轉和平移中的噪聲。這使得COLMAP本身無法無縫地替代PoseNet來訓練單目深度網絡。
3.1.1 平移縮放和精煉
為了解決前一個問題,我們部署一個淺層網絡AlignNet來在訓練過程中精煉平移并重新縮放它,以克服跨訓練集中的不同序列的尺度不一致性。
因此,AlignNet處理目標和源圖像,并預測應用于COLMAP估計的平移分量tCPt→s的尺度因子sNN和殘差移位ΔtNN。然后,從目標視圖到源視圖的估計平移tt→s得到為
這向量用于方程1,導致僅在學習估計單目深度圖時調整訓練圖像的尺度,使用RCPt→s|t?t→s。
我們可以將AlignNet視為一個訓練優化工具,在訓練過程中精煉粗略姿態以使其整體尺度一致。因此,一旦完成訓練,它就失去了效用。
圖3. 不同編碼器對低紋理深度估計的影響。
3.1.2 旋轉優化
前面部分僅關注平移優化,盡管粗略姿態估計的旋轉也可能不準確和嘈雜,所以也提出了旋轉優化。為了進一步展示訓練中旋轉優化的效果,在圖3中,我們分別報告了不準確粗略旋轉(頂部樣本)和準確粗略旋轉(底部樣本)的樣本。對于兩者,我們基于“Optim t”和“Optim R”計算重構損失,并在第3列中給出。對于第一個樣本,由于不準確的粗略旋轉,僅優化平移(“Optim t”,第1行)無法補償錯誤旋轉,從而產生高的重投影誤差。在精煉旋轉之后,基于“Optim R”的重構(第2行)產生了更低的光度誤差。相反,在第二個樣本中顯示準確的粗略姿態,基于“Optim t”的重構已經可以達到合理的重構圖像。
3.2 低紋理區域
在自監督訓練中,反向傳播行為回復到RGB圖像的光度漸變變化。那些具有有效光度變化的區域為深度學習提供強大的漸變,而低紋理區域,如墻壁和地板,無法提供有效的監督信號,因為對深度的多個假設導致光度誤差接近零,從而使網絡陷入局部最小值。因此,對于低紋理區域,深度估計過程主要依賴于網絡自身的推理能力。使用某些額外約束可能有助于緩解這個問題,這些約束來自諸如光流或平面法線之類的提示。盡管如此,這需要額外的監督,并且由于低紋理而在光流的情況下也可能遭受同樣的問題。因此,我們選擇在架構方面解決它,特別是通過Transformer超越CNN的有限感受野。此外,以前的工作證明了標簽蒸餾的有效性,以提高深度網絡的準確性。
3.2.1 網絡架構
我們的框架由三個網絡組成,一個用于單目深度估計的Depth Network,一個用于尺度校正和殘差平移預測的Alignment Network(AlignNet),以及一個用于殘差姿態估計的PoseNet。整體訓練架構如圖2所示。
考慮到Transformer在特征之間建模長程關系的出色性能,為了增強低紋理區域的全局特征提取,我們引入了一個Transformer編碼器MPViT作為深度編碼器。編碼器中的自注意力機制以一種高效的因素化方式實現:
其中C指的是嵌入維度。查詢(Q)、鍵(K)和值(V∈R^{N×C})向量是從視覺標記投影的。此外,對于深度解碼器,我們用Convex upsampling 替換了Monodepth2等使用的標準上采樣,將4個縮放度圖像映射帶到全分辨率,在此它們用于下面描述的迭代自我蒸餾操作。
3.2.2 迭代自我蒸餾
我們提出一個過擬合驅動的迭代自我蒸餾(ISD)過程,以獲得最小像素重投影誤差的深度圖,為任何特定訓練樣本提供更準確的標簽。ISD的關鍵步驟在算法1中列出。對于每張訓練圖像,我們多次迭代此過程(行4)。在第一次迭代中,我們在所有尺度上選擇每個像素的最小重建誤差及其對應的預測深度(第6-14行)。然后,我們通過最小化當前最佳深度圖與每個尺度上的預測之間的深度損失來更新網絡(第15-16行)。重復此過程多次迭代。
3.3 訓練損失
訓練損失的關鍵項由最小視圖重建損失組成。
視圖重建損失。對于重構圖像I~的誤差相對于目標圖像I,我們采用結構相似性指數度量(SSIM)和L1差異的組合進行衡量:
其中α通常設置為0.85 。此外,為了減輕兩視圖之間的遮擋效應,相對于前向和后向相鄰幀進行變形的損失的最小值被計算:
其中‘1’和‘-1’分別指前向和后向相鄰幀。
光滑損失。邊緣感知平滑損失用于進一步改進反深度映射d:
其中表示平均歸一化的反深度。并計算一個自動掩碼μ來過濾靜止幀和一些重復的紋理區域。
迭代自我蒸餾損失。如前所述,GasMono自我蒸餾偽標簽以提供額外的監督。給定根據算法1獲得的偽標簽,我們最小化預測深度d相對于它的對數誤差:
總損失。最后,在任何給定尺度上計算視圖重建損失、光滑損失 和蒸餾項(均帶到全分辨率),以獲得總損失項。更具體地說,計算兩個重建損失,即 和 :
其中和分別基于平移和旋轉優化后得到的姿態進行圖像重建計算,β、λ和μ分別設置為0.2、0.001和0.1。最后,在所有尺度上平均總損失。
4. 實驗結果
本文的實驗結果主要通過在多個數據集上分析和比較GasMono框架的性能來進行評估。在實驗部分,作者使用了三個室內數據集(NYUv2、7scenes和ScanNet)和一個室外數據集(KITTI)。作者對GasMono的行為進行了詳細的研究,分析了使用COLMAP位置和姿態優化策略訓練的GasMono的效果。此外,作者還對模型的各個組件進行了消融實驗,評估了它們對解決室內單目深度估計挑戰的貢獻。最后,作者還與現有的先進方法進行了比較,證明了GasMono在室內自監督單目深度估計中的優勢。
表1. 消融研究。
表2. 在室外KITTI數據集上測試了我們的ISD和不同基線方法。
表3. 在NYUv2上的評估結果。
表4. 在ScanNet上的零測量泛化結果。
表5. 在RGB-D 7場景上的零測量泛化結果。注意,Monoindoor++從每個視頻序列中提取每30幀的第一張圖像作為測試集,而我們遵循SC-Depthv2,從每10幀中提取第一張圖像。
表6. 在RGB-D 7場景上微調后的結果。
可視化結果如下:
圖4. 深度評估中的低紋理區域。
圖5. 在NYUv2上的定性比較。我們的GasMono相比于基線方法Monodepth2和最近的工作SC-Depthv2,獲得了更細致和更準確的深度估計。
圖6. 在ScanNet和7scenes上的泛化比較。與TrainFlow、Monodepth2和SC-Depthv2相比,GasMono在新場景上顯示出更準確和更細致的深度估計。
5. 結論
本文提出了GasMono,一種利用幾何信息的自監督單目深度估計框架,適用于復雜的室內場景。我們的方法通過縮放和精煉兩個步驟,解決了自監督訓練中由于姿態估計不準確而導致的尺度不一致和深度不精確的問題,并有效地利用了幾何方法提供的粗略姿態。實驗結果表明,我們的方法在NYUv2和KITTI數據集上顯著并穩定地超越了所有現有方法。此外,我們的方法在ScanNet和7Scenes數據集上也表現出了優異的泛化能力。
編輯:黃飛
?
評論
查看更多