国产精品爽爽V在线观看无码_精品无码一区在线观看_一本狠狠色丁香婷婷综合久久

背景

單目深度估計(jì)分為兩個(gè)派系，metric depth estimation(度量深度估計(jì)，也稱絕對深度估計(jì))和relative depth estimation(相對深度估計(jì))。

絕對深度估計(jì)：估計(jì)物體絕對物理單位的深度，即米。預(yù)測絕對深度的優(yōu)點(diǎn)是在計(jì)算機(jī)視覺和機(jī)器人技術(shù)的許多下游應(yīng)用中具有實(shí)用價(jià)值，如建圖、規(guī)劃、導(dǎo)航、物體識別、三維重建和圖像編輯。然而，絕對深度股即泛化能力（室外、室內(nèi)）極差。因此，目前的絕對深度估計(jì)模型通常在特定的數(shù)據(jù)集上過擬合，而不能很好地推廣到其他數(shù)據(jù)集。

相對深度估計(jì)：估計(jì)每個(gè)像素與其它像素的相對深度差異，深度無尺度信息，可以各種類型環(huán)境中的估計(jì)深度。應(yīng)用場景有限。

導(dǎo)讀

現(xiàn)有的單目深度估計(jì)工作，要么關(guān)注于泛化性能而忽略尺度，即相對深度估計(jì)，要么關(guān)注于特定數(shù)據(jù)集上的最先進(jìn)的結(jié)果，即度量深度（絕對深度）估計(jì)。論文提出了第一種結(jié)合這兩種形態(tài)的方法，從而得到一個(gè)在泛化性能良好的同時(shí)，保持度量尺度的模型：ZoeD-M12-NK。

具體來說，論文框架包括兩個(gè)關(guān)鍵組成部分：相對深度估計(jì)網(wǎng)絡(luò)和絕對深度估計(jì)網(wǎng)絡(luò)。相對深度估計(jì)網(wǎng)絡(luò)學(xué)習(xí)提取相鄰像素之間的深度差異信息，而絕對深度估計(jì)網(wǎng)絡(luò)則直接預(yù)測絕對深度值。

使用這種框架，論文方法能夠?qū)⒁延袛?shù)據(jù)集的深度信息轉(zhuǎn)移到新的目標(biāo)數(shù)據(jù)集上，從而實(shí)現(xiàn)零樣本（Zero-shot）深度估計(jì)。在實(shí)驗(yàn)中，論文方法使用了幾個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測試，并證明了所提方法在零樣本深度估計(jì)方面比現(xiàn)有SOTA表現(xiàn)更好。

貢獻(xiàn)

本文中，作者提出了一個(gè)兩階段的框架，使用一個(gè)通用的編碼-解碼器架構(gòu)進(jìn)行相對深度估計(jì)的預(yù)訓(xùn)練，在第二階段添加絕對深度估計(jì)的輕量級head（metric bins module），并使用絕對深度數(shù)據(jù)集進(jìn)行微調(diào)。本文的主要貢獻(xiàn)是：

ZoeDepth 是第一個(gè)結(jié)合了相對深度和絕對深度的方法，在保持度量尺度的同時(shí)，實(shí)現(xiàn)了卓越的泛化性能。

ZoeDepth 的旗艦?zāi)Ｐ?ZoeD-M12-NK 在12個(gè)數(shù)據(jù)集上使用相對深度進(jìn)行預(yù)訓(xùn)練，并在兩個(gè)數(shù)據(jù)集上使用絕對深度進(jìn)行微調(diào)，使其在現(xiàn)有SOTA上有了明顯的提高

ZoeDepth 是第一個(gè)可以在多個(gè)數(shù)據(jù)集(NYU Depth v2 和 KITTI)上聯(lián)合訓(xùn)練而性能不明顯下降的模型，在室內(nèi)和室外域的8個(gè)未見過的數(shù)據(jù)集上實(shí)現(xiàn)了前所未有的零樣本泛化性能

ZoeDepth 彌補(bǔ)了相對深度估計(jì)和絕對深度估計(jì)之間的差距，并且可以通過在更多的數(shù)據(jù)集上定義更細(xì)化的域和，并在更多的絕對深度數(shù)據(jù)集微調(diào)來進(jìn)一步改進(jìn)網(wǎng)絡(luò)性能。

方法

論文首先使用一個(gè)Encoder-Decoder的backbone進(jìn)行相對深度預(yù)測，然后將提出的metric bins 模塊附加在decoder上得到絕對深度預(yù)測頭(head)，通過添加一個(gè)或多個(gè)head(每個(gè)數(shù)據(jù)集一個(gè))來進(jìn)行絕對深度估計(jì)。最后再進(jìn)行端到端的微調(diào)。下面介紹每個(gè)head(metric bins mdule)是怎么設(shè)計(jì)的：

LocalBins review

global adaptive bins vs local adaptive bins

不同RGB輸入對應(yīng)的深度分布會有很大的不同，目前的神經(jīng)網(wǎng)絡(luò)架構(gòu)主要是在低分辨率的bottleneck獲取全局信息，而不能很好地在高分辨率特征獲取全局特征，深度分布的這種變化使得端到端的深度回歸變得困難。因此，此前的一些方法提出將深度范圍劃分為一定數(shù)量的bin，將每個(gè)像素分配給每個(gè)bin，將深度回歸任務(wù)轉(zhuǎn)換為分類任務(wù)。

最終深度估計(jì)是bin中心值的線性組合。上圖介紹了兩種劃分bin的方法，AdaBins預(yù)測了完整圖像的分布，LocalBins預(yù)測了每個(gè)像素周圍區(qū)域的分布。本文采用了類似于LocalBins的這種方式。

Metric bins

具體來說，LocalBins使用一個(gè)標(biāo)準(zhǔn)的encoder-decoder作為基本模型，并附加一個(gè)模塊，該模塊將encoder-decoder的多尺度特征作為輸入，預(yù)測每個(gè)像素深度區(qū)間上的個(gè)bins中心值(channel)。一個(gè)像素的最終深度，由個(gè)bin經(jīng)過softmax得到的概率加權(quán)其bin中心值的線性組合得到：

Metric bins module

Metric Bins Module

如上圖所示，Metric bins模塊以MiDaS[1](一種有監(jiān)督的Zero-shot深度估計(jì)方法)的解碼器的多尺度（五層）特征作為輸入，預(yù)測用于絕對深度估計(jì)的深度區(qū)間的bins的中心。注意論文在bottleneck層就直接預(yù)測每個(gè)像素上所有的bins（即channel的維度直接就是）。然后在decoder上使用attractor layers逐步進(jìn)行細(xì)化bin區(qū)間。

Attract instead of split

論文通過調(diào)整bin，在深度區(qū)間上向左或向右移動它們，來實(shí)現(xiàn)對bin的多尺度細(xì)化。利用多尺度特征，論文預(yù)測了深度區(qū)間上的一組點(diǎn)用來”吸引“bin的中心。

具體地說，在第1個(gè)decoder層，MLP將一個(gè)像素處的特征作為輸入，并預(yù)測該像素位置的吸引點(diǎn)。調(diào)整后的bin中心為，調(diào)整如下：

其中，超參數(shù)和決定了attractor(吸引子)的強(qiáng)度。論文把這個(gè)attractor命名為inverse attractor。此外，論文還實(shí)驗(yàn)了一個(gè)指數(shù)變量：

實(shí)驗(yàn)表明，inverse attractor可以導(dǎo)致更好的性能。論文中，深度區(qū)間設(shè)置了個(gè)bin，decoder設(shè)置了個(gè)attractor。

Log-binomial instead of softmax

為了得到最終的絕對深度預(yù)測，每個(gè)像素上深度區(qū)間內(nèi)的每個(gè)bin通過softmax可以得到其概率，所有的bin的中心進(jìn)行按照片概率線性組合得到該像素的深度值。

盡管softmax在無序類中運(yùn)行得很好，但由于深度區(qū)間內(nèi)bin本身是有序的，softmax方法可能導(dǎo)致附近的bin的概率大大不同，因此論文使用具有排序感知的概率預(yù)測：

論文使用一個(gè)二項(xiàng)式分來預(yù)測概率，將相對深度預(yù)測與解碼器特征連接起來，并從解碼器特征中預(yù)測一個(gè)2通道輸出（q - mode和t - temperature），通過以下方法獲得第k個(gè)bin中心的概率得分：

然后再通過：

得到最終的概率值。

訓(xùn)練策略

Metric fine-tuning on multiple datasets

在具有各種場景的混合數(shù)據(jù)集上訓(xùn)練一個(gè)絕對深度模型是很困難的，論文首先預(yù)訓(xùn)練一個(gè)的相對深度估計(jì)的backbone，在一定程度上減輕了對多個(gè)數(shù)據(jù)集的微調(diào)問題。然后為模型配備多個(gè)Metric bins模塊，每個(gè)場景類型（室內(nèi)和室外）對應(yīng)一個(gè)。最后再對完整的模型進(jìn)行端到端微調(diào)。

Routing to metric heads

當(dāng)模型有多個(gè)絕對深度頭時(shí)，在推理的時(shí)候，算法需要根據(jù)輸入數(shù)據(jù)的類型，通過一個(gè)“路由器”來選擇用于特定輸入的絕對深度頭。

論文提供了三種“路由”策略：

Labeled Router(R.1)：訓(xùn)練多個(gè)模型，給它們打上場景標(biāo)簽，推理時(shí)根據(jù)場景手動選擇模型

Trained Router(R.2)：訓(xùn)練一個(gè)MLP分類器，它根據(jù)bottleneck預(yù)測輸入圖像的場景類型，然后“路由”到相應(yīng)的head，訓(xùn)練的時(shí)候需要提供場景類型的標(biāo)簽

Auto Router(R.3)：跟第二種類似，但是訓(xùn)練和推理過程中不提供場景的標(biāo)簽。

實(shí)驗(yàn)

Comparison to SOTA on NYU Depth V2

表1 Quantitative comparison on NYU-Depth v2

在沒有任何相對深度預(yù)訓(xùn)練的情況下，論文的模型ZoeD-X-N預(yù)測的絕對深度可以比目前的SOTA NeWCRFs提高13.7% (REL = 0.082)。

通過對12個(gè)數(shù)據(jù)集進(jìn)行相對深度預(yù)訓(xùn)練，然后對NYU Depth v2進(jìn)行絕對深度微調(diào)，論文的模型ZoeD-M12-N可以在ZoeD-X-N上進(jìn)一步提高8.5%，比SOTA NeWCRFs提高21%(REL = 0.075)。

Qualitative comparison on NYU Depth v2

上面的可視化可以看出，論文方法始終以更少的誤差，產(chǎn)生更好的深度預(yù)測（藍(lán)色表示誤差?。?。

Universal Metric SIDE

表2 Comparison with existing works when trained on NYU and KITTI

使用跨域數(shù)據(jù)集（室內(nèi)NYU和室外KITTI（NK））進(jìn)行絕對深度訓(xùn)練的模型通常表現(xiàn)更差，如上表2與表1的對比所示，論文將最近的一些方法在室內(nèi)和室外數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練，從結(jié)果可以看到，這些方法的性能都顯著下降，甚至直接無法收斂。而本文的方法ZoeD-M12-NK**只下降了8%**（REL 0.075 to 0.081)，顯著優(yōu)于SOTA NeWCRFs。

表2中，“”表示使用一個(gè)head，可以看到，使用多head的網(wǎng)絡(luò)，泛化能力更強(qiáng)，這些結(jié)果表明，Metric Bins模塊比現(xiàn)有的工作更好地利用了預(yù)訓(xùn)練，從而改進(jìn)了跨域的自適應(yīng)和泛化（Zero-shot性能）。

Zero-shot Generalization

論文將所提模型在8個(gè)未訓(xùn)練的室內(nèi)和室外數(shù)據(jù)上進(jìn)行Zero-shot測試，來評估所提方法的泛化能力。

Zero-shot transfer

Zero-shot transfer

表3 Quantitative results for zero-shot transfer to four unseen indoor datasets

表4 Quantitative results for zero-shot transfer to four unseen outdoor datasets

如表3所示，在室內(nèi)數(shù)據(jù)測試中，ZoeD-M12-N能夠取得最好的效果（在12個(gè)相對深度數(shù)據(jù)集上預(yù)訓(xùn)練，只對NYU數(shù)據(jù)集進(jìn)行微調(diào)），同時(shí)在室內(nèi)NYU數(shù)據(jù)集和室外KITTI數(shù)據(jù)集進(jìn)行微調(diào)效果次之，不使用12個(gè)相對深度數(shù)據(jù)集上預(yù)訓(xùn)練最差，但都顯著高于SOTA。如表4和上圖所示，在室外數(shù)據(jù)測試中，結(jié)論類似。甚至在達(dá)到了976.4%的提升！，這證明了它前所未有的Zero-shot能力。

消融實(shí)驗(yàn)

Backbones

Backbone ablation study

在圖像分類task中的backbone性能與深度估計(jì)性能之間有很強(qiáng)的相關(guān)性。較大的backbone可以實(shí)現(xiàn)較低的絕對相對誤差（REL）。

Metric Bins Module

Metric head variants

不同的MLP中的分裂因子（Splitter）和吸引子（Attractor）的數(shù)量對結(jié)果有影響。

Routers

Router variants

Trained Router效果顯著由于另外兩種路由策略。

總結(jié)

論文提出了ZoeDepth，第一個(gè)結(jié)合了相對深度和絕對深度而性能沒有顯著下降的方法，彌補(bǔ)相對和絕對深度估計(jì)性能之間的差距，在保持度量尺度的同時(shí)，實(shí)現(xiàn)了卓越的泛化性能。ZoeDepth是一個(gè)兩階段的工作，在第一階段，論文使用相對深度數(shù)據(jù)集對encoder-decoder架構(gòu)進(jìn)行預(yù)訓(xùn)練。在第二階段，論文基于所提的Metric bins 模塊得到domain-specific頭，將其添加到解碼器中，并在一個(gè)或多個(gè)數(shù)據(jù)集上對模型進(jìn)行微調(diào)，用于絕對深度預(yù)測。

提出的架構(gòu)顯著地改進(jìn)了NYU Depth v2的SOTA（高達(dá)21%），也顯著提高了zero-transfer的技術(shù)水平。論文希望在室內(nèi)和室外之外定義更細(xì)粒度的領(lǐng)域，并在更多的絕對深度數(shù)據(jù)集上進(jìn)行微調(diào)，可以進(jìn)一步改善論文的結(jié)果。在未來的工作中，論文希望研究ZoeDepth的移動架構(gòu)版本，例如，設(shè)備上的照片編輯，并將該工作擴(kuò)展到雙目深度估計(jì)。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1131

瀏覽量
40678
機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
28205

瀏覽量
206532
RGB

RGB

+關(guān)注

關(guān)注
4

文章
798

瀏覽量
58388
機(jī)器人技術(shù)

機(jī)器人技術(shù)

+關(guān)注

關(guān)注
18

文章
191

瀏覽量
31605

原文標(biāo)題：Intel 開源新作 | ZoeDepth: 第一個(gè)結(jié)合相對和絕對深度的多模態(tài)單目深度估計(jì)網(wǎng)絡(luò)

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

，共同進(jìn)步。歡迎加入FPGA技術(shù)微信交流群14群! 交流問題（一） Q：FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？現(xiàn)在用FPGA做深度學(xué)習(xí)加速成為一個(gè)熱

發(fā)表于 09-27 20:53

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項(xiàng)重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息

發(fā)表于 09-27 11:44 ?367次閱讀

Adafruit Huzzah無法從深度睡眠中醒來怎么辦？

型號：v09f0c112 ~ld … 醒來然后代碼運(yùn)行正常。當(dāng)它從深度睡眠中醒來時(shí)，我得到以下響應(yīng)： ets 2013 年 1 月 8 日，第一個(gè)原因：5，啟動模式：（3,6） ets_main.c 紅色 LED 亮起。然后，它將無限期地保持該模式。

發(fā)表于 07-19 15:04

網(wǎng)絡(luò)資源管理的新寵：洛杉磯裸機(jī)云多IP服務(wù)器深度解析!

在數(shù)字化時(shí)代，互聯(lián)網(wǎng)的快速發(fā)展和應(yīng)用場景的不斷擴(kuò)大，使得傳統(tǒng)的單IP服務(wù)器已經(jīng)無法滿足用戶對網(wǎng)絡(luò)資源管理的需求。而洛杉磯裸機(jī)云多IP服務(wù)器，以其獨(dú)特的優(yōu)勢，成為了眾多企業(yè)和個(gè)人用戶的首選。Rak部落小編為您整理發(fā)布洛杉磯裸機(jī)云

發(fā)表于 07-18 09:38 ?208次閱讀

殘差網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)嗎

殘差網(wǎng)絡(luò)（Residual Network，通常簡稱為ResNet）是深度神經(jīng)網(wǎng)絡(luò)的一種，其獨(dú)特的結(jié)構(gòu)設(shè)計(jì)在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失

發(fā)表于 07-11 18:13 ?980次閱讀

深度學(xué)習(xí)與nlp的區(qū)別在哪

深度學(xué)習(xí)和自然語言處理（NLP）是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系，也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。深度

發(fā)表于 07-05 09:47 ?815次閱讀

深度神經(jīng)網(wǎng)絡(luò)模型有哪些

深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNNs）是一類具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)，它們在許多領(lǐng)域取得了顯著的成功，如計(jì)算機(jī)視覺、自然語言處理、語音識別等。以下是

發(fā)表于 07-02 10:00 ?1170次閱讀

利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對心電圖降噪

曼濾波。因此，通過這種方式訓(xùn) 練網(wǎng)絡(luò)，無法獲得比卡爾曼濾波本身更好的性能。本文介紹了一種利用深度遞歸神經(jīng)網(wǎng)絡(luò) （DRNN）對 ECG 信號

發(fā)表于 05-15 14:42

助聽器降噪神經(jīng)網(wǎng)絡(luò)模型

本文介紹了一種用于實(shí)時(shí)語音增強(qiáng)的雙信號變換LSTM 網(wǎng)絡(luò) (DTLN)，作為深度噪聲抑制挑戰(zhàn) (DNS-Challenge) 的一部分。該方

發(fā)表于 05-11 17:15

【有獎】百度智能云度目推出首款多模態(tài) AI 模組，應(yīng)用場景有獎?wù)骷?/a>

他來了，他來了大模型時(shí)代悄然到來百度首款大模型落地的硬件產(chǎn)品度目多模態(tài)AI模組LUCA系列正式亮相度目LUCA深度集成百度語音芯片

 發(fā)表于 02-26 15:19 ?515次閱讀

詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

在如今的網(wǎng)絡(luò)時(shí)代，錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境，讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年，深度學(xué)習(xí)逐漸走進(jìn)人們的視線，通過深

發(fā)表于 01-11 10:51 ?1912次閱讀

OneLLM：對齊所有模態(tài)的框架！

OneLLM 是第一個(gè)在單個(gè)模型中集成八種不同模態(tài)的MLLM。通過統(tǒng)一的框架和漸進(jìn)式多模態(tài)對齊pipelines，可以很容易地?cái)U(kuò)展OneLL

發(fā)表于 01-04 11:27 ?908次閱讀

單目深度估計(jì)開源方案分享

可以看一下單目深度估計(jì)效果，這個(gè)深度圖的分辨率是真的高，物體邊界分割的非常干凈！這里也推薦工坊推出的新課程《

發(fā)表于 12-17 10:01 ?769次閱讀

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個(gè)備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和

發(fā)表于 12-15 14:28 ?9200次閱讀

動態(tài)場景下的自監(jiān)督單目深度估計(jì)方案

自監(jiān)督單目深度估計(jì)的訓(xùn)練可以在大量無標(biāo)簽視頻序列來進(jìn)行，訓(xùn)練集獲取很方便。但問題是，實(shí)際采集的視頻序列往往會有很多動態(tài)物體，而自監(jiān)督訓(xùn)練本身就是基于靜態(tài)環(huán)境假設(shè)，動態(tài)環(huán)境下會失效。

發(fā)表于 11-28 09:21 ?676次閱讀