精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VSLAM系統(tǒng)方法的各種特點(diǎn)

3D視覺工坊 ? 來源:3D視覺工坊 ? 作者:3D視覺工坊 ? 2022-11-01 09:53 ? 次閱讀

摘要

近年來,基于視覺的傳感器在SLAM系統(tǒng)中顯示出顯著的性能、精度和效率提升。在這方面,視覺SLAM(VSLAM)方法是指使用相機(jī)進(jìn)行姿態(tài)估計(jì)和地圖生成的SLAM方法。許多研究工作表明,VSLAM優(yōu)于傳統(tǒng)方法,傳統(tǒng)方法僅依賴于特定傳感器,例如激光雷達(dá),即使成本較低。VSLAM利用不同的攝像機(jī)類型(例如單目、雙目和RGB-D),在不同的數(shù)據(jù)集(例如KITTI、TUM RGB-D和EuRoC)和不同的環(huán)境(例如,室內(nèi)和室外)中進(jìn)行測(cè)試,并采用了多種算法和方法論,以更好地解析環(huán)境。上述變化使這一主題受到研究人員的廣泛關(guān)注,并產(chǎn)出了許多經(jīng)典VSLAM算法。在這方面,論文調(diào)查的主要目的是介紹VSLAM系統(tǒng)的最新進(jìn)展,并討論現(xiàn)有的挑戰(zhàn)和未來趨勢(shì)。論文對(duì)在VSLAM領(lǐng)域發(fā)表的45篇有影響力的論文進(jìn)行了深入的調(diào)查,并根據(jù)不同的特點(diǎn)對(duì)這些方法進(jìn)行了分類,包括novelty domain、目標(biāo)、采用的算法和語義水平。最后論文討論了當(dāng)前的趨勢(shì)和未來的方向,有助于研究人員進(jìn)行研究。

729755bc-5973-11ed-a3b6-dac502259ad0.png

總結(jié)來說,圖1顯示了標(biāo)準(zhǔn)VSLAM方法的整體架構(gòu)。系統(tǒng)的輸入可以與其他傳感器數(shù)據(jù)集成以提供更多信息,例如慣性測(cè)量單元(IMU)和激光雷達(dá),而不是只有視覺數(shù)據(jù)。此外,對(duì)于VSLAM 范式中使用的直接或間接方法,視覺特征處理模塊的功能可能會(huì)被更改或忽略。例如,“特征處理”階段僅用于間接方法。另一個(gè)因素是利用一些特定模塊,如回環(huán)檢測(cè)和光束法平差,以改進(jìn)執(zhí)行。

視覺SLAM算法的發(fā)展

VSLAM系統(tǒng)在過去的幾年中已經(jīng)成熟,一些框架在這個(gè)開發(fā)過程中發(fā)揮了重要作用。圖2展示了視覺SLAM發(fā)展過程中的里程碑算法。

72a26b28-5973-11ed-a3b6-dac502259ad0.png

首篇實(shí)時(shí)單目VSLAM于2007年由Davison提出,名為Mono SLAM的框架[17]。他們的間接框架可以使用擴(kuò)展卡爾曼濾波(EKF)算法估計(jì)現(xiàn)實(shí)世界中的相機(jī)運(yùn)動(dòng)和3D元素[18]。盡管缺乏全局優(yōu)化和回環(huán)檢測(cè)模塊,Mono SLAM開始在VSLAM域中發(fā)揮主要作用。然而用這種方法重建的地圖只包括地標(biāo),沒有提供關(guān)于該區(qū)域的進(jìn)一步詳細(xì)信息。Klein等人[14]在同一年提出了Parallel Tracking and Mapping(PTAM),他們將整個(gè)VSLAM系統(tǒng)分為兩個(gè)主要線程:tracking和mapping。PTAM為后續(xù)很多工作奠定了基石。PTAM方法的主要思想是降低計(jì)算成本,并使用并行處理來實(shí)現(xiàn)實(shí)時(shí)性能。當(dāng)tracking實(shí)時(shí)估計(jì)攝像機(jī)運(yùn)動(dòng)時(shí),mapping預(yù)測(cè)特征點(diǎn)的3D位置。PTAM也是第一個(gè)利用光束法平差(BA)聯(lián)合優(yōu)化相機(jī)姿態(tài)和3D地圖創(chuàng)建的方法。其使用Features from Accelerated Segment Test(FAST)[19]的角點(diǎn)檢測(cè)器算法進(jìn)行關(guān)鍵點(diǎn)匹配和跟蹤。盡管該算法的性能優(yōu)于Mono SLAM,但其設(shè)計(jì)復(fù)雜,在第一階段需要用戶輸入。Newcombe等人于2011年提出了一種用于測(cè)量深度值和運(yùn)動(dòng)參數(shù)來構(gòu)建地圖的直接方法,即密集跟蹤和映射(DTAM)。DTAM是一種密集建圖和密集跟蹤模塊的實(shí)時(shí)框架,可通過將整個(gè)幀與給定深度圖對(duì)齊來確定相機(jī)姿態(tài)。為了構(gòu)建環(huán)境地圖,上述階段分別估計(jì)場(chǎng)景的深度和運(yùn)動(dòng)參數(shù)。雖然DTAM可以提供地圖的詳細(xì)信息,但實(shí)時(shí)執(zhí)行需要較高的計(jì)算成本。作為3D 建圖和基于像素的優(yōu)化領(lǐng)域中的另一種間接方法,Endres等人在2013年提出了一種可用于RGB-D相機(jī)的方法。他們的方法是實(shí)時(shí)的,專注于低成本嵌入式系統(tǒng)和小型機(jī)器人,但在無特征或具有挑戰(zhàn)性的場(chǎng)景中無法產(chǎn)生準(zhǔn)確的結(jié)果。同年,Salas Moreno等人[22]提出了SLAM++,是實(shí)時(shí)SLAM框架中利用語義信息的開山之作。SLAM++采用RGB-D傳感器輸出,并進(jìn)行3D相機(jī)姿態(tài)估計(jì)和跟蹤以形成姿態(tài)圖。然后通過合并從場(chǎng)景中的語義目標(biāo)獲得的相對(duì)3D姿態(tài)來優(yōu)化預(yù)測(cè)姿態(tài)。

隨著VSLAM基線的成熟,研究人員專注于提高這些系統(tǒng)的性能和精度。Forster等人在2014年提出了一種混合VO方法,稱為Semi-direct Visual Odometry(SVO)[24]。SVO可以結(jié)合基于特征的方法和直接方法來實(shí)現(xiàn)傳感器的運(yùn)動(dòng)估計(jì)和建圖任務(wù)。SVO可以與單目和雙目相機(jī)一起工作,并配備了一個(gè)姿態(tài)細(xì)化模塊,以最小化重投影誤差。然而,SVO的主要缺點(diǎn)是采用短期數(shù)據(jù)關(guān)聯(lián),并且無法進(jìn)行回環(huán)檢測(cè)和全局優(yōu)化。LSD-SLAM[25]是Engel等人于2014年提出的另一種有影響力的VSLAM方法,包含跟蹤、深度估計(jì)和地圖優(yōu)化。該方法可以使用其姿態(tài)圖估計(jì)模塊重建大規(guī)模地圖,并具有全局優(yōu)化和回環(huán)檢測(cè)功能。LSD-SLAM的弱點(diǎn)在于其初始化階段,需要平面中的所有點(diǎn),這使其成為一種計(jì)算密集型方法。Mur Artal等人介紹了兩種精確的間接VSLAM方法,迄今為止廣受關(guān)注:ORB-SLAM[26]和ORBSLAM 2.0[27]。這些方法可以在紋理良好的序列中完成定位和建圖,并使用Oriented FAST and Rotated BRIEF(ORB)特征實(shí)現(xiàn)高性能的位置識(shí)別。ORB-SLAM的第一個(gè)版本能夠使用從相機(jī)位置收集的關(guān)鍵幀來計(jì)算相機(jī)位置和環(huán)境結(jié)構(gòu)。第二個(gè)版本是對(duì)ORB-SLAM的擴(kuò)展,有三個(gè)并行線程,包括查找特征對(duì)應(yīng)的跟蹤、地圖管理操作的局部建圖,以及用于檢測(cè)新環(huán)路和糾正漂移錯(cuò)誤的回環(huán)。盡管ORB-SLAM 2.0可以與單目和立體相機(jī)一起使用,但由于重建具有未知比例的地圖,因此不能用于自主導(dǎo)航。這種方法的另一個(gè)缺點(diǎn)是其無法在沒有紋理的區(qū)域或具有重復(fù)模式的環(huán)境中工作。該框架的最新版本名為ORB-SLAM 3.0,于2021提出[28]。它適用于各種相機(jī)類型,如單目、RGB-D和雙目視覺,并提供改進(jìn)的姿態(tài)估計(jì)輸出。

近年來,隨著深度學(xué)習(xí)的快速發(fā)展,基于CNN的方法可以通過提供更高的識(shí)別和匹配率來解決許多問題。類似地,用學(xué)習(xí)特征替換人工設(shè)計(jì)的特征是許多最近基于深度學(xué)習(xí)的方法提出的解決方案之一。在這方面,Tateno等人提出了一種基于CNN的方法,該方法處理相機(jī)姿態(tài)估計(jì)的輸入幀,并使用關(guān)鍵幀進(jìn)行深度預(yù)測(cè),命名為CNN-SLAM[29]。CNN-SLAM實(shí)現(xiàn)并行處理和實(shí)時(shí)性能的核心思想之一是,將相機(jī)幀分割成較小的部分以更好地理解環(huán)境。Engel等人還引入了Direct Sparse Odometry(DSO)[30],其將直接方法和稀疏重建相結(jié)合,以提取圖像塊中的最高強(qiáng)度點(diǎn)。

綜上所述,VSLAM系統(tǒng)演進(jìn)過程中的里程碑表明,最近的方法側(cè)重于多個(gè)專用模塊的并行執(zhí)行。這些模塊形成了與廣泛的傳感器和環(huán)境兼容的通用技術(shù)和框架。上述特性使它們能夠?qū)崟r(shí)執(zhí)行,并且在性能改進(jìn)方面更加靈活。

相關(guān)綜述

VSLAM領(lǐng)域已有不少綜述,對(duì)不同的現(xiàn)有方法進(jìn)行了全面調(diào)查。每一篇論文都回顧了使用VSLAM方法的主要優(yōu)點(diǎn)和缺點(diǎn)。Macario Barros等人[31]將方法分為三個(gè)不同類別:僅視覺(單目)、視覺慣性(立體)和RGB-D。他們還提出了簡(jiǎn)化分析VSLAM算法的各種標(biāo)準(zhǔn)。然而[31]并沒有包括其他視覺傳感器,比如基于事件的傳感器。Chen等人[32]調(diào)查了廣泛的傳統(tǒng)和語義VSLAM。他們將SLAM開發(fā)時(shí)代分為經(jīng)典、算法分析和魯棒感知階段。并總結(jié)了采用直接/間接方法的經(jīng)典框架,研究了深度學(xué)習(xí)算法在語義分割中的影響。盡管他們的工作提供了該領(lǐng)域高級(jí)解決方案的全面研究,但方法的分類僅限于基于特征的VSLAM中使用的特征類型。Jia等人[33]調(diào)查了大量文獻(xiàn),并對(duì)基于圖優(yōu)化的方法和配備深度學(xué)習(xí)的方法進(jìn)行了簡(jiǎn)要比較。在另一項(xiàng)工作中,Abaspur Kazerouni等人[34]涵蓋了各種VSLAM方法,利用了感官設(shè)備、數(shù)據(jù)集和模塊,并模擬了幾種間接方法進(jìn)行比較和分析。它們只對(duì)基于特征的算法進(jìn)行分析,例如HOG、尺度不變特征變換(SIFT)、加速魯棒特征(SURF)和基于深度學(xué)習(xí)的解決方案。Bavle等人[35]分析了各種SLAM和VSLAM應(yīng)用中的態(tài)勢(shì)感知方面,并討論了它們的缺失點(diǎn)。還有一些其他綜述如[15]、[36]、[37]、[32]、[37]在此不再贅述。

與上述綜述不同,本文對(duì)不同場(chǎng)景的VSLAM系統(tǒng)進(jìn)行全面調(diào)查,主要貢獻(xiàn)如下:

對(duì)各種最近的VSLAM方法進(jìn)行分類,這些方法涉及研究人員在提出新解決方案方面的主要貢獻(xiàn)、標(biāo)準(zhǔn)和目標(biāo);

通過深入研究不同方法的不同方面,分析VSLAM系統(tǒng)的當(dāng)前趨勢(shì);

介紹VSLAM對(duì)研究人員的潛在貢獻(xiàn)。

VSLAM 設(shè)置標(biāo)準(zhǔn)

考慮到各種VSLAM方法,論文將可用的不同設(shè)置和配置分為以下類別:傳感器和數(shù)據(jù)采集、目標(biāo)環(huán)境、視覺特征處理、系統(tǒng)評(píng)估和語義類別,下面逐一介紹。

傳感器和數(shù)據(jù)采集

Davison等人[17]引入的VSLAM算法的早期階段配備了用于軌跡恢復(fù)的單目攝像機(jī)。單目相機(jī)是最常見的視覺傳感器,用于各種任務(wù),如物體檢測(cè)和跟蹤[39]。另一方面,立體相機(jī)包含兩個(gè)或更多圖像傳感器,使其能夠感知圖像中的深度,從而在VSLAM應(yīng)用中實(shí)現(xiàn)更準(zhǔn)確的性能。相機(jī)設(shè)置具有成本效益,并為更高的精度要求提供信息感知。RGB-D相機(jī)也是VSLAM中使用的視覺傳感器,其可以提供場(chǎng)景中的深度和顏色。上述視覺傳感器可以提供豐富的環(huán)境信息,例如,適當(dāng)?shù)恼彰骱瓦\(yùn)動(dòng)速度,但它們通常難以應(yīng)對(duì)照明度低或場(chǎng)景動(dòng)態(tài)范圍高的情況。

近年來,事件攝像機(jī)也被用于各種VSLAM應(yīng)用中。當(dāng)檢測(cè)到運(yùn)動(dòng)時(shí),這些低延遲仿生視覺傳感器產(chǎn)生像素級(jí)亮度變化,而不是標(biāo)準(zhǔn)強(qiáng)度幀,從而實(shí)現(xiàn)高動(dòng)態(tài)范圍輸出,而不會(huì)產(chǎn)生運(yùn)動(dòng)模糊影響[40]。與標(biāo)準(zhǔn)相機(jī)相比,事件傳感器在高速運(yùn)動(dòng)和大范圍動(dòng)態(tài)場(chǎng)景中可以提供可靠的視覺信息,但在運(yùn)動(dòng)速度較低時(shí)無法提供足夠的信息。另一方面,事件相機(jī)主要輸出關(guān)于環(huán)境的不同步信息。這使得傳統(tǒng)的視覺算法無法處理這些傳感器的輸出[41]。此外,使用事件的時(shí)空窗口以及從其他傳感器獲得的數(shù)據(jù)可以提供豐富的姿態(tài)估計(jì)和跟蹤信息。

此外,一些方法使用多目相機(jī)設(shè)置來解決在真實(shí)環(huán)境中工作的常見問題,并提高定位精度。利用多目傳感器有助于解決復(fù)雜問題,例如遮擋、偽裝、傳感器故障或可跟蹤紋理稀疏等,為攝像機(jī)提供重疊視角。盡管多目相機(jī)可以解決一些數(shù)據(jù)采集問題,但純視覺的VSLAM可能會(huì)面臨各種挑戰(zhàn),例如遇到快速移動(dòng)目標(biāo)時(shí)的運(yùn)動(dòng)模糊、低照度或高照度下的特征不匹配、高速變化場(chǎng)景下的動(dòng)態(tài)目標(biāo)忽略等。因此,一些VSLAM應(yīng)用程序可能會(huì)在攝像機(jī)旁邊配備多個(gè)傳感器。融合事件和標(biāo)準(zhǔn)幀[42]或?qū)⑵渌麄鞲衅鳎ㄈ缂す饫走_(dá)[43]和IMU)集成到VSLAM是一些現(xiàn)有的解決方案。

目標(biāo)環(huán)境

作為許多傳統(tǒng)VSLAM實(shí)踐中的一個(gè)有力假設(shè),機(jī)器人在靜態(tài)世界中工作,沒有突然或意外的變化。因此,盡管許多系統(tǒng)可以在特定環(huán)境中成功應(yīng)用,但環(huán)境中的一些意外變化(例如,移動(dòng)目標(biāo)的存在)可能會(huì)導(dǎo)致系統(tǒng)復(fù)雜化,并在很大程度上降低狀態(tài)估計(jì)質(zhì)量。在動(dòng)態(tài)環(huán)境中工作的系統(tǒng)通常使用諸如光流或隨機(jī)采樣一致性(RANSAC)[44]之類的算法來檢測(cè)場(chǎng)景中的移動(dòng),將移動(dòng)目標(biāo)分類為異常值,并在重建地圖時(shí)跳過它們。這樣的系統(tǒng)利用幾何/語義信息或試圖通過組合這兩個(gè)結(jié)果來改進(jìn)定位方案[45]。

此外作為一般分類法,論文將環(huán)境分為室內(nèi)和室外兩類。室外環(huán)境可以是具有結(jié)構(gòu)地標(biāo)和大規(guī)模運(yùn)動(dòng)變化(如建筑物和道路紋理)的城市區(qū)域,或具有弱運(yùn)動(dòng)狀態(tài)(如移動(dòng)的云和植被、沙子紋理等)的越野區(qū)域,這增加了定位和回環(huán)檢測(cè)失敗的風(fēng)險(xiǎn)。另一方面,室內(nèi)環(huán)境包含具有完全不同的全局空間屬性的場(chǎng)景,例如走廊、墻和房間。論文認(rèn)為,雖然VSLAM系統(tǒng)可能在上述區(qū)域中的一個(gè)工作良好,但在其他環(huán)境中可能表現(xiàn)不出相同的性能。

視覺特征處理

如前文所述,檢測(cè)視覺特征并利用特征描述子信息進(jìn)行姿態(tài)估計(jì)是間接VSLAM方法的一個(gè)必要階段。這些方法使用各種特征提取算法來更好地理解環(huán)境并跟蹤連續(xù)幀中的特征點(diǎn)。特征提取算法有很多,包括SIFT[46]、SURF[47]、FAST[19]、BRIEF[48]、ORB[49]等。其中,與SIFT和SURF[50]相比,ORB特征具有快速提取和匹配而不大幅損失準(zhǔn)確度的優(yōu)點(diǎn)。

上述一些方法的問題是它們不能有效地適應(yīng)各種復(fù)雜和不可預(yù)見的情況。因此,許多研究人員使用CNN來提取圖像特征,包括VO、姿態(tài)估計(jì)和回環(huán)檢測(cè)。根據(jù)方法的功能,這些技術(shù)可以表示有監(jiān)督或無監(jiān)督的框架。

系統(tǒng)評(píng)估

雖然一些VSLAM方法,特別是那些能夠在動(dòng)態(tài)和挑戰(zhàn)性環(huán)境中工作的方法,在真實(shí)世界中進(jìn)行測(cè)試。但許多研究工作都使用了公開的數(shù)據(jù)集來證明其適用性。在這方面,Bonarini等人[51]的RAWSEEDS數(shù)據(jù)集是一個(gè)著名的多傳感器基準(zhǔn)測(cè)試工具,包含室內(nèi)、室外和混合機(jī)器人軌跡與真值數(shù)據(jù)。它是用于機(jī)器人和SLAM目的的最古老的公開基準(zhǔn)測(cè)試工具之一。McCormac等人[52]的Scenenet RGB-D是場(chǎng)景理解問題的另一個(gè)受歡迎的數(shù)據(jù)集,例如語義分割和目標(biāo)檢測(cè),包含500萬個(gè)大規(guī)模渲染的RGB-D圖像。最近在VSLAM和VO領(lǐng)域的許多工作已經(jīng)在TUM RGB-D數(shù)據(jù)集上測(cè)試了它們的方法[53]。此外,Nguyen等人[54]的NTU VIRAL是由配備3D激光雷達(dá)、相機(jī)、IMU和多個(gè)超寬帶(UWB)的無人機(jī)收集的數(shù)據(jù)集。該數(shù)據(jù)集包含室內(nèi)和室外實(shí)例,旨在評(píng)估自動(dòng)駕駛和空中操作性能。其他數(shù)據(jù)集如EuRoC MAV[55]、OpenLORIS Scene[56]、KITTI[57]、TartanAir[58]、ICL-NUIM[59]和基于事件相機(jī)的數(shù)據(jù)集[60]可以參考相關(guān)論文。

根據(jù)傳感器設(shè)置、應(yīng)用和目標(biāo)環(huán)境,上述數(shù)據(jù)集用于多種VSLAM方法。這些數(shù)據(jù)集主要包含攝像機(jī)的內(nèi)外參以及GT。表I和圖3分別顯示了數(shù)據(jù)集的總結(jié)特征和每個(gè)數(shù)據(jù)集的一些實(shí)例。

72b23828-5973-11ed-a3b6-dac502259ad0.png72c21f22-5973-11ed-a3b6-dac502259ad0.png

語義等級(jí)

機(jī)器人需要語義信息才能理解周圍的場(chǎng)景并做出更優(yōu)決策。在許多最近的VSLAM工作中,將語義級(jí)信息添加到基于幾何的數(shù)據(jù)中優(yōu)于純幾何的方法,使其能夠提供環(huán)境的概念知識(shí)[61]。在這方面,預(yù)先訓(xùn)練的目標(biāo)識(shí)別模塊可以將語義信息添加到VSLAM模型[62]。最新的方法之一是在VSLAM應(yīng)用中使用CNN。一般來說,語義VSLAM方法包含以下四個(gè)主要組成部分[43]:

跟蹤模塊:它使用從連續(xù)視頻幀中提取的二維特征點(diǎn)來估計(jì)相機(jī)姿態(tài)并構(gòu)建三維地圖點(diǎn)。相機(jī)姿態(tài)的計(jì)算和3D地圖點(diǎn)的構(gòu)建分別建立了定位和建圖過程的基線;

局部建圖模塊:通過處理兩個(gè)連續(xù)視頻幀,創(chuàng)建了一個(gè)新的3D地圖點(diǎn),該點(diǎn)與BA模塊一起用于改進(jìn)相機(jī)姿態(tài);

回環(huán)模塊:通過將關(guān)鍵幀與提取的視覺特征進(jìn)行比較并評(píng)估它們之間的相似性,進(jìn)一步調(diào)整相機(jī)姿態(tài)并優(yōu)化構(gòu)建的地圖;

非剛性上下文消隱 (Non-Rigid Context Culling,NRCC):使用NRCC的主要目標(biāo)是從視頻幀中過濾時(shí)間目標(biāo),以減少它們對(duì)定位和建圖階段的不利影響。其主要包含一個(gè)分割過程,用于分離幀中的各種不穩(wěn)定實(shí)例,例如人。由于NRCC可以減少待處理的特征點(diǎn)的數(shù)量,因此簡(jiǎn)化了計(jì)算部分并獲得了更魯棒的性能。

因此,在VSLAM方法中利用語義信息可以改善姿態(tài)估計(jì)和地圖重建的不確定性。然而,當(dāng)前的挑戰(zhàn)是如何正確使用提取的語義信息,而不影響計(jì)算成本。

基于主要目標(biāo)的VSLAM方法

目標(biāo)一:多傳感器處理

這一類別涵蓋了使用各種傳感器以更好地了解環(huán)境的VSLAM方法的范圍。雖然一些技術(shù)僅依賴攝像機(jī)作為所使用的視覺傳感器,但其他技術(shù)將各種傳感器結(jié)合起來以提高算法的準(zhǔn)確性。

1)使用多相機(jī)

一個(gè)相機(jī)重建運(yùn)動(dòng)物體的3D軌跡可能很困難,一些研究人員建議使用多相機(jī)。例如,CoSLAM是Zou和Tan[63]推出的一個(gè)VSLAM系統(tǒng),它使用部署在不同平臺(tái)上的單攝像機(jī)來重建魯棒地圖。CoSLAM結(jié)合了在動(dòng)態(tài)環(huán)境中獨(dú)立移動(dòng)的多個(gè)攝像機(jī),并根據(jù)它們重疊的視場(chǎng)重建地圖。該過程通過混合相機(jī)內(nèi)和相機(jī)間姿態(tài)估計(jì)和建圖,使得在3D中重建動(dòng)態(tài)點(diǎn)更容易。CoSLAM使用Kanade-Lucas-Tomasi(KLT)算法跟蹤視覺特征,并在靜態(tài)和動(dòng)態(tài)環(huán)境中運(yùn)行,包括室內(nèi)和室外,其中相對(duì)位置和方向可能會(huì)隨時(shí)間變化。這種方法的主要缺點(diǎn)是需要復(fù)雜的硬件來理解大量的攝像機(jī)輸出,并通過增加更多的攝像機(jī)來增加計(jì)算成本。

對(duì)于具有挑戰(zhàn)性的野外場(chǎng)景,Yang等人[64]開發(fā)了一種多攝像機(jī)協(xié)同全景視覺VSLAM方法。[64]賦予每個(gè)攝像機(jī)獨(dú)立性,以提高VSLAM系統(tǒng)在挑戰(zhàn)場(chǎng)景下的性能,例如遮擋和紋理稀疏。為了確定匹配范圍,他們從攝像機(jī)的重疊視場(chǎng)中提取ORB特征。此外,[64]還使用了基于CNN的深度學(xué)習(xí)技術(shù)來識(shí)別回環(huán)檢測(cè)的類似特征。在實(shí)驗(yàn)中,作者使用了由全景相機(jī)和集成導(dǎo)航系統(tǒng)生成的數(shù)據(jù)集。相關(guān)工作還有MultiCol-SLAM[65]。

2)使用多傳感器

其他一些方法建議融合多傳感器,并使用基于視覺和慣性的傳感器輸出以獲得更好的性能。在這方面,Zhu等人[66]提出了一種稱為CamVox的低成本間接激光雷達(dá)輔助VSLAM,并證明了其可靠的性能和準(zhǔn)確性。他們的方法使用ORB-SLAM 2.0,將Livox激光雷達(dá)作為高級(jí)深度傳感器提供的獨(dú)特功能與RGB-D相機(jī)的輸出相結(jié)合。作者使用IMU來同步和校正非重復(fù)掃描位置。CamVox貢獻(xiàn)是提出了一種在不受控制的環(huán)境中運(yùn)行的自主激光雷達(dá)-相機(jī)校準(zhǔn)方法。在機(jī)器人平臺(tái)上的實(shí)測(cè)表明,CamVox在能夠?qū)崟r(shí)運(yùn)行。

[67]提出了一種名為VIRAL(視覺-慣性-測(cè)距-激光雷達(dá))SLAM的多模態(tài)系統(tǒng),該系統(tǒng)將相機(jī)、激光雷達(dá)、IMU和UWB耦合起來。并提出了一種基于激光雷達(dá)點(diǎn)云構(gòu)建的局部地圖的視覺特征地圖匹配邊緣化方案。使用BRIEF算法提取和跟蹤視覺分量。該框架還包含用于所使用的傳感器的同步方案和觸發(fā)器。VIRAL在NTU VIRAL[54]數(shù)據(jù)集上測(cè)試了他們的方法,該數(shù)據(jù)集包含相機(jī)、激光雷達(dá)、IMU和UWB傳感器捕獲的數(shù)據(jù)。然而,由于處理同步、多線程和傳感器沖突解決,他們的方法計(jì)算量很大。其他相關(guān)算法Ultimate SLAM[68]、[69]可以參考相關(guān)論文。

目標(biāo)二:姿態(tài)估計(jì)

這類方法的重點(diǎn)是如何使用各種算法改進(jìn)VSLAM方法的姿態(tài)估計(jì)。

1)使用線/點(diǎn)數(shù)據(jù)

在這方面,Zhou等人[70]建議使用建筑結(jié)構(gòu)線段作為有用的特征來確定相機(jī)姿態(tài)。結(jié)構(gòu)線與主導(dǎo)方向相關(guān)聯(lián),并編碼全局方向信息,從而改善預(yù)測(cè)軌跡。方法名為StructSLAM,是一種6自由度(DoF)VSLAM技術(shù),可在低特征和無特征條件下運(yùn)行。

Point and Line SLAM(PL-SLAM)是一種基于ORB-SLAM的VSLAM系統(tǒng),針對(duì)非動(dòng)態(tài)低紋理場(chǎng)景進(jìn)行了優(yōu)化,由Pumarola等人提出[71]。該系統(tǒng)同時(shí)融合線和點(diǎn)特征以改進(jìn)姿態(tài)估計(jì),并幫助在特征點(diǎn)較少的情況下運(yùn)行。作者在生成的數(shù)據(jù)集和TUM RGB-D上測(cè)試了PL-SLAM。其方法的缺點(diǎn)是計(jì)算成本和必須使用其他幾何圖元(例如平面),以獲得更穩(wěn)健的精度。

Gomez-Ojeda等人[72]介紹了PL-SLAM(不同于Pumarola等人[71]中同名的框架),這是一種間接VSLAM技術(shù),使用立體視覺相機(jī)中的點(diǎn)和線來重建看不見的地圖。他們將從所有VSLAM模塊中的點(diǎn)和線獲得的片段與從其方法中的連續(xù)幀獲取的視覺信息合并。使用ORB和線段檢測(cè)器(LSD)算法,在PL-SLAM中的后續(xù)立體幀中檢索和跟蹤點(diǎn)和線段。作者在EuRoC和KITTI數(shù)據(jù)集上測(cè)試了PL-SLAM,在性能方面可能優(yōu)于ORB-SLAM 2.0的立體版本。PL-SLAM的主要缺點(diǎn)之一是特征跟蹤模塊所需的計(jì)算時(shí)間以及考慮所有結(jié)構(gòu)線以提取關(guān)于環(huán)境的信息。其他相關(guān)算法[73]可以參考論文。

2)使用額外特征

[74]中提出了Dual Quaternion Visual SLAM(DQV-SLAM),一種用于立體視覺相機(jī)的框架,該框架使用廣泛的貝葉斯框架進(jìn)行6-DoF姿態(tài)估計(jì)。為了防止非線性空間變換組的線性化,他們的方法使用漸進(jìn)貝葉斯更新。對(duì)于地圖的點(diǎn)云和光流,DQV-SLAM使用ORB功能在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)可靠的數(shù)據(jù)關(guān)聯(lián)。在KITTI和EuRoC數(shù)據(jù)集上,該方法可以可靠地得到預(yù)測(cè)結(jié)果。然而,它缺乏姿態(tài)隨機(jī)建模的概率解釋,并且對(duì)基于采樣近似的濾波的計(jì)算要求很高。其他相關(guān)算法SPM-SLAM[75]可以參考論文。

3)深度學(xué)習(xí)

Bruno和Colombini[76]提出了LIFT-SLAM,它將基于深度學(xué)習(xí)的特征描述子與傳統(tǒng)的基于幾何的系統(tǒng)相結(jié)合。并擴(kuò)展了ORB-SLAM系統(tǒng)的流水線,使用CNN從圖像中提取特征,基于學(xué)習(xí)得到的特征提供更密集和精確的匹配。為了檢測(cè)、描述和方向估計(jì),LIFT-SLAM微調(diào)學(xué)習(xí)不變特征變換(LIFT)深度神經(jīng)網(wǎng)絡(luò)。使用KITTI和EuRoC MAV數(shù)據(jù)集的室內(nèi)和室外實(shí)例進(jìn)行的研究表明,LIFT-SLAM在精度方面優(yōu)于傳統(tǒng)的基于特征和基于深度學(xué)習(xí)的VSLAM系統(tǒng)。然而,該方法的缺點(diǎn)是其計(jì)算密集的流水線和未優(yōu)化的CNN設(shè)計(jì)。

Naveed等人[77]提出了一種基于深度學(xué)習(xí)的VSLAM解決方案,該解決方案具有可靠且一致的模塊,即使在極端轉(zhuǎn)彎的路線上也是如此。他們的方法優(yōu)于幾種VSLAM,并使用了在真實(shí)模擬器上訓(xùn)練的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。此外,它們還為主動(dòng)VSLAM評(píng)估提供了基線,并可在實(shí)際室內(nèi)和室外環(huán)境中適當(dāng)推廣。網(wǎng)絡(luò)的路徑規(guī)劃器開發(fā)了理想的路徑數(shù)據(jù),由其基礎(chǔ)系統(tǒng)ORB-SLAM接收。[77]制作了一個(gè)數(shù)據(jù)集,包含了挑戰(zhàn)性和無紋理環(huán)境中的實(shí)際導(dǎo)航事件,以供評(píng)估。其他方法RWT-SLAM[78]可參考相關(guān)論文。

目標(biāo)三:現(xiàn)實(shí)世界可行性

這類方法的主要目標(biāo)是在各種環(huán)境中使用,并在多種場(chǎng)景下工作。論文注意到,本節(jié)中的引用與從環(huán)境中提取的語義信息高度集成,并展示了端到端的VSLAM應(yīng)用。

1)動(dòng)態(tài)環(huán)境

在這方面,Yu等人[61]引入了一個(gè)名為DS-SLAM的VSLAM系統(tǒng),該系統(tǒng)可用于動(dòng)態(tài)上下文,并為地圖構(gòu)建提供語義級(jí)信息。該系統(tǒng)基于ORB-SLAM 2.0,包含五個(gè)線程:跟蹤、語義分割、局部建圖、回環(huán)和密集語義圖構(gòu)建。為了在姿態(tài)估計(jì)過程之前排除動(dòng)態(tài)目標(biāo)并提高定位精度,DS-SLAM使用了實(shí)時(shí)語義分割網(wǎng)絡(luò)SegNet的光流算法[80]。DS-SLAM已經(jīng)在現(xiàn)實(shí)世界環(huán)境中、RGB-D相機(jī)以及TUM RGB-D數(shù)據(jù)集上進(jìn)行了測(cè)試。然而,盡管它的定位精度很高,但它仍面臨語義分割限制和計(jì)算密集型特征的問題。

Semantic Optical Flow SLAM(SOF-SLAM)是基于ORB-SLAM 2.0的RGB-D模式構(gòu)建的間接VSLAM系統(tǒng)[45]。他們的方法使用語義光流動(dòng)態(tài)特征檢測(cè)模塊,該模塊提取并跳過ORB特征提取提供的語義和幾何信息中隱藏的變化特征。為了提供準(zhǔn)確的相機(jī)姿態(tài)和環(huán)境信息,SOF-SLAM使用了SegNet的像素級(jí)語義分割模塊。在極端動(dòng)態(tài)的情況下,TUM RGB-D數(shù)據(jù)集和現(xiàn)實(shí)環(huán)境中的實(shí)驗(yàn)結(jié)果表明,SOF-SLAM的性能優(yōu)于ORB-SLAM 2.0。然而,非靜態(tài)特征識(shí)別的無效方法和僅依賴于兩個(gè)連續(xù)幀是SOF-SLAM的缺點(diǎn)。其他相關(guān)算法[81]、[82]可以參考相關(guān)論文。

2)基于深度學(xué)習(xí)的解決方案

在Li等人[83]的另一個(gè)名為DXSLAM的工作中,深度學(xué)習(xí)用于找到類似于SuperPoints的關(guān)鍵點(diǎn),并生成通用描述子和圖像的關(guān)鍵點(diǎn)。他們訓(xùn)練先進(jìn)的CNN HF-NET,通過從每個(gè)幀中提取局部和全局信息,生成基于幀和關(guān)鍵點(diǎn)的描述子。此外還使用離線Bag of Words(BoW)方法訓(xùn)練局部特征的視覺詞匯表,以實(shí)現(xiàn)精確的回環(huán)識(shí)別。DXSLAM在不使用GPU的情況下實(shí)時(shí)運(yùn)行,并且與當(dāng)代CPU兼容。即使這些品質(zhì)沒有得到特別的處理,它也有很強(qiáng)的抵抗動(dòng)態(tài)環(huán)境中動(dòng)態(tài)變化的能力。DXSLAM已經(jīng)在TUM RGB-D和OpenLORIS場(chǎng)景數(shù)據(jù)集以及室內(nèi)和室外圖像上進(jìn)行了測(cè)試,可以獲得比ORB-SLAM 2.0和DS-SLAM更準(zhǔn)確的結(jié)果。然而,這種方法的主要缺點(diǎn)是復(fù)雜的特征提取架構(gòu)和將深層特征合并到舊的SLAM框架中。

在另一種方法中,Li等人[84]開發(fā)了一種實(shí)時(shí)VSLAM技術(shù),用于在復(fù)雜情況下基于深度學(xué)習(xí)提取特征點(diǎn)。該方法可以在GPU上運(yùn)行,支持創(chuàng)建3D密集地圖,是一個(gè)具有自監(jiān)督功能的多任務(wù)特征提取CNN。CNN輸出是固定長(zhǎng)度為256的二進(jìn)制代碼串,這使得它可以被更傳統(tǒng)的特征點(diǎn)檢測(cè)器(如ORB)所取代。系統(tǒng)包括三個(gè)線程,用于在動(dòng)態(tài)場(chǎng)景中實(shí)現(xiàn)可靠和及時(shí)的性能:跟蹤、局部建圖和回環(huán)。支持使用ORB-SLAM 2.0作為基線的單目和RGB-D相機(jī)的系統(tǒng)。其他相關(guān)算法[85]可以參考相關(guān)論文。

3)使用人工地標(biāo)

Medina Carnicer等人提出的一種稱為UcoSLAM[86]的技術(shù),通過結(jié)合自然和人造地標(biāo),并使用基準(zhǔn)標(biāo)記自動(dòng)計(jì)算周圍環(huán)境的比例,從而優(yōu)于傳統(tǒng)的VSLAM系統(tǒng)。UcoSLAM的主要驅(qū)動(dòng)力是對(duì)抗自然地標(biāo)的不穩(wěn)定性、重復(fù)性和較差的跟蹤質(zhì)量。它可以在沒有標(biāo)簽或特征的環(huán)境中運(yùn)行,因?yàn)樗荒茉陉P(guān)鍵點(diǎn)、地標(biāo)和混合模式下運(yùn)行。為了定位地圖對(duì)應(yīng)關(guān)系,優(yōu)化重投影誤差,并在跟蹤失敗時(shí)重新定位,UcoSLAM具有跟蹤模式。此外,它有一個(gè)基于地標(biāo)的回環(huán)檢測(cè)系統(tǒng),可以使用任何描述子描述特征,包括ORB和FAST。盡管UcoSLAM有很多優(yōu)點(diǎn),但系統(tǒng)在多線程中執(zhí)行,這使得它成為一種耗時(shí)的方法。

4)廣泛的設(shè)置

用于動(dòng)態(tài)室內(nèi)和室外環(huán)境的另一種VSLAM策略是DMS-SLAM[87],它支持單目、立體和RGB-D視覺傳感器。該系統(tǒng)采用滑動(dòng)窗口和基于網(wǎng)格的運(yùn)動(dòng)統(tǒng)計(jì)(GMS)[88]特征匹配方法來找到靜態(tài)特征位置。DMS-SLAM以O(shè)RB-SLAM 2.0系統(tǒng)為基礎(chǔ),跟蹤ORB算法識(shí)別的靜態(tài)特征。作者在TUM RGB-D和KITTI數(shù)據(jù)集上測(cè)試了他們建議的方法,并優(yōu)于先進(jìn)的的VSLAM算法。此外,由于在跟蹤步驟中刪除了動(dòng)態(tài)目標(biāo)上的特征點(diǎn),DMS-SLAM比原始的ORB-SLAM 2.0執(zhí)行得更快。盡管有上述優(yōu)點(diǎn),但DMS-SLAM在紋理少、運(yùn)動(dòng)快和高度動(dòng)態(tài)環(huán)境的情況下會(huì)遇到困難。

目標(biāo)四:資源限制

在另一類中,與其他標(biāo)準(zhǔn)設(shè)備相比,一些VSLAM方法是為計(jì)算資源有限的設(shè)備構(gòu)建的。例如,為移動(dòng)設(shè)備和具有嵌入式系統(tǒng)的機(jī)器人設(shè)計(jì)的VSLAM系統(tǒng)就屬于這一類別。

1)處理能力有限的設(shè)備

在這方面,edgeSLAM是Xu等人提出的用于移動(dòng)和資源受限設(shè)備的實(shí)時(shí)、邊緣輔助語義VSLAM系統(tǒng)[89]。它采用了一系列細(xì)粒度模塊,由邊緣服務(wù)器和相關(guān)移動(dòng)設(shè)備使用,而不需要多線程。edgeSLAM中還包括基于Mask-RCNN技術(shù)的語義分割模塊,以改進(jìn)分割和目標(biāo)跟蹤。作者在一個(gè)邊緣服務(wù)器上安裝了一些商用移動(dòng)設(shè)備,如手機(jī)和開發(fā)板。通過重用目標(biāo)分割的結(jié)果,他們通過使系統(tǒng)參數(shù)適應(yīng)不同的網(wǎng)絡(luò)帶寬和延遲情況來避免重復(fù)處理。EdgeSLAM已在TUM RGB-D、KITTI的單目視覺實(shí)例和為實(shí)驗(yàn)設(shè)置創(chuàng)建的數(shù)據(jù)集上進(jìn)行了評(píng)估。

對(duì)于立體相機(jī)設(shè)置,Grisetti等人[90]提出了一種輕量級(jí)的基于特征的VSLAM框架,名為ProSLAM,其結(jié)果與先進(jìn)技術(shù)不相上下。四個(gè)模塊組成了他們的方法:triangulation模塊,它創(chuàng)建3D點(diǎn)和相關(guān)的特征描述子;增量運(yùn)動(dòng)估計(jì)模塊,其處理兩個(gè)幀以確定當(dāng)前位置;創(chuàng)建局部地圖的地圖管理模塊;以及基于局部地圖的相似性更新世界地圖的重新定位模塊。ProSLAM使用單個(gè)線程檢索點(diǎn)的3D位置,并利用少量已知庫(kù)來創(chuàng)建簡(jiǎn)單的系統(tǒng)。根據(jù)KITTI和EuRoC數(shù)據(jù)集的實(shí)驗(yàn),他們的方法可以獲得穩(wěn)健的結(jié)果。然而,它在旋轉(zhuǎn)估計(jì)方面表現(xiàn)出不足,并且不包含任何光束法平差模塊。其他相關(guān)算法VPS-SLAM[91]、[94]可以參考相關(guān)論文。

2)計(jì)算遷移

Ben Ali等人[96]建議使用邊緣計(jì)算將資源密集型操作遷移到云上,并減少機(jī)器人的計(jì)算負(fù)擔(dān)。他們?cè)谄溟g接框架Edge-SLAM中修改了ORB-SLAM 2.0的架構(gòu),在機(jī)器人上維護(hù)了跟蹤模塊,并將剩余部分委派給邊緣。通過在機(jī)器人和邊緣設(shè)備之間拆分VSLAM流水線,系統(tǒng)可以維護(hù)局部和全局地圖。在可用資源較少的情況下,它們?nèi)匀豢梢栽诓粻奚鼫?zhǔn)確性的情況下正確運(yùn)行。[96]使用TUM RGB-D數(shù)據(jù)集和兩個(gè)不同的移動(dòng)設(shè)備,基于RGB-D相機(jī)生成定制的室內(nèi)環(huán)境數(shù)據(jù)集進(jìn)行評(píng)估。然而,該方法的缺點(diǎn)之一是由于各種SLAM模塊的解耦而導(dǎo)致架構(gòu)的復(fù)雜性。另一個(gè)問題是,系統(tǒng)僅在短期設(shè)置下工作,在長(zhǎng)期場(chǎng)景(例如,多天)中使用Edge SLAM將面臨性能下降。

目標(biāo)五:彈性化(Versatility)

VSLAM在這一類中的工作側(cè)重于直接的開發(fā)、利用、適應(yīng)和擴(kuò)展。

在這方面,Sumikura等人[95]引入了OpenVSLAM,這是一個(gè)高度適應(yīng)性的開源VSLAM框架,旨在快速開發(fā)并被其他第三方程序調(diào)用。他們基于特征的方法與多種相機(jī)類型兼容,包括單目、立體和RGB-D,并且可以存儲(chǔ)或重用重建的地圖以供以后使用。由于其強(qiáng)大的ORB特征提取模塊,OpenVSLAM在跟蹤精度和效率方面優(yōu)于ORB-SLAM和ORB-SLAM2.0。然而,由于擔(dān)心代碼相似性侵犯了ORB-SLAM 2.0的權(quán)利,該系統(tǒng)的開源代碼已經(jīng)停止。

為了彌合實(shí)時(shí)能力、準(zhǔn)確性和彈性之間的差距,F(xiàn)errera等人[97]開發(fā)了OV2SLAM,可用于單目和立體視覺相機(jī)。通過將特征提取限制在關(guān)鍵幀中,并通過消除測(cè)光誤差在后續(xù)幀中對(duì)其進(jìn)行監(jiān)控,他們的方法減少了計(jì)算量。從這個(gè)意義上講,OV2SLAM是一種混合策略,它結(jié)合了VSLAM直接和間接方法的優(yōu)點(diǎn)。在室內(nèi)和室外實(shí)驗(yàn)中,使用包括EuRoC、KITTI和TartanAir在內(nèi)的著名基準(zhǔn)數(shù)據(jù)集,證明OV2SLAM在性能和準(zhǔn)確性方面優(yōu)于幾種流行技術(shù)。其他相關(guān)算法DROID-SLAM[98]、iRotate[99]可以參考相關(guān)論文。

目標(biāo)六:視覺里程計(jì)(Visual Odometry)

此類方法旨在以盡可能高的精度確定機(jī)器人的位置和方向。

1)深度神經(jīng)網(wǎng)絡(luò)

在這方面,[100]中提出了Dynamic-SLAM框架,該框架利用深度學(xué)習(xí)進(jìn)行準(zhǔn)確的姿態(tài)預(yù)測(cè)和適當(dāng)?shù)沫h(huán)境理解。作為優(yōu)化VO的語義級(jí)模塊的一部分,作者使用CNN來識(shí)別環(huán)境中的運(yùn)動(dòng)目標(biāo),這有助于他們降低由不正確的特征匹配帶來的姿態(tài)估計(jì)誤差。此外,Dynamic-SLAM使用選擇性跟蹤模塊來忽略場(chǎng)景中的動(dòng)態(tài)位置,并使用缺失特征校正算法來實(shí)現(xiàn)相鄰幀中的速度不變性。盡管結(jié)果很好,但由于定義的語義類數(shù)量有限,該系統(tǒng)需要巨大的計(jì)算成本,并面臨動(dòng)態(tài)/靜態(tài)目標(biāo)誤分類的風(fēng)險(xiǎn)。

Bloesch等人[101]提出了Code-SLAM,它提供了場(chǎng)景幾何體的濃縮和密集表示。他們的VSLAM系統(tǒng)是PTAM的增強(qiáng)版[14],該系統(tǒng)僅與單目攝像機(jī)一起工作。其將強(qiáng)度圖像劃分為卷積特征,并使用根據(jù)SceneNet RGB-D數(shù)據(jù)集的強(qiáng)度圖像訓(xùn)練的CNN將其饋送到深度自編碼器。EuRoC數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,其結(jié)果在準(zhǔn)確性和性能方面很有希望。其他相關(guān)算法DeepVO[102]、[103]、DeepFactors[104]可以參考相關(guān)論文。

2)深度相鄰幀處理

在另一項(xiàng)工作中,[106]的作者通過減少用于攝像機(jī)運(yùn)動(dòng)檢測(cè)的兩幅圖像之間的光度和幾何誤差,為RGB-D攝像機(jī)開發(fā)了一種實(shí)時(shí)密集SLAM方法,改進(jìn)了他們先前的方法[107]。他們基于關(guān)鍵幀的解決方案擴(kuò)展了Pose SLAM[108],它只保留非冗余姿態(tài),以生成緊湊的地圖,增加了密集的視覺里程計(jì)特征,并有效地利用來自相機(jī)幀的信息進(jìn)行可靠的相機(jī)運(yùn)動(dòng)估計(jì)。作者還采用了一種基于熵的技術(shù)來度量關(guān)鍵幀的相似性,用于回環(huán)檢測(cè)和漂移避免。然而,他們的方法仍然需要在回環(huán)檢測(cè)和關(guān)鍵幀選擇質(zhì)量方面進(jìn)行工作。

在Li等人[109]介紹的另一項(xiàng)工作中,使用稱為DP-SLAM的基于特征的VSLAM方法實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)目標(biāo)移除。該方法使用基于從運(yùn)動(dòng)目標(biāo)導(dǎo)出的關(guān)鍵點(diǎn)的似然性的貝葉斯概率傳播模型。使用移動(dòng)概率傳播算法和迭代概率更新,DP-SLAM可以克服幾何約束和語義數(shù)據(jù)的變化。它與ORB-SLAM 2.0集成,并在TUM RGB-D數(shù)據(jù)集上進(jìn)行了測(cè)試。盡管結(jié)果準(zhǔn)確,但由于迭代概率更新模塊,該系統(tǒng)僅在稀疏VSLAM中工作,并且面臨較高的計(jì)算成本。其他相關(guān)算法[110]可以參考相關(guān)論文。

3)各種特征處理

此類別中的另一種方法是Li等人[111]提出的基于文本的VSLAM系統(tǒng),稱為TextSLAM。它將使用FAST角點(diǎn)檢測(cè)技術(shù)從場(chǎng)景中檢索的文本項(xiàng)合并到SLAM管道中。文本包括各種紋理、圖案和語義,這使得使用它們創(chuàng)建高質(zhì)量3D文本地圖的方法更加有效。TextSLAM使用文本作為可靠的視覺基準(zhǔn)標(biāo)記,在找到文本的第一幀之后對(duì)其進(jìn)行參數(shù)化,然后將3D文本目標(biāo)投影到目標(biāo)圖像上以再次定位。他們還提出了一種新的三變量參數(shù)化技術(shù),用于初始化瞬時(shí)文本特征。使用單目相機(jī)和作者創(chuàng)建的數(shù)據(jù)集,在室內(nèi)和室外環(huán)境中進(jìn)行了實(shí)驗(yàn),結(jié)果非常準(zhǔn)確。在無文本環(huán)境中操作、解釋短字母以及需要存儲(chǔ)大量文本詞典是TextSLAM的三大基本挑戰(zhàn)。其他相關(guān)算法[43]、[112]可以參考相關(guān)論文。

確定當(dāng)前趨勢(shì)

統(tǒng)計(jì)數(shù)字

730813ba-5973-11ed-a3b6-dac502259ad0.png

關(guān)于上述各方面調(diào)查論文的分類,論文將圖4中的處理數(shù)據(jù)可視化,以找出VSLAM的當(dāng)前趨勢(shì)。在子圖“a”中,可以看到,大多數(shù)擬議的VSLAM系統(tǒng)都是獨(dú)立的應(yīng)用程序,它們使用視覺傳感器從頭開始執(zhí)行定位和建圖的整個(gè)過程。雖然ORB-SLAM2.0和ORB-SLAM是用于構(gòu)建新框架的其他基礎(chǔ)平臺(tái),但只有很少的方法基于其他VSLAM系統(tǒng),如PTAM和PoseSLAM。此外,就VSLAM應(yīng)用程序的目標(biāo)而言,子圖“b”中最重要的是改進(jìn)視覺里程計(jì)模塊。因此,大多數(shù)最近的VSLAM都試圖解決當(dāng)前算法在確定機(jī)器人位置和方向方面的問題。姿態(tài)估計(jì)和真實(shí)世界生存能力是提出新的VSLAM論文的進(jìn)一步基本目標(biāo)。關(guān)于調(diào)查論文中用于評(píng)估的數(shù)據(jù)集,子圖“c”說明了大多數(shù)工作都在TUM RGB-D數(shù)據(jù)集上進(jìn)行了測(cè)試。此外,許多研究人員傾向于對(duì)他們生成的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。我們可以假設(shè)生成數(shù)據(jù)集的主要?jiǎng)訖C(jī)是展示VSLAM方法在真實(shí)場(chǎng)景中的工作方式,以及它是否可以作為端到端應(yīng)用程序使用。EuRoC MAV和KITTI分別是VSLAM工作中下一個(gè)流行的評(píng)估數(shù)據(jù)集。從子圖“d”中提取的另一個(gè)有趣信息涉及使用VSLAM系統(tǒng)時(shí)使用語義數(shù)據(jù)的影響。我們可以看到,大多數(shù)論文在處理環(huán)境時(shí)不包括語義數(shù)據(jù)。論文假設(shè)不使用語義數(shù)據(jù)的原因是:

在許多情況下,訓(xùn)練識(shí)別目標(biāo)并將其用于語義分割的模型的計(jì)算成本相當(dāng)大,這可能會(huì)增加處理時(shí)間;

大多數(shù)基于幾何的VSLAM算法被設(shè)計(jì)在即插即用的設(shè)備上工作,因此它們可以用最少的努力使用相機(jī)數(shù)據(jù)進(jìn)行定位和建圖;

從場(chǎng)景中提取的不正確信息也會(huì)導(dǎo)致過程中增加更多的噪聲。

當(dāng)考慮環(huán)境時(shí),我們可以在子圖“e”中看到,一半以上的方法也可以在具有挑戰(zhàn)性的動(dòng)態(tài)環(huán)境中工作,而其余的系統(tǒng)只關(guān)注沒有動(dòng)態(tài)變化的環(huán)境。此外,在子圖“f”中,大多數(shù)方法都適用于“室內(nèi)環(huán)境”或“室內(nèi)和室外環(huán)境”,而其余的論文僅在室外條件下進(jìn)行了測(cè)試。應(yīng)當(dāng)指出的是,如果在其他情況下采用的方法只能在具有限制性假設(shè)的特定情況下工作,則可能不會(huì)產(chǎn)生相同的準(zhǔn)確性。這是一些方法只集中于特定情況的主要原因之一。

分析當(dāng)前趨勢(shì)

本文回顧了最先進(jìn)的視覺SLAM方法,這些方法吸引了大量關(guān)注,并展示了它們?cè)谠擃I(lǐng)域的主要貢獻(xiàn)。盡管在過去幾年中,VSLAM系統(tǒng)的各個(gè)模塊都有了廣泛的可靠解決方案和改進(jìn),但仍有許多高潛力領(lǐng)域和未解決的問題需要在這些領(lǐng)域進(jìn)行研究,從而在SLAM的未來發(fā)展中采用更穩(wěn)健的方法。鑒于視覺SLAM方法的廣泛性,論文介紹以下開放的研究方向:

深度學(xué)習(xí):深度神經(jīng)網(wǎng)絡(luò)在各種應(yīng)用中顯示出令人鼓舞的結(jié)果,包括VSLAM[15],使其成為多個(gè)研究領(lǐng)域的一個(gè)重要趨勢(shì)。由于其學(xué)習(xí)能力,這些體系結(jié)構(gòu)已顯示出相當(dāng)大的潛力,可以用作可靠的特征提取器,以解決VO和回環(huán)檢測(cè)中的不同問題。CNN可以幫助VSLAM進(jìn)行精確的目標(biāo)檢測(cè)和語義分割,并且在正確識(shí)別人工設(shè)計(jì)的特征方面可以優(yōu)于傳統(tǒng)的特征提取和匹配算法。必須指出的是,由于基于深度學(xué)習(xí)的方法是在具有大量多樣數(shù)據(jù)和有限目標(biāo)類的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,因此總是存在對(duì)動(dòng)態(tài)點(diǎn)進(jìn)行錯(cuò)誤分類并導(dǎo)致錯(cuò)誤分割的風(fēng)險(xiǎn)。因此,它可能導(dǎo)致較低的分割精度和姿態(tài)估計(jì)誤差。

信息檢索和計(jì)算成本權(quán)衡:通常情況下,處理成本和場(chǎng)景中的信息量應(yīng)始終保持平衡。從這個(gè)角度來看,密集地圖允許VSLAM應(yīng)用程序記錄高維完整場(chǎng)景信息,但實(shí)時(shí)這樣做將需要計(jì)算量。另一方面,稀疏表示由于其較低的計(jì)算成本,將無法捕獲所有需要的信息。還應(yīng)注意的是,實(shí)時(shí)性能與攝像機(jī)的幀速率直接相關(guān),峰值處理時(shí)間的幀丟失會(huì)對(duì)VSLAM系統(tǒng)的性能產(chǎn)生負(fù)面影響,而與算法性能無關(guān)。此外,VSLAM通常利用緊耦合的模塊,修改一個(gè)模塊可能會(huì)對(duì)其他模塊產(chǎn)生不利影響,這使得平衡任務(wù)更具挑戰(zhàn)性。

語義分割:在創(chuàng)建環(huán)境地圖的同時(shí)提供語義信息可以為機(jī)器人帶來非常有用的信息。識(shí)別攝像機(jī)視場(chǎng)中的目標(biāo)(例如門、窗、人等)是當(dāng)前和未來VSLAM工作中的一個(gè)熱門話題,因?yàn)檎Z義信息可用于姿態(tài)估計(jì)、軌跡規(guī)劃和回環(huán)檢測(cè)模塊。隨著目標(biāo)檢測(cè)和跟蹤算法的廣泛使用,語義VSLAM無疑將成為該領(lǐng)域未來的解決方案之一。回環(huán)算法:任何SLAM系統(tǒng)中的關(guān)鍵問題之一是漂移問題,以及由于累積的定位誤差而導(dǎo)致的特征軌跡丟失。在VSLAM系統(tǒng)中,檢測(cè)漂移和回環(huán)以識(shí)別先前訪問過的位置會(huì)導(dǎo)致計(jì)算延遲和高成本[89]。主要原因是回環(huán)檢測(cè)的復(fù)雜度隨著重建地圖的大小而增加。此外,組合從不同地點(diǎn)收集的地圖數(shù)據(jù)并細(xì)化估計(jì)姿態(tài)是非常復(fù)雜的任務(wù)。因此,回環(huán)檢測(cè)模塊的優(yōu)化和平衡具有巨大的改進(jìn)空間。檢測(cè)回環(huán)的常見方法之一是通過基于局部特征訓(xùn)練視覺詞匯表,然后將其聚合來改進(jìn)圖像檢索。

在具有挑戰(zhàn)性的場(chǎng)景中工作:在沒有紋理的環(huán)境中工作,很少有顯著特征點(diǎn),這通常會(huì)導(dǎo)致機(jī)器人的位置和方向出現(xiàn)漂移誤差。作為VSLAM的主要挑戰(zhàn)之一,此錯(cuò)誤可能導(dǎo)致系統(tǒng)故障。因此,在基于特征的方法中考慮互補(bǔ)的場(chǎng)景理解方法,例如目標(biāo)檢測(cè)或線條特征,將是一個(gè)熱門話題。

結(jié)論

本文介紹了一系列SLAM算法,其中從攝像機(jī)采集的視覺數(shù)據(jù)起著重要作用。論文根據(jù)VSLAM系統(tǒng)方法的各種特點(diǎn),如實(shí)驗(yàn)環(huán)境、新穎領(lǐng)域、目標(biāo)檢測(cè)和跟蹤算法、語義級(jí)生存能力、性能等,對(duì)其最近的工作進(jìn)行了分類。論文還根據(jù)作者的主張、未來版本的改進(jìn)以及其他相關(guān)方法中解決的問題,回顧了相關(guān)算法的關(guān)鍵貢獻(xiàn)以及現(xiàn)有的缺陷和挑戰(zhàn)。本文的另一個(gè)貢獻(xiàn)是討論了VSLAM系統(tǒng)的當(dāng)前趨勢(shì)以及研究人員將更多研究的現(xiàn)有開放問題。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4762

    瀏覽量

    100541
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    37

    文章

    3243

    瀏覽量

    57603
  • VSLAM
    +關(guān)注

    關(guān)注

    0

    文章

    23

    瀏覽量

    4310
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    開關(guān)電源各種拓?fù)浣Y(jié)構(gòu)的特點(diǎn)

    開關(guān)電源各種拓?fù)浣Y(jié)構(gòu)的特點(diǎn)
    發(fā)表于 11-25 09:16 ?1236次閱讀

    大聯(lián)大世平集團(tuán)推出基于Intel技術(shù)的雙目VSLAM空間定位解決方案

    大聯(lián)大控股宣布,其旗下世平推出基于英特爾(Intel)Movidius Myriad 2的雙目VSLAM空間定位解決方案。
    發(fā)表于 12-05 16:17 ?1402次閱讀

    各種PCBA測(cè)試方法特點(diǎn)和其優(yōu)缺點(diǎn)比較

    科技將就各種PCBA測(cè)試方法特點(diǎn)及其優(yōu)缺點(diǎn)進(jìn)行比較。一、裸板測(cè)試考慮到測(cè)試條件和日漸復(fù)雜的基片互聯(lián)的測(cè)試需要,特別是測(cè)試過程涉及基片的電性能評(píng)估時(shí),人們會(huì)遇到許多問題。為使生產(chǎn)商在充分保證基片互聯(lián)電性能
    發(fā)表于 11-24 09:28

    分享一款基于Intel技術(shù)的雙目VSLAM空間定位解決方案

    SLAM是什么?VSLAM技術(shù)框架主要包括哪些?VSLAM技術(shù)擁有哪些核心技術(shù)優(yōu)勢(shì)?
    發(fā)表于 07-09 07:29

    激光SLAM和視覺VSLAM的分析比較

    什么是激光SLAM?視覺VSLAM又是什么?激光SLAM和視覺VSLAM有哪些不同之處?
    發(fā)表于 11-10 07:16

    電腦系統(tǒng)各種備份方法

    電腦系統(tǒng)各種備份方法,供各位壇友參考
    發(fā)表于 11-22 12:57

    EDACS集群通信系統(tǒng)特點(diǎn)及常見故障解決方法

    本文簡(jiǎn)單介紹了 EDACS 集群通信系統(tǒng)特點(diǎn),并應(yīng)用豐富的經(jīng)驗(yàn)闡述了EDACS 集群通信系統(tǒng)的常規(guī)故障及解決方法。
    發(fā)表于 09-15 15:02 ?10次下載

    各種音箱箱體的特點(diǎn)分析

    各種音箱箱體的特點(diǎn)分析 我們會(huì)見到各類箱子,有大有小,有開孔的,有開縫的,有的背后敞開的,還有各種不常見的名字,它們是
    發(fā)表于 03-31 13:44 ?980次閱讀

    各種音箱特點(diǎn)簡(jiǎn)述

    我們會(huì)見到各類箱子,有大有小,有開孔的,有開縫的,有的背后敞開的,還有各種不常見的名字,它們是怎么個(gè)樣子,各有什么特點(diǎn)? 1
    發(fā)表于 10-24 15:24 ?1742次閱讀

    激光 SLAM與VSLAM定位導(dǎo)航方法誰主沉???

    、無人駕駛、AR、VR 等領(lǐng)域。其用途包括傳感器自身的定位,以及后續(xù)的路徑規(guī)劃、運(yùn)動(dòng)性能、場(chǎng)景理解。 由于傳感器種類和安裝方式的不同,SLAM 的實(shí)現(xiàn)方式和難度會(huì)有一定的差異。按傳感器來分,SLAM 主要分為激光SLAM 和 VSLAM 兩大類。其中,激
    發(fā)表于 11-22 11:52 ?3次下載

    詮視科技的VSLAM技術(shù)突破 看看CEO林瓊?cè)绾卧忈?/a>

    在移動(dòng)機(jī)器人領(lǐng)域,2018年最大的技術(shù)進(jìn)展莫過于VSLAM技術(shù)在該領(lǐng)域的應(yīng)用突破了,它將讓移動(dòng)機(jī)器人自主行駛有更廣闊的空間。對(duì)機(jī)器人企業(yè)而言,VSLAM是令人頭疼的事情,現(xiàn)如今有一家企業(yè)把它做好了,對(duì)其它企業(yè)而言,就省事多了。
    的頭像 發(fā)表于 03-02 10:09 ?5119次閱讀

    “詮視科技”獲數(shù)千萬A輪融資:將繼續(xù)拓展VSLAM底層技術(shù)

    科技完成了從即插即用的VSLAM系統(tǒng)級(jí)模組到實(shí)現(xiàn)與各大主流光機(jī)適配的ARVR端處理交互硬件平臺(tái),再到包含ARVR眼鏡系統(tǒng)級(jí)優(yōu)化與標(biāo)定的整機(jī)解決方案的一系列產(chǎn)品升級(jí)與戰(zhàn)略部署。 VSLAM
    的頭像 發(fā)表于 10-09 11:51 ?1642次閱讀

    各種流量計(jì)定義及特點(diǎn)

    最新整理資料各種流量計(jì)定義及特點(diǎn),內(nèi)容詳細(xì)。
    發(fā)表于 10-08 14:16 ?1次下載

    基于事件相機(jī)的vSLAM研究進(jìn)展

    vSLAM能夠通過視覺傳感器來獲取環(huán)境信息,以達(dá)到估計(jì)機(jī)器人位姿和周圍環(huán)境三維重建的目的。但是傳統(tǒng)的視覺傳感器受限于它的硬件而導(dǎo)致的低動(dòng)態(tài)感光范圍和運(yùn)動(dòng)中產(chǎn)生的動(dòng)態(tài)模糊,在一些復(fù)雜的場(chǎng)景下無法得到良好的結(jié)果,例如高速運(yùn)動(dòng)中的或者復(fù)雜的光照條件下的場(chǎng)景。
    發(fā)表于 05-09 15:49 ?609次閱讀
    基于事件相機(jī)的<b class='flag-5'>vSLAM</b>研究進(jìn)展

    基于事件相機(jī)的vSLAM研究進(jìn)展

    為了能讓基于事件相機(jī)的vSLAM在事件數(shù)據(jù)上實(shí)現(xiàn)位姿估計(jì)和三維重建,研究者設(shè)計(jì)出了多種多樣針對(duì)事件相機(jī)的數(shù)據(jù)關(guān)聯(lián)、位姿估計(jì)和三維重建的解決方案。我們將主流的算法分類為四種類別,分別為特征法、直接法、運(yùn)動(dòng)補(bǔ)償法和基于深度學(xué)習(xí)的方法。
    發(fā)表于 05-12 11:51 ?372次閱讀
    基于事件相機(jī)的<b class='flag-5'>vSLAM</b>研究進(jìn)展