本文對過去十年中進行的主動SLAM(A-SLAM)研究進行了新的回顧。論文討論了基于信息理論的方法在A-SLAM中用于軌跡生成和控制動作選擇的公式、應用和方法。本文廣泛的定性和定量分析強調(diào)了A-SLAM研究的方法、場景、配置、機器人類型、傳感器類型、數(shù)據(jù)集使用和路徑規(guī)劃方法。最后,論文提出了局限性并提出了未來研究的可能性。論文認為這項調(diào)查將有助于研究人員了解應用于A-SLAM的各種方法和技術。
2介紹
SLAM是一組方法,其中機器人自主定位并在導航時同時建圖環(huán)境。它可以細分為解決定位和建圖。定位是一個估計機器人在地圖上的姿態(tài)的問題,而地圖則是借助于車輛上的視覺、視覺慣性和激光傳感器來重建環(huán)境。前端處理感知任務,這涉及實現(xiàn)信號處理和計算機視覺領域的方法,以計算機器人環(huán)境和觀察到的特征之間的估計相對局部姿態(tài)。SLAM后端使用優(yōu)化理論、圖論和概率論來估計全局地圖和軌跡。關于SLAM方法的詳細綜述,可以參考[1]、[2]、[3]、[5]。
大多數(shù)SLAM算法是被動的,其中機器人被手動控制或朝向預定義的路線點行進,并且導航或路徑規(guī)劃算法不主動參與機器人的運動或軌跡。然而,A-SLAM試圖通過提出一種導航策略來解決未知環(huán)境的最優(yōu)探索問題,該導航策略生成未來目標/對象位置動作,這些動作減少了在地圖和姿態(tài)中的不確定性,從而實現(xiàn)完全自主的導航和測繪SLAM系統(tǒng)。論文將在其指定的第2節(jié)中進一步了解A-SLAM。在主動協(xié)作SLAM(AC-SLAM)中,多個機器人在執(zhí)行SLAM時主動協(xié)作。A-SLAM和AC-SLAM的應用領域包括搜索和救援[17]、行星觀測[12]、精準農(nóng)業(yè)[23]、擁擠環(huán)境中的自主導航[34]、水下探索[30][40][44]、人工智能[42]、輔助機器人[74]和自主探索[126]。
A-SLAM上算法的第一個實現(xiàn)可以追溯到[9],但最初的名稱是在[10]中起草的。然而,A-SLAM及其根源可以從人工智能和機器人探索技術創(chuàng)造的想法進一步追溯到20世紀80年代[11]。在過去十年中,還沒有對A-SLAM進行過綜述調(diào)查。2016年只有一篇文章在其評論文章[4]中討論了A-SLAM。在本文中,A-SLAM并不是研究的重點,相反,作者從整體上看了SLAM的整個主題。之所以在這里提到它,是因為我們文章中進行的研究集中在主動和A-SLAM上。
本文的優(yōu)勢不僅包括討論A-SLAM的內(nèi)部組成部分,還包括其應用領域、局限性和未來前景,以及對過去十年A-SLAM進行全面的統(tǒng)計調(diào)查。
3主動SLAM簡介
如前所述,SLAM是一個機器人建圖其環(huán)境并將其自身定位到該環(huán)境的過程。A-SLAM負責設計機器人軌跡,以最小化其地圖表示和定位的不確定性。其目的是在沒有外部控制器或人力的情況下執(zhí)行自主導航和環(huán)境探索。參考圖1,可以觀察到,在典型的SLAM系統(tǒng)中,來自傳感器(通常為激光雷達、相機和IMU)的數(shù)據(jù)由前端模塊處理,前端模塊計算特征提取、數(shù)據(jù)關聯(lián)、特征分類、迭代最近點(ICP)和回環(huán)閉合。ICP是一種迭代方法,它計算優(yōu)化/對齊數(shù)據(jù)點/特征的轉換,并用于掃描匹配方法中以建圖環(huán)境。后端模塊負責涉及束調(diào)整(B.A)、位姿圖優(yōu)化和地圖估計的高計算任務。后端模塊輸出機器人的全局地圖和姿態(tài)估計。A-SLAM可以被稱為SLAM系統(tǒng)的附加模塊或超集合,其結合了路線點和軌跡規(guī)劃,以及使用信息理論、控制理論和強化學習(RL)方法的控制模塊,以自主引導機器人實現(xiàn)其目標。
在SLAM中,環(huán)境探索(以更好地了解環(huán)境)和開發(fā)(以重新訪問已穿過的區(qū)域以進行回環(huán)閉合)被最大化,以獲得更好的地圖估計和定位。因此必須在勘探和開發(fā)之間進行權衡,因為前者要求最大限度地覆蓋環(huán)境,而后者要求機器人重新訪問先前勘探的區(qū)域。這兩個任務可能不總是同時應用于機器人以執(zhí)行自主導航。機器人可能必須通過在這兩個任務之間切換來解決探索開發(fā)困境。
A-SLAM公式
A-SLAM是在機器人必須在部分可觀察/未知環(huán)境中導航的場景中制定的,該場景通過在存在噪聲傳感器測量的情況下選擇一系列未來動作來減少其狀態(tài)和地圖相對于環(huán)境的不確定性。這樣的場景可以被建模為[6]中討論的部分可觀測馬爾可夫決策過程(POMDP)的實例。POMDP定義為7元組。X表示機器人狀態(tài)空間,A表示動作空間,O表示觀測,T是狀態(tài)轉移函數(shù),說明感知不確定性,是與在狀態(tài)x中采取的行動相關的獎勵,考慮了折扣系數(shù),即使計劃任務具有無限的范圍,也能確保有限的回報。T和都可以使用條件概率表示為等式1和2。
機器人的目標是選擇使每個狀態(tài)-動作對的相關預期回報最大化的最優(yōu)策略,并且可以將其建模為等式3:
盡管A-SLAM的POMDP公式是最廣泛使用的方法,但由于它考慮了不確定性下的規(guī)劃和決策,因此它被認為是計算昂貴的。為了計算方便,A-SLAM公式分為三個主要子模塊,它們識別潛在的目標位置/路點,計算到達它們的成本,然后根據(jù)效用標準選擇行動,從而減少地圖的不確定性并增加機器人的定位。
主動SLAM的組成
為了處理A-SLAM的計算復雜性,它被分為三個主要子模塊,如圖2所示。機器人最初在地圖的當前估計中確定要探索或利用的潛在目標位置。地圖表示機器人使用其機載傳感器感知的環(huán)境,可分為
1)拓撲地圖:使用環(huán)境的圖形表示并提供簡化的拓撲表示
2)度量地圖:以稀疏的信息點(地標)集合或環(huán)境的完整3D表示的形式提供環(huán)境信息(點云)
3)語義地圖:僅向機器人提供有關環(huán)境目標(如靜態(tài)障礙物)的分段信息。感興趣的讀者可參考[1,4],詳細討論建圖方法。
一旦機器人使用上述任何方法獲得了其環(huán)境的地圖,它就會搜索潛在的目標/對象位置進行探索。最廣泛使用的方法之一是[7]最初使用的基于邊界的勘探,其中邊界是已知和未知地圖位置之間的邊界。使用基于邊界的探索具有覆蓋所有環(huán)境的優(yōu)點,但缺點是不執(zhí)行影響機器人地圖估計的開發(fā)任務(重新訪問已訪問的區(qū)域以回環(huán))。
一旦目標位置被識別,下一步是基于從根據(jù)等式3的所有可能動作的集合中選擇的最佳動作的一些獎勵值來計算該位置的成本或效用函數(shù)。理想情況下,該效用函數(shù)應考慮地圖和機器人姿態(tài)的全關節(jié)概率分布,但該方法計算成本較高。由于我們對機器人和地圖都有概率估計,因此可以將它們視為隨機變量,并在其估計中具有相關的不確定性。量化和表示這種不確定性最常用的兩種方法是信息理論(IT)和最佳實驗設計理論(TOED)[64],信息理論最初由Shannon于1949年提出。在IT中,熵度量與隨機變量或隨機量相關的不確定性。更高的熵導致更少的信息增益,反之亦然。將隨機變量X定義為,如等式4所示。目標是減少機器人姿態(tài)和地圖估計之間的熵,如作者在[8]中所闡述的。
相對熵也可以用作一個效用函數(shù),它測量概率分布的形式及其與平均值的偏差。該相對熵被測量為KL散度。概率空間X上兩個離散分布A和B的KLD可以定義為方程5:
在A-SLAM中,如果考慮信息驅動的效用函數(shù),那么熵或KLD可以用作網(wǎng)格圖(占用網(wǎng)格圖)中目標二進制概率的度量。或者,如果我們考慮任務驅動效用函數(shù)并假設高斯分布,那么可以嘗試使用TOED來量化任務空間中的不確定性。在TOED中,A-SLAM的一組動作的優(yōu)先級基于關節(jié)后部的協(xié)方差量。協(xié)方差越小,動作集的權重越高。為了比較候選行動集的矩陣,已經(jīng)為協(xié)方差矩陣定義了稱為“最優(yōu)性準則”的不同函數(shù),其本征值為
1)A最優(yōu)性,其處理平均方差的最小化,如等式6所示;
2)D最優(yōu)性,處理捕獲全協(xié)方差矩陣,并在等式7中定義;
3)E最優(yōu)性,意圖最小化最大本征值,并在等式8中表示。
TOED方法要求將機器人姿態(tài)和地圖不確定性都表示為協(xié)方差矩陣,并且可能計算昂貴,特別是在基于地標的SLAM中,當發(fā)現(xiàn)新地標時,其大小會增加。因此,基于IT的方法優(yōu)于TOED。
一旦確定了目標位置和到達這些位置的效用/成本,下一步就是執(zhí)行最終將機器人移動/引導到目標位置的最佳動作。通常采用三種方法:
概率路線圖(PRM)方法表示表示機器人選擇到達目標位置的可能路徑的網(wǎng)絡圖。這些方法以啟發(fā)式的方式工作,可能不會給出最佳路徑,此外,機器人模型未納入規(guī)劃階段,這可能會導致意外移動。RRT[51]、D*[50]和A*[57]是廣泛使用的PRM方法。論文將這些方法確定為基于幾何的方法;
線性二次調(diào)節(jié)器(LQR)和模型預測控制(MPC)等最優(yōu)控制方法用于在線或離線規(guī)劃控制路徑,同時考慮與控制努力和機器人狀態(tài)隨時間演變相關的成本;
深度強化學習(DRL)方法通過最大化機器人軌跡演化過程中每個狀態(tài)動作對獲得的獎勵來工作。
如前幾節(jié)所述,使用IT和TOED對選擇合適的路點候選進行加權。在這些方法中,地圖和機器人路徑之間的信息增益或熵最小化指導了選擇這些未來候選路線的決策。為了生成這些未來候選路線的軌跡或一組動作,采用了兩種主要方法,分別是幾何和動態(tài)方法。這些方法包括使用傳統(tǒng)的路徑規(guī)劃器以及馬爾可夫決策過程和非線性最優(yōu)控制技術。
基于幾何的方法
這些方法將A-SLAM描述為機器人選擇最佳路徑和軌跡的任務,同時減少其姿態(tài)和建圖的不確定性,以便高效SLAM在未知環(huán)境中自主導航。利用有限隨機航路點對勘探空間進行離散化,并利用基于IT和TOED的方法(包括熵、信息增益、不確定性度量減少)部署基于Frontier的勘探以及傳統(tǒng)路徑規(guī)劃器(如RRT* 、D* 、A*)。
基于信息理論的方法
[20]的作者解決了聯(lián)合熵最小化探索問題,并提出了RRT*[51]的兩個修改版本,分別稱為dRRT和eRRT。dRRT使用距離,而eRRT使用每行駛距離的熵變化作為成本函數(shù)。人們進一步討論了地圖熵與覆蓋率有很強的關系,路徑熵與地圖質(zhì)量有關系(因為更好的定位會產(chǎn)生更好的地圖)。因此,行動是根據(jù)每行駛距離的聯(lián)合熵變化來計算的。仿真結果證明,這兩種方法的組合提供了最佳的路徑規(guī)劃策略。[18]中給出了信息理論方法之間的有趣比較,其中粒子濾波用作A-SLAM的后端,并部署了基于邊界的探索(邊界是訪問和未探索區(qū)域之間的邊界)[49]以選擇未來的候選目標位置。下面討論了用于解決勘探問題和評估信息的這三種方法的比較:
關節(jié)熵:在目標處獲得的信息使用機器人軌跡的熵和每個粒子攜帶的地圖的熵進行評估,每個粒子通過每個軌跡的重要性權重進行加權。選擇最佳勘探目標,這使聯(lián)合熵減少最大化,因此對應于更高的信息增益;
期望地圖平均值:期望平均值可以定義為粒子集的地圖假設的數(shù)學期望值。預期的地圖平均值可以應用于檢測地圖上已經(jīng)遍歷的循環(huán)。由于增益的計算正在發(fā)展,這種方法的復雜性增加了;
來自策略的預期信息:KL散度[28]用于驅動真實后驗和近似姿態(tài)信念之間的偏差上限。除了粒子濾波的信息一致性之外,該方法還考慮了由于不一致建圖導致的信息丟失。
使用對各種數(shù)據(jù)集的模擬結果(參考表2)得出的結論是,這些方法中的大多數(shù)都不能正確解決問題的概率方面,并且最有可能失敗,因為計算成本高,地圖網(wǎng)格分辨率依賴于性能。
作者在[32]中提出了TFG SLAM,它使用空間i的幾何表示,即勘探空間由原始幾何形狀表示,并計算地圖特征的熵減少。它使用基于拉普拉斯近似的熵度量,并計算勘探和開發(fā)收益的統(tǒng)一量化。基于概率道路圖方法使用基于有效采樣的路徑規(guī)劃器,該方法具有降低控制成本(距離)和目標之間的碰撞懲罰的成本函數(shù)。與傳統(tǒng)的柵格地圖邊界勘探相比,模擬結果顯示位置、方向和勘探誤差顯著減少。未來的改進包括擴展到主動的Visual SLAM框架。
當考慮拓撲矩陣圖和計算成本較低的解決方案時,可以參考[45]所采用的方法,該方法考慮了一種場景,即有許多先前的拓撲矩陣子圖,而機器人不知道其初始位置。提出了一種使用主動定位和主動建圖的開源框架。定義了一種在主動定位和建圖之間切換的子圖連接方法。主動定位使用最大似然估計來計算運動策略,這降低了該方法的計算復雜性。
基于Frontier的探索
邊界是探索和未探索空間之間的邊界。形式上可以將邊界描述為一組未知點,每個點至少有一個已知的空間鄰居。[21]提出的工作制定了一種以粒子濾波器SLAM為后端的混合控制切換探索方法。它使用基于邊界的探索方法,A*[57]作為全局規(guī)劃器,動態(tài)窗口方法(DWA)反應算法作為局部規(guī)劃器。在占用網(wǎng)格圖內(nèi),分割每個邊界,為每個段規(guī)劃軌跡,并從全局成本圖中選擇具有最高地圖段協(xié)方差的軌跡。[34]中介紹的工作涉及多個地面機器人的動態(tài)環(huán)境,并使用基于圖形的SLAM(iSAM)[61]優(yōu)化作為SLAM后端,使用前沿探索進行自主探索。使用基于Dijkstra算法的局部規(guī)劃器。最后,基于Shannon和Renyi熵的效用函數(shù)用于計算路徑的效用。未來的工作建議集成攝像頭并使用圖像特征掃描匹配來避免障礙物。
路徑規(guī)劃優(yōu)化
[30]提出的方法利用了圖形SLAM的圖形模型和稀疏矩陣分解之間的關系。它提出了變量排序和子樹捕獲方案,以便于快速計算由變量之間的信念變化加權的優(yōu)化候選路徑。地平線選擇標準基于作者先前的工作,利用擴展信息濾波器(EIF)和高斯牛頓(GN)預測。提出的解決方案在具有姿態(tài)圖SLAM的懸停自主水下機器人(HAUV)中實現(xiàn)。[44]中介紹的工作涉及使用多波束聲納在水下環(huán)境中進行類似的體積探測。對于有效的路徑規(guī)劃,根據(jù)姿態(tài)不確定性和傳感器信息增益來選擇重新訪問動作。
[39]中的作者使用了一種有趣的方法,該方法將路徑規(guī)劃任務處理為D*[50],具有負邊緣權重,以在定位改變的情況下計算最短路徑。這種探索方法在具有不斷變化的障礙和定位的動態(tài)環(huán)境中非常有效。當處理有噪聲的傳感器測量時,[27]采用了一種有趣的方法,該方法提出了模糊感知魯棒ASLAM(ARAS),該方法利用基于有噪聲或傳感器信息不足的多假設狀態(tài)和地圖估計。該方法使用局部輪廓進行有效的多假設路徑規(guī)劃,并結合回環(huán)閉合。
機器人軌跡優(yōu)化
[13]中提出的方法將A-SLAM與Ekman的探索算法[53]集成在一起,通過僅利用出現(xiàn)回環(huán)閉合的全局航路點來優(yōu)化機器人軌跡,然后將探索取消標準發(fā)送到SLAM后端(基于ES-DSF信息濾波[52])。探測取消標準取決于來自濾波器的信息增益的大小、回環(huán)閉合檢測以及沒有更新的狀態(tài)的數(shù)量。如果滿足這些標準,則A-SLAM發(fā)送探測算法停止并引導機器人閉合回路。必須注意,在這種方法中,A-SLAM與由信息濾波管理的路線規(guī)劃和勘探過程分離。
最優(yōu)策略選擇
[35]中給出的定義和比較將A-SLAM表述為選擇單個或多個策略類型的機器人軌跡的任務,該任務最小化目標函數(shù),該目標函數(shù)包括減少機器人不確定性、能耗、導航時間等因素的預期成本。根據(jù)定義,最優(yōu)性標準量化了機器人為提高定位精度和導航時間而采取的行動的改進。對D最優(yōu)性(與協(xié)方差矩陣的行列式成比例)、A最優(yōu)性(和協(xié)方差矩陣的軌跡成比例)和關節(jié)熵進行了比較,并得出結論,D最優(yōu)性準則更適合于提供與A最優(yōu)性相反的關于機器人不確定性的有用信息。[36]中的作者通過數(shù)值證明,通過使用微分表示來傳播空間不確定性,所有最優(yōu)性標準A-opt、D-opt和E-opt(協(xié)方差矩陣的最大特征值)都保持了單調(diào)性。在僅使用單位四元數(shù)的絕對表示中,單調(diào)性僅在D最優(yōu)性和香農(nóng)熵中保持。在類似的比較中,[37]中提出的工作得出結論,A-Opt和E-Opt標準在航位推算場景中不具有單調(diào)性。通過對差動驅動機器人的仿真證明,在線性里程法下,D-opt準則保持單調(diào)性。
基于動態(tài)的方法
與使用傳統(tǒng)的路徑規(guī)劃器(如A* 、D* 和RRT)不同,這些方法將A-SLAM表述為一個問題,即選擇一系列控制輸入以生成無碰撞軌跡并覆蓋盡可能多的區(qū)域,同時最小化狀態(tài)估計的不確定性,從而改善環(huán)境的定位和建圖。規(guī)劃和行動空間現(xiàn)在是連續(xù)的(與基于幾何的方法中的離散相反),并計算局部最優(yōu)軌跡。對于最佳目標位置的選擇,使用基于幾何的方法中使用的類似方法,但現(xiàn)在使用機器人模型、潛在信息場和控制理論計算未來候選軌跡。線性二次調(diào)節(jié)器(LQR)、模型預測控制(MPC)[59]、馬爾可夫決策過程[60]或強化學習(RL)[58]用于通過矩陣來選擇最優(yōu)的未來軌跡/軌跡集,該矩陣平衡探索新區(qū)域和利用已訪問區(qū)域進行回環(huán)閉合的需求。
[26]使用的方法使用路徑規(guī)劃器中的強化學習,通過結合3D控制器來獲取車輛模型。3D控制器可以簡化為用于向前和向后運動的一個2D控制器和用于路徑規(guī)劃的一個1D控制器,其具有最大化地圖可靠性和勘探區(qū)的目標函數(shù)。因此,計劃者有一個目標函數(shù),使用“從經(jīng)驗中學習方法”最大化每個狀態(tài)-動作對的累積獎勵。通過仿真表明,非完整車輛學習了虛擬墻壁跟隨行為。[42]中提出的類似方法使用全卷積殘差網(wǎng)絡來識別獲取深度圖像的障礙。路徑規(guī)劃算法基于深度強化學習算法(DRL)。
[19]提出了一種主動定位解決方案,其中在位置跟蹤問題中僅控制機器人的旋轉運動。自適應蒙特卡羅定位(AMCL)粒子云被用作輸入,機器人控制命令被發(fā)送到其傳感器作為輸出。所提出的解決方案涉及點云的光譜聚類,從每個粒子簇構建復合圖,并選擇信息量最大的單元。當機器人在其不確定性估計中具有多個集群時,觸發(fā)主動定位。未來的改進包括更多用于有效假設估計的單元,并將此方法集成到SLAM前端。在一個有趣的方法中,通過[48]控制仿生眼睛的掃視運動(注視中心在視野內(nèi)的快速移動)。為了利用環(huán)境中的更多特征,引入了受人類視覺系統(tǒng)啟發(fā)的自主控制策略。A-SLAM系統(tǒng)包括兩個線程(并行進程)、一個控制線程和一個跟蹤線程。控制線程控制仿生眼睛運動到特征豐富的位置,而跟蹤線程通過選擇特征豐富(ORB特征)關鍵幀來跟蹤眼睛運動。
基于幾何和動態(tài)的方法
這些方法使用前文提到的基于幾何和動態(tài)的方法,結合了基于前沿的探索、信息理論和模型預測控制(MPC)來解決A-SLAM問題。
作者在[15]中使用的方法提出了一種開源的多層A-SLAM方法,其中第一層選擇信息性(基于Shanon熵[62]的效用標準)目標位置(邊界點)并生成到這些位置的路徑,而第二層和第三層基于更新的占用網(wǎng)格圖主動重新規(guī)劃路徑。非線性MPC[63]應用于局部路徑執(zhí)行,目標函數(shù)基于最小化到目標的距離、控制到附近障礙物的努力和成本。這種方法的一個問題是,有時機器人會停止并開始局部路徑的重新規(guī)劃階段。未來的工作包括增加動態(tài)障礙物和使用空中機器人。
而[23]和[29]中提到的一種有趣的方法提出了一種基于模型預測控制(MPC)的解決方案,以解決A-SLAM中的區(qū)域覆蓋和不確定性降低。建立了MPC控制切換機制,并將SLAM不確定性降低作為圖拓撲問題處理,并將其規(guī)劃為約束非線性最小二乘問題。利用凸松弛,通過凸優(yōu)化方法降低SLAM的不確定性。區(qū)域覆蓋任務通過順序二次規(guī)劃方法解決,線性SLAM用于子地圖連接。
A-SLAM的統(tǒng)計分析
表1總結了A-SLAM中使用的傳感器類型和描述。還描述了SLAM方法、路徑規(guī)劃方法和出版年份。在該表中可以得出結論,在大多數(shù)A-SLAM方法中:
i)RGB和激光雷達傳感器被用作提取點云和圖像特征/對應關系的主要輸入數(shù)據(jù)源;
ii)涉及姿態(tài)圖或基于圖的SLAM方法;
iii)使用基于圖搜索的路徑規(guī)劃算法。
表2詳細說明了A-SLAM中使用的機器人及其各自的描述。還介紹了A-SLAM的數(shù)據(jù)集、ROS兼容性和回環(huán)閉合。這些信息可以概括為
-i)地面機器人被廣泛使用;
ii)50%的方法中采用了回環(huán)閉合;
iii)大多數(shù)方法中僅使用了30%的ROS。
在圖3中,描述了每年A-SLAM文章的選擇和ROS的使用[128]。可以觀察到,近57%的A-SLAM文章來自過去四年。雖然ROS是機器人的流行環(huán)境,但它僅部署在30%的A-SLAM解決方案中。
從圖4中可以推斷,自2017年以來,在A-SLAM實驗中,真實機器人的使用量有所增加。在圖5和圖6中,可以得出結論,模擬和分析結果的使用逐年增加。
主動寫作SLAM(AC-SLAM)
在AC-SLAM中,多個機器人在主動執(zhí)行SLAM的同時進行協(xié)作。前文中提到的A-SLAM中使用的基于數(shù)據(jù)驅動、信息理論和控制理論的方法也適用于AC-SLAM,同時還存在管理機器人之間的通信和魯棒參數(shù)交換的額外限制。這種協(xié)作可以包括交換參數(shù)、定位信息以及同質(zhì)或異質(zhì)機器人組之間的傳感器數(shù)據(jù)。除了這些參數(shù)之外,AC-SLAM參數(shù)還可以包括
a)如作者在[66]和[85]中提出的,合并通過添加未來機器人路徑而引起的多機器人約束,同時最小化最優(yōu)控制函數(shù)(其考慮了未來的步驟和觀察);
b)與[71]中描述的機器人的探索和重新定位(在預定義的會合位置收集)階段相關的參數(shù);
c)作者在[80]中使用的3D建圖信息(OctoMap);
d)路徑和地圖熵信息。如[81]中所用,以及如[82]中所述的相對熵。
AC-SLAM的網(wǎng)絡拓撲
網(wǎng)絡拓撲描述了不同機器人之間以及與中央計算機/服務器之間如何通信和交換數(shù)據(jù)。這種通信策略可以是集中的、分散的或混合的。在作者在[65–67,82,83,85,86]中提出的集中式通信網(wǎng)絡中,中央服務器/代理負責管理通信和高級計算任務,而在[70,71,74,75,78,81,84]中描述的分布式網(wǎng)絡中,每個機器人管理通信并單獨計算其AC-SLAM參數(shù)。[72]中討論的混合網(wǎng)絡使用集中式和分散式方法。由于網(wǎng)絡拓撲不是本文的主要主題,我們將對其進行進一步討論,并將重點放在AC-SLAM應用的場景和應用領域。典型的應用場景包括協(xié)作任務分配、探索和開發(fā)(重新訪問已探索的區(qū)域以實現(xiàn)閉環(huán))、協(xié)作軌跡規(guī)劃/軌跡優(yōu)化以及協(xié)作定位。
協(xié)作定位
在這些方法中,機器人在自定位和其他機器人定位之間切換其狀態(tài)(任務)。作者在[67]中提出的方法提出了一種新的集中式AC-SLAM方法,其中使用基于深度強化學習的任務分配算法來輔助代理完成相關觀察任務。每個代理可以選擇執(zhí)行其獨立的ORB-SLAM[127]或定位其他代理。獨特的觀測函數(shù)基于ORB-SLAM導出,由地圖點、關鍵幀和回環(huán)閉合檢測組件組成。機器人狀態(tài)之間的轉換誤差用于測量損失函數(shù)。為了學習Q值和狀態(tài)-動作對之間的對應關系,部署了一種新的多Agent系統(tǒng)深度Q網(wǎng)絡(MAS-DQN)。該方法的大量相關計算成本缺乏實時應用,因此未來提出了一種分布式學習方法。
[85]中描述的方法將多機器人信念空間跨越問題定義為機器人協(xié)作問題,以減少狀態(tài)估計中的不確定性。機器人信念被測量為其狀態(tài)在整個組和映射環(huán)境中的概率分布。所提出的主動定位方法可以使用未來路徑點的最大后驗概率(MAP)估計來指導每個機器人,以通過在多機器人AC-SLAM框架中重新觀察僅由其他機器人觀察到的區(qū)域來減少其不確定性。在一個有趣的方法中,[83]中提出的方法使用了多個人形機器人多機器人系統(tǒng)(MRS)SLAM,其中每個機器人有兩種獨立和協(xié)作的工作模式。每個機器人有兩個線程同時運行:a)運動線程和b)聽線程。在運動線程期間,它將通過組織者(中央服務器)使用D* 路徑規(guī)劃器和基于強化學習(RL)和貪婪算法的控制策略計算的軌跡來導航環(huán)境。它還定期向組織者上傳位姿。在聽線程期間,它將從組織者(通過ORB-SLAM)接收其更新的姿態(tài),并可能接收命令以幫助附近的其他機器人改進其定位(鏈式定位)。
勘探和開發(fā)任務
如A-SLAM前面所述,我們需要平衡勘探(最大化勘探區(qū)域)和開采(重新訪問已勘探區(qū)域以閉合環(huán)路)的需求。在AC-SLAM中,還可以通過將機器人移動到另一個具有較少定位不確定性的機器人來實現(xiàn)開發(fā)。作者在[79]中將集中式AS-SLAM探測問題(使用基于邊界的探測)描述為效率優(yōu)化問題,其中信息增益和定位效率最大化,而導航成本受到懲罰。對于重新定位(開發(fā))階段,導出了一個函數(shù),其中每個機器人被引導到一個已知的地標或另一個具有較少定位不確定性的機器人。定義了一個自適應的閾值標準,如果機器人陷入困境,該標準可由機器人調(diào)整以逃避探索和開發(fā)循環(huán)。為了管理有限的通信帶寬(由于集中式架構),提出了一種會合方法,該方法在機器人超出通信范圍時將機器人重新定位到預定位置。提出的未來工作涉及使用分布式控制方案。
[126]中描述的方法在拓撲幾何空間(由原始幾何形狀表示的環(huán)境)中表述問題。最初,機器人被分配目標位置,探索基于frontier方法,并利用切換成本函數(shù),該函數(shù)考慮到群的另一成員對機器人目標區(qū)域的發(fā)現(xiàn)。當目標位于機器人不相交的探索子空間內(nèi)時,成本函數(shù)從邊界轉換為基于測地線(距離)的導航函數(shù)。
軌跡規(guī)劃
在這些方法中,路徑熵被優(yōu)化以選擇AC-SLAM的信息量最大的路徑,并集體規(guī)劃軌跡,以減少定位和地圖的不確定性。在[81]中制定的方法中,該研究提出了一種分散的AC-SLAM方法,用于勘探行動的長期規(guī)劃,并將估計不確定性保持在一定閾值。主動路徑規(guī)劃器使用RRT* 的修改版本,其中a)由于使用了非完整機器人,所以過濾掉了不可信的節(jié)點,b)選擇了最佳地最小化每行進距離的熵變化的動作。熵估計作為兩個階段進行。首先,使用平方根信息濾波器(SRIF)更新計算短視野中的熵,并考慮機器人路徑中環(huán)路閉合的減少來計算短視野的熵。這種方法的主要優(yōu)點是它保持了良好的姿態(tài)估計,并鼓勵環(huán)路閉合軌跡。通過與[82]提出的方法類似的方法,使用相對熵(RE)優(yōu)化方法給出了一個有趣的解決方案,該方法將運動規(guī)劃與機器人定位相結合,并選擇最小化定位誤差和相關不確定性界限的軌跡。計算了一個規(guī)劃成本函數(shù),其中除了狀態(tài)和控制成本之外,還包括狀態(tài)中的不確定性(EKF狀態(tài)估計器的協(xié)方差矩陣的軌跡)。在一種有趣且計算成本較低的方法中,[73]中的作者使用基于支持向量機(SVM)的走廊生成和基于Bezier曲線的連續(xù)細化,以及D最優(yōu)準則,共同規(guī)劃軌跡,以減少基于偏序圖的SLAM中的姿態(tài)不確定性。為了降低目標機器人的姿態(tài)不確定性,定義了一種出價策略,該策略基于最小計算成本、可行軌跡和資源友好準則來選擇獲勝機器人。
AC-SLAM 的統(tǒng)計分析
表3總結了主動協(xié)作SLAM中使用的傳感器類型和描述。SLAM方法和路徑規(guī)劃方法也與出版年份一起介紹。可以得出結論,大多數(shù)主動和協(xié)作的SLAM文章使用
i)RGB、激光雷達和IMU傳感器數(shù)據(jù)作為輸入;
ii)姿態(tài)圖和EKF SLAM是主要使用的方法;
iii)基于概率路線圖的方法用于路徑規(guī)劃。
表4詳細說明了分析、模擬和真實機器人實驗以及環(huán)境類型、協(xié)作架構、協(xié)作參數(shù)、回環(huán)閉合和ROS框架。信息可以概括為
i)大多數(shù)文章提供了基于分析和模擬的結果,以及最多四個機器人的多機器人協(xié)作;
ii)使用了集中式和分散式協(xié)作架構;
iii)鼓勵閉環(huán),但ROS的使用受到限制。
4討論和展望
論文重點介紹了A-SLAM和AC-SLAM方法及其在選定研究文章中的實現(xiàn)和方法應用。除了前面章節(jié)中介紹的定性和定量分析外,我們希望在以下章節(jié)中介紹A-SLAM問題的局限性和未來的研究領域。
當前方法的局限性
通用限制
這些限制可以被視為A-SLAM研究中持續(xù)存在的開放問題,可以進一步解釋為:
停止標準:由于A-SLAM在計算上很昂貴,可以討論[4]所討論的停止標準,即何時停止勘探任務并切換到其他任務(如重新訪問已勘探區(qū)域)的決定。TOED不確定性的量化可以作為一個有趣的停止標準,但這仍然是一個開放的研究問題;
穩(wěn)健的數(shù)據(jù)關聯(lián):與SLAM不同,SLAM由內(nèi)部控制器負責機器人動作,數(shù)據(jù)關聯(lián)(測量值和相應地標之間的關聯(lián))對機器人動作的影響較小,在A-SLAM中,穩(wěn)健的數(shù)據(jù)相關性指導控制器選擇特征豐富的位置。這些良好特征/地標位置的鑒定可能很困難,尤其是在視距外測量中;
動態(tài)環(huán)境:與SLAM相反,在A-SLAM中,環(huán)境的性質(zhì)(靜態(tài)/動態(tài))和障礙的性質(zhì)(動態(tài)、靜態(tài))與計算未來行動的效用函數(shù)有著密切的關系。A-SLAM的大部分文獻都涉及可能不適用于真實世界場景的靜態(tài)環(huán)境和障礙;
模擬環(huán)境:當考慮基于DRL的方法時,模型訓練受限于模擬環(huán)境,與深度學習方法相反,不能使用離線數(shù)據(jù)集。在具有高不確定性的真實世界場景中,訓練的模型可能無法最佳地執(zhí)行。
選定文獻的局限性
調(diào)查文章中發(fā)現(xiàn)的一些見解包括:
a)對動態(tài)障礙的考慮有限,因為只有[39]和[34]考慮到了這些障礙;
b)計算復雜性和實時部署,因為只有[18]和[72]解決了這一問題;
c)參考前文和表2可以得出結論,回環(huán)任務和ROS的使用是有限的;
d) 缺乏開源實現(xiàn),因為只有[45]和[31]提供了開源解決方案,這一要求可能有助于研究人員重現(xiàn)結果;
e)在AC-SLAM中,沒有一篇文章明確解決在使用最小帶寬的同時管理魯棒的機器人間和機器人服務器通信的問題;
f)涉及MPC和基于深度強化學習的導航的動態(tài)方法的使用有限。
未來展望
動態(tài)障礙物的檢測和避免:對于在未知/部分已知環(huán)境中自主導航的機器人,必須能夠檢測、定位和避免動態(tài)障礙物。對于A-SLAM,靜態(tài)和動態(tài)障礙回避機制非常重要,因為它代表了不確定性的傳播,因此影響了系統(tǒng)的熵;
降低實時應用程序的計算復雜性:如前所述,TOED中的效用準則和相對熵計算都是計算量大的任務,因此限制了A-SLAM的實時性能。制定有利于實時性能的有效不確定性標準是一項具有挑戰(zhàn)性的任務;
最優(yōu)控制和DRL應用:應用最優(yōu)和魯棒控制策略有助于在連續(xù)域中制定機器人的動作空間,并可能提供最優(yōu)解決方案。高度鼓勵使用這些控制策略。DRL提供了一種替代的無模型解決方案,其中決策嵌入到網(wǎng)絡中。Depp Q網(wǎng)絡(DQN)和double-dueling(D3QN)是[26]和[42]使用的此類DRL方法的應用。
5結論
本文重點介紹了兩種應用于同時定位和建圖技術的新興技術,即A-SLAM和AC-SLAM。論文首先回顧了A-SLAM問題及其正式表述,討論了用于部署現(xiàn)代主動和協(xié)作SLAM的子模塊和方法。論文對調(diào)查研究文章進行了廣泛的定性和定量分析,并提出了研究領域和方法。最后強調(diào)了當前研究的局限性,并提出了一些需要注意的研究方向。
6參考
[1] Active SLAM: A Review On Last Decade
編輯:黃飛
?
評論
查看更多