人們非常擅長操作物體,而無需將視角調整到某一固定或特定位置。這種能力(稱為視覺動作整合)在孩童時期通過在各種情境中操作物體而習得,并由一種利用豐富的感官信號和視覺作為反饋的自適應糾錯機制控制。不過,對于機器人技術中基于視覺的控制器而言,想要具備這種能力卻十分困難。
直到現在,這種控制器都基于一種用于從固定安裝式攝像頭讀取視覺輸入數據的固定裝置,訓練和測試過程中不能移動或重新調整攝像頭的位置。在視角大幅變化的情況下快速獲取視覺運動控制技能的能力將對自主機器人系統產生重大影響。例如,這種能力對于參與緊急情況或災區救援工作的機器人來說尤其必要。
在本周的 CVPR 2018 大會上,我們提交了名為“Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control”的論文。在這篇論文中,我們研究了一種新型深度網絡架構(由兩個完全卷積網絡和一個長短期記憶單元組成),該架構可以從過去的動作和觀察結果學習以進行自校準。我們的視覺適應網絡利用由演示軌跡和強化學習目標組成的各種模擬數據,能夠從各種視角控制機械臂到達各種視覺指示目標,并且不依賴于攝像頭校準。
用物理機械臂到達視覺指示目標的視角不變操作
我們學習了一種策略,可以通過從截然不同的攝像頭視角捕獲的感官輸入到達不同的目標
第一行所示為視覺指示目標
挑戰
通過從未知視角捕獲的單一圖像分析可控自由程度(DoF) 對視覺運動的影響可能不夠明確和具體。確定動作對圖像-空間運動的影響并成功執行所需的任務需要一個具備對過去動作的記憶能力的強大感知系統。要解決這一具有挑戰性的問題,我們必須解決以下基本問題:
? 如何提供適當的經驗,讓機器人在模擬終身學習范式的純視覺觀察的基礎上學習自適應行為?
? 如何設計一個集強大感知和自適應控制于一體并能夠快速轉移到未知環境的模型?
為此,我們設計了一個新的操作任務,為一個七自由度機械臂提供一種物體的圖像,并指示它在一系列干擾物中拿到特定的目標物體,同時每一次試驗的視角會發生巨大變化。通過這種方式,我們能夠模擬復雜行為的學習以及向未知環境的轉移。
用物理機械臂和各種攝像頭視角完成到達視覺指示目標的任務
利用模擬學習復雜行為
收集機器人經驗數據費時費力。在之前的博文中,我們展示了如何通過將數據收集和試驗分配給多個機器人來擴展學習技能。盡管這種方法加快了學習速度,但學習視覺自校準等復雜行為仍然不可行,學習復雜行為時需要我們將機器人置于包含各種視角的大型空間中。
因此,我們選擇在模擬中學習此類復雜行為,我們可以收集無限的機器人試驗數據,并輕松將攝像頭移到各個隨機視角。除了在模擬中快速收集數據外,我們還可以擺脫在機器人周圍安裝多個攝像頭的硬件限制。
我們在模擬中使用域隨機化技術來學習可泛化的策略。
為了學習要向未知環境轉移的強大視覺特征,我們使用了Sadeghi & Levine在 2017 年提出的一項稱為“域隨機化”(又名“模擬隨機化”)的技術,使機器人能夠完全在模擬中學習基于視覺的策略,從而可以泛化到現實世界。這項技術已被證明適用于各種機器人任務,例如室內導航、物體定位以及挑選和放置等。此外,為了學習自校準等復雜行為,我們利用模擬功能來生成合成演示并結合強化學習目標來學習強大的機械臂控制器。
用模擬的七自由度機械臂到達視覺指示目標的視角不變操作
我們學習了一種策略,可以通過從截然不同的攝像頭視角捕獲的感官輸入到達不同的目標
將感知與控制分離
為了能夠快速轉移到未知環境中,我們設計了一個深度神經網絡,將感知和控制相結合,并同時進行端到端訓練,且在必要情況下允許二者分別進行學習。將感知與控制分離讓轉移到未知環境變得容易,并且使得模型既靈活又高效,因為它的每個部分(即“感知”或“控制”)可以使用少量數據單獨適應新環境。
另外,雖然網絡的控制部分完全使用模擬數據訓練,但網絡的感知部分通過用物體邊界框收集少量靜態圖像來補充,而不需要用物理機器人收集整個動作序列軌跡。在實踐中,我們只用了來自 22 個圖像的 76 個物體邊界框來微調網絡的感知部分。
現實世界的機器人和移動攝像頭設置第一行所示為場景布置,第二行為機器人的視覺感官輸入
早期結果
我們在物理機器人和真實物體上測試了視覺適應版本的網絡,這些物體的外觀與模擬中使用的完全不同。在實驗中,桌子上會出現一個或兩個物體 -“見過的物體”(如下圖所示)用于視覺適應,實驗中使用的是小型靜態真實圖像集。在視覺適應期間沒有看到“未見過的物體”。在測試過程中,指示機械臂從各個視角到達視覺指示物體。對于雙物體實驗,第二個物體用于“迷惑”機械臂。由于純模擬網絡具有良好的泛化能力(因為它是使用域隨機化技術進行訓練的),加上我們的網絡架構非常靈活,因此,雖然實驗中僅收集了非常少量的靜態視覺數據用于視覺適應,控制器的表現仍然有了很大提升。
在使用少量真實圖像進行視覺特征適應后,性能提高了10% 以上。使用的所有真實物體都與模擬中看到的物體截然不同。
我們認為,學習在線視覺自適應是一個重要而又具有挑戰性的課題,其目標是學習可泛化策略,讓機器人能夠在多樣化、非結構型現實世界中運行。我們的方法可以延伸到任何類型的自動自校準。
-
控制器
+關注
關注
112文章
16204瀏覽量
177420 -
機器人
+關注
關注
210文章
28210瀏覽量
206544
原文標題:教未校準的機器人實現視覺自適應
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論