讓智能體自己學會穿衣服一直是個難題,除了對衣服的布料的材質模擬存在困難之外,穿衣過程中目標與衣服之間的頻繁復雜的交互也會導致計算成本過高。在Siggraph 2018上,研究人員試圖通過深度強化學習,將布料模擬融入學習框架,教機器人學會自己穿衣服!
隨著AI技術進步的日新月異,現在的機器人越來越智能,但不管是機器人還是虛擬模型,基本都處于“赤身裸體”的狀態,即便是穿了衣服,也是靠著外部的力量或幫助穿上的。
如何讓這些智能體學會自己穿衣服一直是個難題,因為衣服的布料多種多樣,材質性質各不相同,而且在穿衣過程中,衣服和身體會發生頻繁而復雜的相互作用。這兩點是解決“機器人學穿衣”過程中面臨的最大挑戰。
現在,研究人員正試圖攻克這個難題。在Siggraph 2018上的一篇論文《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning》中,來自佐治亞理工學院和谷歌大腦的研究團隊描述了他們如何利用人工智能,來教虛擬人如何自己穿衣服。
本文表明,AI能夠利用機器學習工具“自動發現強大的穿衣技能”,并設法訓練出強大的穿衣模型,盡管對衣服布料的模擬計算成本很高。
本文作者表示,讓AI 學會穿衣服的秘訣就是觸覺,可以用于動態調整AI的協調性,以適應褶皺、光滑、或材質詭異的布料。
研究概覽:將布料模擬融入深度強化學習框架
由于人和穿的衣服之間存在著復雜的相互作用,所以創建人物穿衣服的逼真動畫是很具有挑戰性的任務。我們采用無模型深度強化學習(deepRL)方法,實現自動發現由神經網絡表示的、高魯棒性的控制策略。
雖然深度強化學習方案在復雜運動技能的學習方面取得了一些成功,但學習算法的數據特征與實際任務所需的、計算成本高昂的衣服和布料模擬任務并不一致。
下面是研究人員制作的機器人穿衣視頻演示,一起來看看,一共有3種衣服喲!
本文首次證明,通過設計合適的輸入狀態空間和獎勵函數,可以把對布料的模擬結合到深度強化學習框架中,以便學習強大的穿衣控制策略。
我們利用觸覺信息的顯著表示,來指導虛擬人物穿衣的過程,并將其用于獎勵函數中,在訓練期間提供明確的學習信號。我們發現,為了學習涉及各種穿衣操作技能的長時間運動序列,比如“抓住T恤衫的邊緣”或者“拉袖子”,有必要將整個穿衣任務分成幾個子任務,并分別學習控制策略。
為此,本文引入了策略排序算法,該算法匹配從一個任務到輸出分布的輸出狀態的分布,用于序列中的下一個任務。我們已經使用這種方法為幾種穿衣任務生成角色控制器:即穿T恤,穿外套,以及在機器人輔助下穿袖子。
虛擬人在穿T恤衫、外套和醫院的防護服
將穿衣任務分割為多個子任務
我們提出了一個強化學習框架,來訓練虛擬角色在模擬環境中穿上衣服。我們的方法將穿衣任務分成一系列子任務,這些任務之間的轉換由一個狀態機實現指導。比如,穿上外套這個任務包括以下四個子任務:將袖子套在第一條手臂上,把第二條手臂向后伸,將第二只袖子套在手臂上,最后將身體重新轉到原來的靜止位置。
子任務控制器的獎勵權重
對于每個子任務,我們制定一個單獨的強化學習問題來學習控制策略。為了確保這些單獨的控制策略在按順序執行時能夠組成成功的穿衣序列,我們引入了一個策略排序算法,該算法將每個子任務的初始狀態分布與前一個子任務的最終狀態分布相匹配。
這樣得到的控制策略可以按照虛擬人與衣服的交互率實現按順序應用。在通過子任務完成標準的狀態機的轉換下,產生多種成功的穿衣動作。
排序控制策略
由于每個子任務都是作為一個單獨的穿衣過程而制定的,因此在轉換點上直接執行策略往往會失敗。 我們引入了一種策略排序算法,可確保不同策略之間的成功轉換,從而實現按需要延長序列的任務。該算法主要由兩個通道組成,在算法1偽代碼中表示。
策略排序算法示意
部分插入衣服(藍色圓柱體)的手臂相關計算的可視化呈現
虛擬人分別穿T恤、外套和醫院防護服的動作示意圖
最終研究政策的效果評估,x軸表示時間步長
在馬爾可夫決策過程(MDP)中的手臂伸進和靜止姿態的誤差量度的比較
研究結論和未來前景
我們提出了一個系統,通過使用強化學習和物理模擬,學習如何建立虛擬人物穿衣的動畫。在將整個穿衣任務劃分為可管理控制的多個子任務后,系統會單獨學習每個子任務,將這些任務與狀態機連接,并將每個子任務的輸入狀態分布與先前子任務的輸出分布相匹配。
我們發現,仔細選擇對布料觀察結果和獎勵函數,對于這種策略的成功非常重要。我們的方法的結果不僅僅是穿衣序列,而是一個可以在各種初始條件下實現成功穿衣的控制器。
盡管該系統在幾個穿衣任務上取得了成功,但仍有改進的余地。我們的系統目前執行的上半身的穿衣任務,要想將穿衣任務擴展至下半身,需要將平衡機制納入控制器。
雖然我們建立的衣服觀察空間足以完成所展示的任務,但是看看是否可以訓練端對端控制器,利用模擬視覺來確定衣服的狀態也是很有趣的事情。
我們的基于觸覺的觀察有助于跨越模擬效率和表示能力之間的鴻溝,但更完整的人體觸覺感知模型可能用于各種應用。
最后,使用具有存儲器的控制策略體系結構,可以減少必要子任務的數量,并將已學會的技能實現更大程度的推廣。
-
機器人
+關注
關注
210文章
28205瀏覽量
206525 -
強化學習
+關注
關注
4文章
266瀏覽量
11213 -
ai技術
+關注
關注
1文章
1257瀏覽量
24248
原文標題:SIGGRAPH2018論文:深度強化學習教機器人自己穿衣服!(附視頻)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論