在這篇博文中,伯克利人工智能實(shí)驗(yàn)室的科學(xué)家們將展示深度強(qiáng)化學(xué)習(xí)將如何控制機(jī)械臂的靈活動(dòng)作。另外還會(huì)討論如何用低成本的硬件,高效地使用強(qiáng)化學(xué)習(xí),以及如何能加速學(xué)習(xí)速度。以下是論智帶來的編譯。
為什么用機(jī)械抓手?
目前市面上大部分機(jī)器人都是用簡(jiǎn)單的抓手進(jìn)行控制,對(duì)工廠來說已經(jīng)足夠了。但是,對(duì)于非結(jié)構(gòu)化的、以人為中心的環(huán)境(例如家庭),能進(jìn)行多任務(wù)的操控器是非常重要的。多手指的機(jī)械手是最常見的操控器之一,它能完成多種日常生活中的動(dòng)作,例如移動(dòng)物體、開門、打字、繪畫等。
但是,控制靈活的機(jī)械手非常困難。其中精密的傳感器和驅(qū)動(dòng)器使得高級(jí)機(jī)械手價(jià)格很高。深度強(qiáng)化學(xué)習(xí)的出現(xiàn)能在便宜的硬件上實(shí)現(xiàn)復(fù)雜任務(wù)的自動(dòng)控制,但是很多深度強(qiáng)化學(xué)習(xí)應(yīng)用都需要大量模擬數(shù)據(jù),這讓他們?cè)诔杀竞桶惭b上都很復(fù)雜。人類可以快速學(xué)習(xí)各種動(dòng)作,無需大量的動(dòng)作示例。 我們首先會(huì)展示深度強(qiáng)化學(xué)習(xí)是如果通過在現(xiàn)實(shí)世界中的訓(xùn)練而用于學(xué)習(xí)復(fù)雜操控行為的,無需任何模型或模擬器,使用低廉的機(jī)器人硬件。之后,我們會(huì)展示加入額外的監(jiān)督機(jī)制,包括示范和模擬,從而能加速學(xué)習(xí)的時(shí)間。我們?cè)趦蓚€(gè)硬件平臺(tái)上進(jìn)行學(xué)習(xí):一個(gè)是有三根手指的簡(jiǎn)易機(jī)械手,價(jià)格不到2500美元。另一個(gè)是高級(jí)的Allegro機(jī)械手,價(jià)格為15000美元。
現(xiàn)實(shí)中的無模型強(qiáng)化學(xué)習(xí)
深度強(qiáng)化學(xué)習(xí)算法通過試錯(cuò)法進(jìn)行學(xué)習(xí),從經(jīng)驗(yàn)中將獎(jiǎng)勵(lì)函數(shù)最大化。我們將用一個(gè)氣門轉(zhuǎn)動(dòng)任務(wù)當(dāng)做示范,閥門或者水龍頭必須旋轉(zhuǎn)180°才能開啟。
獎(jiǎng)勵(lì)函數(shù)僅僅是目前閥門的方向和目標(biāo)位置之間的負(fù)面距離,機(jī)器人手臂必須自己思考如何移動(dòng)旋轉(zhuǎn)。深度強(qiáng)化學(xué)習(xí)的中心問題是如何利用微弱的獎(jiǎng)勵(lì)信號(hào)找到能讓該任務(wù)成功的復(fù)雜且協(xié)調(diào)的行為策略。該策略由一個(gè)多層神經(jīng)網(wǎng)絡(luò)表示,通常這需要大量實(shí)驗(yàn),由于數(shù)量太多,領(lǐng)域內(nèi)專業(yè)人士都在討論深度強(qiáng)化學(xué)習(xí)方法能否用于模擬之外的訓(xùn)練。然而,這樣會(huì)對(duì)模型的可用性施加很多限制:在現(xiàn)實(shí)環(huán)境中直接學(xué)習(xí)可以從經(jīng)驗(yàn)中學(xué)到任意一種任務(wù),然而用使用模擬器則需要設(shè)計(jì)合適的示例,對(duì)任務(wù)和機(jī)器人進(jìn)行建模,并仔細(xì)調(diào)整它們的參數(shù),以實(shí)現(xiàn)良好結(jié)果。首先,我們將證明現(xiàn)有的強(qiáng)化學(xué)習(xí)算法是可以直接在真是硬件上直接學(xué)習(xí)這一任務(wù)的。
我們用Truncated Natural Policy Gradient來學(xué)習(xí)這一任務(wù),在真實(shí)硬件上需要大約9個(gè)小時(shí)。
直接的強(qiáng)化學(xué)習(xí)方法很有吸引力,它無需過多假設(shè),而且能自動(dòng)掌握很多技能。由于這種方法除了建立函數(shù)無需其他信息,所以很容易在改進(jìn)后的環(huán)境中重新學(xué)習(xí)技能,例如更換了目標(biāo)物體或機(jī)械手。
下圖用了不同的材料(海綿),也能使用一樣的方法讓機(jī)械手學(xué)習(xí)旋轉(zhuǎn)閥門。如果用模擬法,很難精確學(xué)習(xí),而直接在現(xiàn)實(shí)中訓(xùn)練可以不需要精確的示范。
另一個(gè)任務(wù)是在水平平面上翻轉(zhuǎn)180°的板子,在沒有模擬案例的情況下,用了8小時(shí)解決了這一問題。
這些行為都是在不到2500美元的設(shè)備上實(shí)現(xiàn)的,另外還有一臺(tái)定制的臺(tái)式機(jī)。
用人類示范加速學(xué)習(xí)
無需模型的強(qiáng)化學(xué)習(xí)可以很通用,但是假如人類專家在其中加入監(jiān)督,將更有助于學(xué)習(xí)速度的加快。具體方法可以參考我們的論文Demonstration Augmented Policy Gradient(DAPG)。DAPG背后的思想是,人類示范可以從兩方面加速強(qiáng)化學(xué)習(xí):
通過行為克隆對(duì)策略提供好的初始狀態(tài)
在學(xué)習(xí)過程中添加輔助學(xué)習(xí)信號(hào),用輔助獎(jiǎng)勵(lì)引導(dǎo)研究探索
強(qiáng)化學(xué)習(xí)中的輔助目標(biāo)能阻止策略在強(qiáng)化學(xué)習(xí)過程中偏離示范。用有限的數(shù)據(jù)克隆的純粹行為通常無法訓(xùn)練成功的策略,因?yàn)榉植计詈陀邢薜臄?shù)據(jù)支持。強(qiáng)化學(xué)習(xí)對(duì)魯棒性和泛化很重要,利用示范的確可以加速學(xué)習(xí)過程。下圖是我們?cè)诓煌蝿?wù)上做出的驗(yàn)證:
在現(xiàn)實(shí)世界,我們能用帶有多功能傳感器的抓手和算法顯著加快學(xué)習(xí)速度。下面的示例中,是人類老師直接移動(dòng)機(jī)器人的手指,結(jié)果將訓(xùn)練時(shí)間減少到了4個(gè)小時(shí)以下。
示范將人類的先驗(yàn)知識(shí)用一種自然的方式結(jié)合到了算法中,并且加速學(xué)習(xí)過程。然而,并不是所有任務(wù)都能用示范加速,我們還需要尋找其他替代的加速方法。
通過模仿加速學(xué)習(xí)
某種任務(wù)的模擬模型能通過大量的模擬數(shù)據(jù)對(duì)顯示數(shù)據(jù)進(jìn)行增強(qiáng)。對(duì)于要表示現(xiàn)實(shí)世界復(fù)雜性的莫數(shù)據(jù),通常需要對(duì)多種模擬參數(shù)進(jìn)行隨機(jī)選擇。此前的研究證明這樣的隨機(jī)結(jié)果有助于產(chǎn)生穩(wěn)定的策略,可以用于人臉的遷移。我們的實(shí)驗(yàn)也證明了用隨機(jī)數(shù)據(jù)從模擬到現(xiàn)實(shí)的遷移很有效。
雖然對(duì)脆弱的機(jī)器人來說,通過隨機(jī)化進(jìn)行遷移是很不錯(cuò)的選擇,但這種方法會(huì)有幾點(diǎn)弊端。首先,由于是隨機(jī)的,最終策略會(huì)過于保守。另外,參數(shù)的選擇也是產(chǎn)生好結(jié)果的重要一點(diǎn),某一領(lǐng)域中好的結(jié)果也許不能遷移到其他領(lǐng)域中,第三,在復(fù)雜模型中增加了大量隨機(jī)的結(jié)果,會(huì)使得訓(xùn)練時(shí)間大大增加,也需要更多計(jì)算量。最后,可能也是最重要的一點(diǎn),一個(gè)精準(zhǔn)的模擬器必須手動(dòng)搭建,進(jìn)行每項(xiàng)新任務(wù)時(shí)都要手動(dòng)調(diào)整,需要很多時(shí)間。
用學(xué)習(xí)過的模型加速學(xué)習(xí)
此前,我們同樣研究了經(jīng)過學(xué)習(xí)的動(dòng)態(tài)模型是如何加速現(xiàn)實(shí)中強(qiáng)化學(xué)習(xí)的,同時(shí)無需手動(dòng)調(diào)整模擬器。用這種方法,動(dòng)態(tài)模型中的局部導(dǎo)數(shù)能近似計(jì)算出來,可以對(duì)局部進(jìn)行迭代優(yōu)化策略。這種方法能從現(xiàn)實(shí)中獲得多種隨時(shí)可用的操控策略。另外,我們可以看到算法還能在軟體機(jī)器人抓手上學(xué)會(huì)控制動(dòng)作。
然而,這種方法的表現(xiàn)也受到模型質(zhì)量的影響,未來會(huì)朝著基于模型的強(qiáng)化學(xué)習(xí)的方向研究。
結(jié)語
雖然現(xiàn)實(shí)環(huán)境中的訓(xùn)練很普遍,但它仍有幾處挑戰(zhàn):
由于需要進(jìn)行大量探索行為,我們發(fā)現(xiàn)機(jī)械抓手很快就會(huì)發(fā)熱,所以需要時(shí)間暫停,以免造成損壞。
由于抓手要處理多種任務(wù),我們需要搭建一個(gè)自動(dòng)重啟裝置。未來如果想取消這一裝置,就需要自動(dòng)學(xué)習(xí)如何重啟了。
強(qiáng)化學(xué)習(xí)方法需要提供獎(jiǎng)勵(lì),而這一獎(jiǎng)勵(lì)需要手動(dòng)設(shè)計(jì)。最近我們正在研究自動(dòng)獎(jiǎng)勵(lì)機(jī)制。
但是,讓機(jī)器人直接從真實(shí)世界學(xué)習(xí)復(fù)雜技巧是創(chuàng)建完全通用的機(jī)器人的必經(jīng)之路。和人類學(xué)習(xí)一樣,機(jī)器人也可以通過簡(jiǎn)單的試錯(cuò)獲取技巧。同時(shí)加上示范、模擬器和先驗(yàn)知識(shí),可以大大減少訓(xùn)練時(shí)間。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4765瀏覽量
100563 -
機(jī)械臂
+關(guān)注
關(guān)注
12文章
510瀏覽量
24499 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
266瀏覽量
11220
原文標(biāo)題:強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)例:讓機(jī)械手靈活多變的高效通用法
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論