強化學習模型往往依賴對外部獎勵機制的精心設計,在模型訓練成本控制和可擴展性上都存在局限。OpenAI的研究人員提出一種新的強化學習模型訓練方式,以agent的“好奇心”作為內在獎勵函數,在訓練中無需外部獎勵,泛化性好,經過54種環境測試,效果拔群。
強化學習模型在很大程度上依賴于對agent的外在環境獎勵的精心設計。然而,用手工設計的密集獎勵來對每個環境進行標記的方式是不可擴展的,這就需要開發agent所固有的獎勵函數。好奇心就是一種內在的獎勵函數,它使用預測誤差作為獎勵信號。
在本文中,我們首次在54個標準基準測試環境(包括一系列Atari游戲)中進行了純粹基于好奇心驅動學習的大規模研究,不設置任何外在獎勵。得到的結果令人驚喜,而且表明內在的好奇心目標獎勵與許多游戲環境中手工設計的外在獎勵機制之間存在高度的一致性。
強化學習“好奇心”模型:訓練無需外部獎勵,全靠自己
我們研究了使用不同的特征空間來計算預測誤差的效果,并表明,隨機特征對于許多流行的強化學習游戲的基準測試來說已經足夠,但是已學習過的特征看起來似乎具備更高的泛化性。(比如可以遷移至《超級馬里奧兄弟》的新關卡中)。
我們對agent進行了大規模的實證研究,這些agent純粹通過各種模擬環境中的內在獎勵來驅動,這還是業界首次。特別是,我們選擇基于動力學的內在獎勵的好奇心模型。因為該模型具有很強的可擴展性和可并行性,因此非常適合大規模實驗使用。
圖1:本文研究中使用的54種環境的快照截圖集合。我們的研究表明,agent能夠只憑借好奇心,在沒有外部獎勵或結束信號的情況下取得進步。
相關視頻、結果、代碼和模型,見https://pathak22.github.io/large-scale-curiosity
我們的思路是,將內在獎勵表示為預測agent在當前狀態下的行為后果時出現的錯誤,即agent學習的前向動態的預測誤差。我們徹底調查了54種環境中基于動力學的好奇心:這些場景包括視頻游戲、物理引擎模擬和虛擬3D導航任務等,如圖1所示。
為了更好地理解好奇心驅動的學習,我們進一步研究了決定其表現的關鍵因素。對高維原始觀察空間(如圖像)中的未來狀態進行預測是一個極具挑戰性的問題,對輔助特征空間中的動態進行學習可以改善結果。
但是,如何選擇這樣一個嵌入空間是一個關鍵、未解決的研究問題。通過對系統的簡化,我們研究了用不同的方法對agent觀察到的信息進行編碼的作用,使得agent可以完全靠自身的好奇心機制做出良好的表現。
上圖是8種選定的Atari游戲和《超級馬里奧兄弟》的特征學習方法的比較。圖中的評估曲線顯示agent純粹通過好奇心訓練,在沒有外部獎勵和關卡結束信號的情況下,獲得的平均獎勵分數(包括標準誤差)。
我們看到,純粹以好奇心驅動的agent能夠在這些環境中收集獎勵,而無需在訓練中使用任何外部獎勵。
圖3:左:采用不同批規模的RF訓練方法的比較,訓練沒有使用外在獎勵。中:Juggling(Roboschool)環境中的球彈跳次數。 右:多人游戲Pong環境下的平均關卡長度
為了確保動態的穩定在線訓練,我們認為所需的嵌入空間應該:(1)在維度方面緊湊,(2)能夠保存觀測到的足夠信息,(3)是基于觀測信息的固定函數。
圖4:《超級馬里奧兄弟》游戲環境下的泛化實驗。 左圖所示為1-1關到1-2關的遷移結果,右圖為1-1關到1-3關的遷移結果。下方為源環境到目標環境的映射。 所有agent都的訓練過程中都沒有外在獎勵。
圖5:在使用終端外部獎勵+好奇心獎勵進行組合訓練時,Unity環境下的平均外在獎勵。 注意,只通過外部獎勵進行訓練的曲線值始終為零(表現為圖中最底部的直線)
我們的研究表明,通過隨機網絡對觀察結果進行編碼是一種簡單有效的技術,可以用于在許多流行的強化學習基準測試中建立好奇心模型。這可能表明,許多流行的強化學習視頻游戲測試并不像通常認為的那樣,在視覺上有那么高的復雜度。
有趣的是,雖然隨機特征對于許多流行的強化學習游戲的基準測試來說已經足夠了,但是已學習過的特征看起來似乎具備更高的可推廣性(比如推廣至《超級馬里奧兄弟》的新關卡中)。
上圖給出了所有Atari游戲環境下的表現結果。我們發現,用像素訓練的好奇心模型在任何環境中都表現不好,并且VAE特征的表現也不比隨機特征及逆動力學特征更好,甚至有時還更差。
此外,在55%的Atari游戲中,逆動態訓練特征比隨機特征的表現更好。分析表明,對好奇心進行建模的隨機特征是一個簡單而強大的基線標準,并且可能在一半的Atari游戲場景中表現良好。
小結
(1)我們對各種環境下的好奇心驅動模型進行了大規模的研究,這些場景包括:Atari游戲集、《超級馬里奧兄弟》游戲、Unity中的虛擬3D導航、Roboschool 環境等。
(2)我們廣泛研究了用于學習基于動力學的好奇心的不同特征空間,包括隨機特征,像素,反向動力學和變分自動編碼器,并評估這些空間在不可視環境下的可推廣性。
(3)局限性:我們觀察到,如果agent本身就是環境中隨機性的來源,它可以在未取得任何實際進展的情況下進行自我獎勵。我們在3D導航任務中憑經驗證明了這一局限性,在這類任務中,agent能夠控制環境的各個不同部分。
未來方向
我們提出了一種簡單且可擴展的方法,可以在不同的環境中學習非平凡的行為,而無需任何獎勵函數或結束信號。本文的一個令人驚訝的發現是隨機特征表現不錯,但已學習的特征似乎在可泛化性上更勝一籌。我們認為一旦環境足夠復雜,對特征的學習將變得更加重要,不過我們決定將這個問題留給未來。
我們更高的目標是,能夠利用許多未標記的(即沒有事先設計的獎勵函數)環境來改善面向感興趣的任務的性能。有鑒于此,在具備通用獎勵函數的環境中展示出很好的表現只是我們研究的第一步,未來的成果可能包括實現從未標記環境到標記環境的遷移。
-
Agent
+關注
關注
0文章
102瀏覽量
26640 -
強化學習
+關注
關注
4文章
263瀏覽量
11160
原文標題:強化學習下一步:OpenAI伯克利讓AI純憑“好奇心”學習!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論