機器人進行深度學習有何作用
大小:0.6 MB 人氣: 2017-09-29 需要積分:1
下載論文:arxiv.org/abs/1706.03741
我們相信,人工智能將是最重要、最廣泛有益的科學進步之一,人工智能幫助人類應對了一些最大的挑戰,例如應對氣候變化,提供先進醫療,等等。但是,為了讓AI實現它的效用,我們知道技術必須建立在負責任的基礎之上,我們也必須考慮所有潛在的挑戰和風險。
這就是為什么 DeepMind 作為共同創立者發起了一些機構,例如AI聯盟(Partnership on AI),旨在惠及人類和社會;以及為什么我們擁有一個致力于AI安全(AI Safety)的團隊。這一領域的研究需要開放、協作,以確保盡可能廣泛地采取最佳的實踐,這也是我們為什么與OpenAI合作開展AI安全技術研究的原因。
這個領域的一個核心問題是:我們如何允許人類去告訴系統我們希望它做什么,以及更重要的是,我們不希望它做什么。隨著我們利用機器學習處理的問題越來越復雜,以及這些技術在現實世界中得到應用,這個問題變得越來越重要。
DeepMind 和 OpenAI 合作的第一個結果證明了一種解決這個問題的方法:讓沒有技術經驗的人類來教給強化學習(RL)系統一個復雜目標。強化學習是通過反復的試驗和試錯學習的系統。這就消除了讓人類事先為算法指定一個目標的需要。這是一個重要的步驟,因為假如目標就算只出了一點點差錯也可能導致不良、甚至危險的行為。在某些情況下,只需要30分鐘的來自非專家的反饋就足以訓練我們的系統,包括教會系統一個全新的、復雜的行為,例如使模擬機器人做后空翻。
大約用了900條來自人類的反饋來教這個算法做后空翻
我們在新論文《利用人類偏好的深度強化學習》(Deep Reinforcement Learning from Human Preferences)描述了這個系統,它與經典的RL系統不同,經典的RL系統使用被作為“激勵預測器”(reward predictor)的神經網絡訓練智能體,而不是在智能體探索環境時收集的激勵。
在這里下載論文:arxiv.org/pdf/1706.03741.pdf
它包括3個并行運行的進程:
一個強化學習智能體探索它所處的環境(例如在Atari游戲中)并進行交互;
定期地,該智能體所做行為的1~2秒的兩個剪輯片段被發送給人類控制員,人類控制員需要在二者中選擇一個最能實現預期目標的行為;
人類的選擇被用于訓練激勵預測器,該預測器反過來又用于訓練智能體。隨著時間的推移,智能體學習最大限度地提高從預測器得到的獎勵,并根據人類的偏好改進自己的行為。
系統將學習目標與學習行為分開來實現
這種迭代學習的方法意味著人類可以發現和糾正智能體的任何不想要的行為,這是所有安全系統的關鍵部分。這樣的設計也不會給人類控制員帶來沉重的工作負擔,他們只需要檢查智能體的大約0.1%的行為,就能令其做他們希望的行為。但是,這仍然意味著要檢查幾百上千個剪輯片段,假如應用到現實世界的問題上,這個工作量是需要減少的。
人類控制員必須在兩個剪輯片段之間選一個。在這個例子中,對于Atari游戲Qbert而言,右邊的剪輯看起來是更好的行為(得分更高)
在Atari的Enduro游戲,要駕駛一輛汽車并超其他車,這很難通過傳統的RL網絡的試驗和試錯方法學習,加入人類反饋的方法最終使我們的系統實現了超過人類的結果。在其他游戲和模擬機器人的任務中,我們的方法與標準的RL設置表現相當,但在Qbert和Breakout等幾個游戲中,我們的方法根本不工作。
但是,這樣一個系統的最終目標是即使智能體不在環境中的情況下,也能允許人類來為智能體指定一個目標。為了測試,我們教智能體各種各樣的新行為,例如令它進行后空翻,單腿走路或在Enduro游戲中學習與另一輛車并排行駛,而不是為了得分去超車。
Enduro的正常目標是盡可能多地超車。但是在我們的系統中,我們可以訓練智能體實現不同的目標,比如與其他車輛并行
雖然這些測試得到了一些積極的結果,但其他測試顯示出其局限性。尤其是,如果在訓練初期停止人類的反饋,我們的設置很容易被獎勵黑掉。在這種情況下,智能體繼續探索所處環境,這意味著激勵預測器被迫在沒有反饋的情況繼續預測獎勵。 這可能會導致過高的獎勵,從而令智能體學習了錯誤的行為——往往是奇怪的行為。下面的視頻是一個例子,智能體發現,來回擊球是相比應分或失分更好的策略。
智能體的獎勵功能黑了,它決定來回擊球優于贏分或失分
了解這些缺陷對于確保我們避免故障,并構建按照預期行為的AI系統至關重要。
為了測試和增強這個系統,我們還有更多的工作要做。但是這個系統已經顯示了在創建可以由非專家用戶使用的系統的許多關鍵的第一步,它們所需的反饋量十分少,而且可以擴展到各種各樣的問題。
其他的探索領域可以是減少所需人類反饋的量,或使人類能夠通過自然語言界面提供反饋。這將標志著創建一個可以輕松學習人類行為復雜性的系統的顯著進步,也是創造與人類全面合作的AI的關鍵一步。
這項研究是 DeepMind 的 Jan Leike,Miljan Martic,Shane Legg 和 OpenAI 的 Paul Christiano,Dario Amodei 以及 Tom Brown 持續合作的一部分。
在 OpenAI 的 gym 復制后空翻實驗,使用如下獎勵函數:
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%