精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI提出了一種回報設置方法RND

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-05 15:15 ? 次閱讀

摘要:眾所周知,強化學習的工作原理就是最大化策略預期回報。當智能體能輕而易舉地從環境中收集到密集回報時,算法很好用,效果也很好;但當環境中的回報非常稀疏時,模型往往會訓練失敗。再加上我們不可能為每個任務設計密集回報函數,在這些情況下,讓智能體以有針對性的方式探索環境是必要的。近日,OpenAI提出了一種回報設置方法RND,在雅達利游戲《蒙特祖瑪的復仇》里獲得了state-of-art的表現.

為什么是《蒙特祖瑪的復仇》?

強化學習是機器學習的一個子領域,它強調讓“智能體”學會如何基于環境而行動,以取得最大化的預期回報。為了模擬現實,游戲是現在訓練強化學習智能體的常用環境,因為它不僅能提供可交互的環境、直接的獎勵信號和游戲目標,還能模擬包括物理、社交等在內的現實場景。因此強化學習成果大多都以“XXX在XX游戲中達到了超人水平”結尾。

2013年,DeepMind提出DQN算法,被譽為強化學習的“開山鼻祖”。在那篇論文中,算法成功玩轉多款雅達利游戲,表現超出人類玩家平均水平。但其中有一個例外,就是《蒙特祖瑪的復仇》,這是唯一一款人類玩家平均得分4700,而DQN望塵莫及的游戲。

從那之后,《蒙特祖瑪的復仇》就成了強化學習算法的試金石,也被人視為探索進步的代名詞。

上圖是近幾年來使用不同算法的智能體在《蒙特祖瑪的復仇》中的得分,粉色虛線為人類平均得分。可以看到,在2016年,通過結合DQN和基于計數的探索回報,學界在這個游戲上取得了重大突破:智能體成功探索了15個房間,最高得分高達6600,平均得分也達到了3700。從那時起,研究人員們提出了不少高分算法,但它們的性能提升主要依賴人為示范,或是參考其他演示機器人。

顯然,這并不完全是人類的學習方式。人類探索世界有時是無目的的,有時是模仿他人,但更多時候是出于好奇心。既然手動為環境設置密集回報不現實,那么智能體能不能不依賴人,自發地去進行不可預測的探索呢?

用好奇心驅動學習

在開發RND之前,OpenAI的研究人員和加州大學伯克利分校的學者進行了合作,他們測試了在沒有環境特定回報的情況下,智能體的學習情況。因為從理論上來說,好奇心提供了一種更簡單的方法來教授智能體如何與各種環境進行交互,它不需要人為的回報設計。

根據當時的論文,他們在包括Atari游戲在內的54個標準基準測試環境中進行了大規模實驗,實驗結果出人意料:在某些環境中,智能體實現了游戲目標,即使游戲目標并沒有通過外在回報傳達給它,而且內在好奇心驅動的智能體和手動設置外在獎勵的表現高度一致。

下面是當時的一些實驗案例:

Pong(乒乓球):研究人員訓練了一個能同時控制兩個球拍的智能體,經過訓練,它學會了讓球在球拍之間保持長時間反彈。之后,這個智能體被放進對抗游戲中和另一個AI比賽,它雖然沒有輸贏意識,只是想拉長比賽時間,但表現非常好。

Bowling(保齡球):比起有最大化外在獎勵目標的智能體,好奇心智能體在這個游戲中的表現更好,對此,一個推測是當玩家擊倒最后一個球瓶時,游戲得分會閃爍一下,這干擾了智能體的預測。

Mario:在這個游戲里,研究人員設置的內在回報是通關,每到一個新房間,智能體就會獲得獎勵,因為新房間的詳細信息是無法預測的。在這種簡單設置下,智能體連通11關,找到了秘密房間,甚至還擊殺了boss。

在常規強化學習設置中,對于每個離散的時間步,智能體會先向環境發送一個action,然后由環境返回下一個observation、當前action得到的回報和結束指示。為了讓智能體探索未知領域,OpenAI要求環境只返回observation,不再提供回報信息,這就使智能體只能從自己的經驗中學習怎么預測下一步的環境狀態,并用預測誤差作為內在獎勵。

這就是“好奇心”的實現方式。舉個簡單的例子,同樣一個智能體,如果使用常規設置,它就只會關注游戲得分,只要分數能上升,它就學著去做;而如果用的是好奇心,它就會積極地和新對象佳偶,并發現其中有益的東西。比起預測其他環境因素,這種對象間的互動更難預測。

Noisy-TV問題

就像做作業的小學生容易被窗外飛過的花蝴蝶所吸引,好奇心也給智能體帶來了“注意力不夠集中”的問題——Noisy-TV。下面是一個例子:同一個智能體穿行在兩個不同的迷宮中,其中一個是正常的迷宮,另一個是有一面“電視墻”、上面正在播放視頻的迷宮:

正常迷宮

“電視墻”迷宮

在正常迷宮中,智能體一直在保持前進,而在“電視墻”迷宮中,智能體一看到視頻就“走不動路”了。對于像《蒙特祖瑪的復仇》這樣的大型復雜環境,這是好奇心智能體需要注意的一個重要問題。而對此,OpenAI提出了一種解決方法,就是讓智能體通過噪聲控制器控制環境,該控制器有一定概率讓智能體重復之前的最后一個動作,防止從舊房間到新房間的過渡變得不可預測。

集大成者:RND

從本質上看,Noisy-TV問題就是好奇心智能體對下一狀態的預測會固有的受當前環境噪聲影響,之前提到了,好奇心智能體的內在回報是預測誤差,誤差越小,回報越大。我們先來看看導致預測誤差過大的幾個因素:

因素1:當預測模型無法把之前的經驗推廣到當前時,預測誤差會很高——當前學到的經驗是新的。

因素2:如果預測目標是隨機的,預測誤差也會很高。

因素3:如果缺少預測所需的信息,或者目標函數太復雜而預測種類太受限,預測誤差也會很高。

在這三個中,因素1對智能體是有用的,因為它量化了經驗的新穎性。而因素2和3是導致Noisy-TV問題的元兇,為了避免這兩種情況,OpenAI提出了一種新的exploration回報RND:給定下一環境狀態,它能預測這個固定的、隨機初始化的神經網絡(預測模型)的輸出,如下圖所示。

這背后的思路是預測模型在類似訓練過的狀態中誤差較低。對于從沒見過的環境狀態,智能體對神經網絡的輸出預測會更不準確(因素1),這促進了探索。合成預測設計確保了預測目標的確定性和類別的適配,能有效防止Noisy-TV問題。

連接exploration回報和外部回報的OpenAI之前提出的近端策略優化(PPO)的變體,具體這里我們不再展開。下圖是智能體在玩《蒙特祖瑪的復仇》時獲得的內在回報的可視化:

未來發展

最后,研究人員表示對于設計性能更好的算法來說,Noisy-TV問題的易感性等重要因素還是非常重要。他們發現簡單算法中看似很小的細節,可能直接影響著智能體是不能走出第一個房間還是通過第一關。為了增加訓練穩定性,他們避免了特征的飽和,并將內在獎勵帶到了可預測的范圍。每次發現并修復錯誤,RND的性能都會有顯著提高。

他們建議未來研究人員可以在這幾方面繼續探索:

分析不同探索方法的好處,并找到結合它們的新方法。

在沒有回報的情況下,在多種不同環境中訓練好奇心智能體,使他們朝著目標靠近。

測試好奇心智能體的“大局觀”意識和長遠視角。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8377

    瀏覽量

    132406
  • 智能體
    +關注

    關注

    1

    文章

    131

    瀏覽量

    10567
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11213

原文標題:OpenAI新作:基于預測回報的強化學習

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種簡單的逆變器輸出直流分量消除方法

    逆變器輸出直流分量會對逆變器本身和交流負載產生不利影響,必須消除直流分量來保障逆變器的可靠運行。提出了一種簡單的消除輸出直流分量的方法,并在理論分析的基礎上,通過對1臺220V、1 kW的逆變器系統
    發表于 12-27 11:20

    一種基于FPGA的UART實現方法設計

    摘要:UART作為RS232協議的控制接口得到了廣泛的應用,將UART的功能集成在FPGA芯片中,可使整個系統更為靈活、緊湊,減小整個電路的體積,提高系統的可靠性和穩定性。提出了一種基于FPGA
    發表于 06-21 07:17

    請問有沒有一種提高A/D轉換分辨率的方法?

    本文提出了一種提高A/D轉換分辨率的方法,并給出了相應的理論分析和應用實例。
    發表于 04-12 06:17

    一種基于FPGA的微處理器的IP的設計方法

    本文根據FPGA的結構特點,圍繞在FPGA上設計實現八位微處理器軟核設計方法進行探討,研究了片上系統的設計方法和設計復用技術,并給出了指令集和其調試方法,
    發表于 04-29 06:38

    為什么要提出一種并行通信方法?并行通信方法有什么特點?

    為什么要提出一種并行通信方法?并行通信方法有什么特點?
    發表于 05-27 06:16

    淺談一種高斯隨機噪聲生成方法

    本文提出了一種面向硬件的均值、方差的高斯隨機噪聲生成方法。
    發表于 06-03 07:05

    求大佬分享一種基于JPEG2000的新型率控制方法

    通過對JPEG2000的分析,本文提出了一種通過估計率失真信息來控制碼率的方法
    發表于 06-04 06:45

    一種實用的混沌保密編碼方法

    一種實用的混沌保密編碼方法 基于實用符號動力學的基礎理論,提出了一種實用的混沌保密編碼方法,該方法
    發表于 11-18 10:55 ?10次下載

    一種特殊陣列實現DOA估計的方法

    一種特殊陣列實現DOA估計的方法:提出了一種基于特殊陣列形式實現doa估計的方法,在均勻線性陣列(UniformLinearArray,UL
    發表于 03-18 16:18 ?19次下載

    Boost電路的一種軟開關實現方法

    Boost電路的一種軟開關實現方法 摘要:提出了一種Boost電路軟開關實現方法,即同步整流加上電感電流反向。根據兩
    發表于 07-11 10:12 ?7879次閱讀
    Boost電路的<b class='flag-5'>一種</b>軟開關實現<b class='flag-5'>方法</b>

    一種全新的深亞微米IC設計方法

    一種全新的深亞微米IC設計方法 本文分析了傳統IC設計流程存在的些缺陷,并且提出了一種基于Logical Effort理論的全新IC設計
    發表于 12-27 13:28 ?690次閱讀
    <b class='flag-5'>一種</b>全新的深亞微米IC設計<b class='flag-5'>方法</b>

    從電路的角度出發,提出了一種新的SOC跨時鐘域同步電路設計的方法

    針對當前SOC內部時鐘越來越復雜、接口越來越多以及亞穩態、漏信號等常見的各種問題,分析了以往的優化方法的優缺點,然后從電路的角度出發,提出了一種新的SOC跨時鐘域同步電路設計的方法。
    的頭像 發表于 02-09 14:30 ?6656次閱讀
    從電路的角度出發,<b class='flag-5'>提出了</b><b class='flag-5'>一種</b>新的SOC跨時鐘域同步電路設計的<b class='flag-5'>方法</b>

    斯坦福大學提出了一種可以大幅降低區塊鏈存儲數據大小的方法

    斯坦福大學的應用加密學小組(ACG)提出了一種可以大幅降低區塊鏈存儲數據大小(約為十倍)的方法——Bulletproofs。ACG團隊認為,如果使用集合來進行交易驗證,并且縮減區塊的大小,那么就能夠實現
    發表于 10-18 12:49 ?2830次閱讀

    OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

    本文提出的迭代放大,是一種在確定性假設下為后續任務生成訓練假設的方法。實際上,雖然人類不能在全局上直接把握復雜的問題,但我們可以假設人類可以有效的評估復雜任務中的小塊任務是否符合要求
    的頭像 發表于 10-26 10:52 ?3243次閱讀

    英偉達提出了一種稱為安全力場的方法避免車輛碰撞

    SFF主要由兩個交通主體當前的狀態決定,它將描述其中個主體在另個主體出現時將如何行動,如果主體服從約束將避免不安全的碰撞發生。它在基本的碰撞規避層上提出了一種可計算機制,可以有效地
    的頭像 發表于 10-01 16:40 ?2805次閱讀