精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

強化學習“好奇心”模型:訓練無需外部獎勵,全靠自己

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-20 08:55 ? 次閱讀

強化學習模型往往依賴對外部獎勵機制的精心設計,在模型訓練成本控制和可擴展性上都存在局限。OpenAI的研究人員提出一種新的強化學習模型訓練方式,以agent的“好奇心”作為內在獎勵函數,在訓練中無需外部獎勵,泛化性好,經過54種環境測試,效果拔群。

強化學習模型在很大程度上依賴于對agent的外在環境獎勵的精心設計。然而,用手工設計的密集獎勵來對每個環境進行標記的方式是不可擴展的,這就需要開發agent所固有的獎勵函數。好奇心就是一種內在的獎勵函數,它使用預測誤差作為獎勵信號。

在本文中,我們首次在54個標準基準測試環境(包括一系列Atari游戲)中進行了純粹基于好奇心驅動學習的大規模研究,不設置任何外在獎勵。得到的結果令人驚喜,而且表明內在的好奇心目標獎勵與許多游戲環境中手工設計的外在獎勵機制之間存在高度的一致性。

強化學習“好奇心”模型:訓練無需外部獎勵,全靠自己

我們研究了使用不同的特征空間來計算預測誤差的效果,并表明,隨機特征對于許多流行的強化學習游戲的基準測試來說已經足夠,但是已學習過的特征看起來似乎具備更高的泛化性。(比如可以遷移至《超級馬里奧兄弟》的新關卡中)。

我們對agent進行了大規模的實證研究,這些agent純粹通過各種模擬環境中的內在獎勵來驅動,這還是業界首次。特別是,我們選擇基于動力學的內在獎勵的好奇心模型。因為該模型具有很強的可擴展性和可并行性,因此非常適合大規模實驗使用。

圖1:本文研究中使用的54種環境的快照截圖集合。我們的研究表明,agent能夠只憑借好奇心,在沒有外部獎勵或結束信號的情況下取得進步。

相關視頻、結果、代碼和模型,見https://pathak22.github.io/large-scale-curiosity

我們的思路是,將內在獎勵表示為預測agent在當前狀態下的行為后果時出現的錯誤,即agent學習的前向動態的預測誤差。我們徹底調查了54種環境中基于動力學的好奇心:這些場景包括視頻游戲、物理引擎模擬和虛擬3D導航任務等,如圖1所示。

為了更好地理解好奇心驅動的學習,我們進一步研究了決定其表現的關鍵因素。對高維原始觀察空間(如圖像)中的未來狀態進行預測是一個極具挑戰性的問題,對輔助特征空間中的動態進行學習可以改善結果。

但是,如何選擇這樣一個嵌入空間是一個關鍵、未解決的研究問題。通過對系統的簡化,我們研究了用不同的方法對agent觀察到的信息進行編碼的作用,使得agent可以完全靠自身的好奇心機制做出良好的表現。

上圖是8種選定的Atari游戲和《超級馬里奧兄弟》的特征學習方法的比較。圖中的評估曲線顯示agent純粹通過好奇心訓練,在沒有外部獎勵和關卡結束信號的情況下,獲得的平均獎勵分數(包括標準誤差)。

我們看到,純粹以好奇心驅動的agent能夠在這些環境中收集獎勵,而無需在訓練中使用任何外部獎勵。

圖3:左:采用不同批規模的RF訓練方法的比較,訓練沒有使用外在獎勵。中:Juggling(Roboschool)環境中的球彈跳次數。 右:多人游戲Pong環境下的平均關卡長度

為了確保動態的穩定在線訓練,我們認為所需的嵌入空間應該:(1)在維度方面緊湊,(2)能夠保存觀測到的足夠信息,(3)是基于觀測信息的固定函數。

圖4:《超級馬里奧兄弟》游戲環境下的泛化實驗。 左圖所示為1-1關到1-2關的遷移結果,右圖為1-1關到1-3關的遷移結果。下方為源環境到目標環境的映射。 所有agent都的訓練過程中都沒有外在獎勵。

圖5:在使用終端外部獎勵+好奇心獎勵進行組合訓練時,Unity環境下的平均外在獎勵。 注意,只通過外部獎勵進行訓練的曲線值始終為零(表現為圖中最底部的直線)

我們的研究表明,通過隨機網絡對觀察結果進行編碼是一種簡單有效的技術,可以用于在許多流行的強化學習基準測試中建立好奇心模型。這可能表明,許多流行的強化學習視頻游戲測試并不像通常認為的那樣,在視覺上有那么高的復雜度。

有趣的是,雖然隨機特征對于許多流行的強化學習游戲的基準測試來說已經足夠了,但是已學習過的特征看起來似乎具備更高的可推廣性(比如推廣至《超級馬里奧兄弟》的新關卡中)。

上圖給出了所有Atari游戲環境下的表現結果。我們發現,用像素訓練的好奇心模型在任何環境中都表現不好,并且VAE特征的表現也不比隨機特征及逆動力學特征更好,甚至有時還更差。

此外,在55%的Atari游戲中,逆動態訓練特征比隨機特征的表現更好。分析表明,對好奇心進行建模的隨機特征是一個簡單而強大的基線標準,并且可能在一半的Atari游戲場景中表現良好。

小結

(1)我們對各種環境下的好奇心驅動模型進行了大規模的研究,這些場景包括:Atari游戲集、《超級馬里奧兄弟》游戲、Unity中的虛擬3D導航、Roboschool 環境等。

(2)我們廣泛研究了用于學習基于動力學的好奇心的不同特征空間,包括隨機特征,像素,反向動力學和變分自動編碼器,并評估這些空間在不可視環境下的可推廣性。

(3)局限性:我們觀察到,如果agent本身就是環境中隨機性的來源,它可以在未取得任何實際進展的情況下進行自我獎勵。我們在3D導航任務中憑經驗證明了這一局限性,在這類任務中,agent能夠控制環境的各個不同部分。

未來方向

我們提出了一種簡單且可擴展的方法,可以在不同的環境中學習非平凡的行為,而無需任何獎勵函數或結束信號。本文的一個令人驚訝的發現是隨機特征表現不錯,但已學習的特征似乎在可泛化性上更勝一籌。我們認為一旦環境足夠復雜,對特征的學習將變得更加重要,不過我們決定將這個問題留給未來。

我們更高的目標是,能夠利用許多未標記的(即沒有事先設計的獎勵函數)環境來改善面向感興趣的任務的性能。有鑒于此,在具備通用獎勵函數的環境中展示出很好的表現只是我們研究的第一步,未來的成果可能包括實現從未標記環境到標記環境的遷移。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Agent
    +關注

    關注

    0

    文章

    102

    瀏覽量

    26640
  • 強化學習
    +關注

    關注

    4

    文章

    263

    瀏覽量

    11160

原文標題:強化學習下一步:OpenAI伯克利讓AI純憑“好奇心”學習!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Microchip Technology的好奇心板的新設計

    ,制造商以及尋求功能豐富的快速原型開發板的用戶。它包括一個集成的編程器/調試器,無需額外的硬件即可開始使用。好奇心HPC是評估Microchip現代8位PIC單片機的絕佳工具。開箱即用,開發板提供多種用戶
    發表于 10-31 11:55

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環境部署 電腦
    發表于 01-10 13:42

    深度強化學習是什么?有什么優點?

    與監督機器學習不同,在強化學習中,研究人員通過讓一個代理與環境交互來訓練模型。當代理的行為產生期望的結果時,它得到正反饋。例如,代理人獲得一個點數或贏得一場比賽的
    發表于 07-13 09:33 ?2.5w次閱讀
    深度<b class='flag-5'>強化學習</b>是什么?有什么優點?

    如何構建強化學習模型訓練無人車算法

    本文作者通過簡單的方式構建了強化學習模型訓練無人車算法,可以為初學者提供快速入門的經驗。
    的頭像 發表于 11-12 14:47 ?4776次閱讀

    機器人擁有好奇心會讓機器人變得更加聰明

    擁有人類探索世界的好奇心,是讓機器人變得更加聰明的關鍵因素之一。德國波鴻大學的人工好奇心專家瓦倫康培拉指出,好奇的系統“不滿足于只學習一種任務,而是希望同時
    發表于 06-11 09:24 ?3099次閱讀

    好奇心對于學習人工智能有幫助嗎

    好奇心或進化驅動的人工智能體可應用于學習的早期階段,也更適合缺乏大量數據的零散環境。
    發表于 07-01 15:30 ?427次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    模型強化學習(Mode- based reinforcement Lear-ning)和無模型強化學習( Model- ree reirη forcement Learning)。
    發表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無<b class='flag-5'>模型</b><b class='flag-5'>強化學習</b>算法及研究綜述

    模型化深度強化學習應用研究綜述

    強化學習。無模型強仳學習方法的訓練過程需要大量樣本,當采樣預算不足,無法收集大量樣本時,很難達到預期效果。然而,模型
    發表于 04-12 11:01 ?9次下載
    <b class='flag-5'>模型</b>化深度<b class='flag-5'>強化學習</b>應用研究綜述

    基于強化學習的虛擬場景角色乒乓球訓練

    基于強化學習的虛擬場景角色乒乓球訓練
    發表于 06-27 11:34 ?62次下載

    強化學習的基礎知識和6種基本算法解釋

    定標記訓練數據的情況下獲得正確的輸出 無監督學習(UL):關注在沒有預先存在的標簽的情況下發現數據中的模式 強化學習(RL) : 關注智能體在環境中如何采取行動以最大化累積獎勵 通俗地
    的頭像 發表于 12-20 14:00 ?1024次閱讀

    徹底改變算法交易:強化學習的力量

    強化學習(RL)是人工智能的一個子領域,專注于決策過程。與其他形式的機器學習相比,強化學習模型通過與環境交互并以獎勵或懲罰的形式接收反饋來
    發表于 06-09 09:23 ?460次閱讀

    ICLR 2023 Spotlight|節省95%訓練開銷,清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2

    模型時代,模型壓縮和加速顯得尤為重要。傳統監督學習可通過稀疏神經網絡實現模型壓縮和加速,那么同樣需要大量計算開銷的強化學習任務可以基于稀疏
    的頭像 發表于 06-11 21:40 ?569次閱讀
    ICLR 2023 Spotlight|節省95%<b class='flag-5'>訓練</b>開銷,清華黃隆波團隊提出<b class='flag-5'>強化學習</b>專用稀疏<b class='flag-5'>訓練</b>框架RLx2

    強化學習的基礎知識和6種基本算法解釋

    來源:DeepHubIMBA強化學習的基礎知識和概念簡介(無模型、在線學習、離線強化學習等)機器學習(ML)分為三個分支:監督
    的頭像 發表于 01-05 14:54 ?811次閱讀
    <b class='flag-5'>強化學習</b>的基礎知識和6種基本算法解釋

    石墨烯之父——安德烈·海姆,好奇心驅使下的幽默大師和創新者

    安德烈·海姆教授是卓越科學家,被譽為“石墨烯之父”,獲諾貝爾物理學獎,對石墨烯材料有重大貢獻。他重視好奇心,鼓勵將好奇心集中在研究領域。他認為石墨烯是一種非常年輕的材料,未來有著無限的可能性,可以應用于電池、光照材料、冷卻LED等方面。保持
    的頭像 發表于 10-31 21:36 ?686次閱讀
    石墨烯之父——安德烈·海姆,<b class='flag-5'>好奇心</b>驅使下的幽默大師和創新者

    Victor Labián Carro:以好奇心成就 RISC-V 職業成功之路

    自己對于邏輯、數學和工程的好奇心變成了他喜歡的技術職業。最近,他通過獲得RVFA(RISC-VFoundationalAssociate)認證展示了他的熱情,這是他
    的頭像 發表于 09-10 08:08 ?129次閱讀
    Victor Labián Carro:以<b class='flag-5'>好奇心</b>成就 RISC-V 職業成功之路