精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

強化學習環境研究,智能體玩游戲為什么厲害

zhKF_jqr_AI ? 來源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:38 ? 次閱讀

強化學習作為一種常用的訓練智能體的方法,能夠完成很多復雜的任務。在強化學習中,智能體的策略是通過將獎勵函數最大化訓練的。獎勵在智能體之外,各個環境中的獎勵各不相同。深度學習的成功大多是有密集并且有效的獎勵函數,例如電子游戲中不斷增加的“分數”。然而,設計一個良好的獎勵函數需要付出大量精力。另一種方法是生成內部獎勵,即由智能體自身生成的獎勵。內部獎勵包括“好奇心”(把預測錯誤當做獎勵信號)和“訪問數目”(不鼓勵智能體訪問同樣的狀態)。這些內部獎勵正是為了填補稀疏的外部獎勵之間的空白。

但是,如果某個場景沒有任何外部獎勵怎么辦?這并不奇怪。發展心理學認為,內部獎勵(例如好奇心)是發展早期的重要驅動力:嬰兒在探索世界時并不會帶有過多的目的。的確,有證據表明,在某一環境中只用內部獎勵對智能體進行預訓練可以讓它們在新環境、新任務中調整得更快。但目前為止,目前還沒有系統的針對完全內部獎勵學習的研究。

在這篇論文中,我們對各類模擬環境中智能體的內部獎勵進行了大規模實證研究。特別是我們選擇了Pathak等人提出的動態好奇心模型中的內部獎勵,因為它可擴展,并且可并行計算,可以說是大型試驗的理想工具。研究的核心是給定智能體當前的狀態,觀察內部獎勵會在預測下一個動作時出現哪些錯誤。在研究中我們一共調查了54種環境:包括電子游戲,物理引擎模擬和虛擬3D導航任務。如圖1:

圖1

為了更好地理解好奇心驅動的學習,我們接著研究了決定其表現的關鍵因素。在高維原始觀察空間中(例如圖像)對未來狀態做預測是非常有挑戰性的工作,而且最近的研究表明,在輔助特征空間中的動態學習有助于提升結果。不過,如何選擇這樣的嵌入空間非常重要,目前還沒有確切的結論。經過系統的研究,我們檢查了對智能體觀察的不同編碼方法有何作用。為了保證訓練的穩定性,我們需要選擇好的特征空間,一個好的特征空間可以讓預測更容易,并且過濾掉與觀察環境無關的因素。但是對好奇心驅動的特征空間來說,都需要有哪些特征呢?

緊湊:在較低維度并且過濾掉與觀察空間不相關的部分之后,特征會更容易建模。

高效:特征應該包含所有重要的信息。否則,智能體在探索到相關信息后不會得到獎勵。

穩定:非靜態獎勵讓強化智能體學習起來有了難度。在基于動態的好奇心驅動環境中,非靜態的來源有兩個:前動態模型隨著時間不短發展,因為它在訓練時特征也在發生變化。前者是內部的,而后者應該盡量減小。

我們發現,在很多流行的強化學習中,用隨機網絡對觀察內容編碼是非常簡單且高效的技術。有趣的是,我們發現雖然隨機特征可以在訓練中表現良好,但是學習過的特征似乎比它更好。

除此之外,我們發現重要的一點是,游戲會將“done”作為結束的信號。如果沒有這一結束信號,很多雅達利游戲就變得很容易。例如,如果智能體活著,那么每一步的獎勵就是+1,如果死了就是0。比方在“打磚塊”游戲里,智能體要盡可能“活”得長一點,保持較高分數。如果得到了負獎勵,智能體會盡可能快速結束游戲。

知道了這一點,我們在研究時就不應該對智能體抱有偏見。在有限的設置中,避免死亡只是智能體的另一種應對方式,它只是為了不那么無聊。所以我們刪除了“done”,將智能體的得分與死亡信號分離開。實際上,我們的確發現,智能體在游戲中避免死亡是因為從游戲開頭總能遇到很多重復場景,它們已經能很好地預測下一步動作了,所以智能體會盡可能保持“生存”。這一發現在此前是被忽略的。

實驗

對48種雅達利環境進行分析的主要目的有三:

在沒有外部獎勵的游戲中,運行一個完全靠好奇心驅動的智能體時究竟發生了什么?

你能讓智能體做出哪些行為?

這些行為中,不同的特征學習變量有哪些影響?

為了回答這些問題,我們從一系列雅達利游戲開始。一種檢驗完全使用好奇心的智能體表現得如何的方法是看它能獲得多少外部獎勵。我們最終得到了8種游戲的平均外部獎勵分數(除去最右的馬里奧):

可以看出,大多數曲線都呈上升趨勢,這說明一個完全靠好奇心驅動的智能體可以通過學習獲得外部獎勵,即使沒有在訓練時運用外部獎勵。

除此之外,我們還在上圖中比較了馬里奧兄弟不同的特征學習表現。更多實驗結果請查看原論文的附錄。

討論

在這項研究中,我們對好奇心驅動的強化學習環境做了大量研究,包括雅達利游戲、超級瑪麗兄弟、虛擬3D、多人乒乓球等。其中對多種不同的特征空間進行了調查,包括隨機特征、像素、逆向動力學以及自動編碼器,并且評估了它們對陌生環境的泛化能力。

我們證明,經過訓練的智能體可以靠好奇心獎勵學習到有用的行為,它們可以不用獎勵玩雅達利游戲;馬里奧可以在沒有獎勵的情況下過11關;可以生成行走和玩雜技的動作;在雙人對戰的乒乓球游戲中可以生成對打模式。但是這也不總是成立的,在某些雅達利游戲中,它們的探索與外部獎勵不符。

另外,這一結果也證明了,在由人類設計的環境中,外部獎勵的目的可能是讓目標物體進行創新。游戲設計者創建的環境正是為了引導用戶。

但是,這里存在一個比較嚴肅的潛在限制是處理隨機動態,如果環境的轉換是隨機的,那么即使有一個完美的動態模型,獎勵也會成為過渡熵,智能體將會尋找熵值較高的過渡轉換。即使環境不是完全隨機的,不了學習算法造成的不可預測性、不良模型類別或局部觀察也會導致同樣問題。

未來,我們將證明我們可以利用無標簽的環境來提高任務的性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能體
    +關注

    關注

    1

    文章

    131

    瀏覽量

    10567
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11213

原文標題:強化學習新角度:智能體玩游戲為什么那么6?因為掛掉太無聊

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    [灌水]人不玩游戲智力會下降?!

      人不玩游戲智力會下降?!在我們成長的過程中,隔三岔五,總會聽到老師或者父母說,玩游戲沒有出路,小孩子應該學習古人“兩耳不聞窗外事,一心只讀圣賢書”。并有一對很經典、書卷味濃烈
    發表于 10-11 15:39

    解決玩游戲時卡屏、死機的現象

    解決玩游戲時卡屏、死機的現象造成玩游戲時屏幕容易卡住現象的原因通常有多種,但仔細總結一下,筆者發現最容易造成這種故障現象的因素主要有計算機電源無法給顯卡提供足夠的運行動力,或者主板無法為顯卡提供合適
    發表于 02-23 15:26

    電玩森林舞會、電玩游戲平臺

    廣西趣樂動漫專業搭建電玩森林舞會游戲平臺,別再沉迷電玩游戲了,馬上投資移動電玩城,盈利即刻翻!
    發表于 04-18 10:44

    電腦玩游戲不能全屏怎么辦 電腦玩游戲不能全屏解決方法

    電腦游戲都會有全屏模式,但是有時候電腦玩游戲不能全屏怎么辦呢?下面就給大家介紹一下電腦玩游戲不能全屏的解決方法。 1,敲擊鍵盤“win+r”組合鍵,打開運行窗口,輸入“regedit”按回車鍵打開
    發表于 08-17 11:48

    深度強化學習實戰

    測試)三、主講內容1:課程一、強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、多智能深度
    發表于 01-10 13:42

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工
    發表于 06-29 18:36 ?2.8w次閱讀

    超極本玩游戲怎么樣_超極本玩游戲好用嗎_超極本為什么那么貴

    不少朋友鐘情于超級本個性外觀是出色的便攜性,打算入手超級本,但很多朋友購買電腦主要目的是針對游戲,因此近期不少網友想要了解超級本玩游戲怎么樣?超極本玩游戲好嗎?等等類似問題,下面小編針對當下形勢而言為大家介紹超級本
    發表于 01-23 11:49 ?4789次閱讀

    人工智能機器學習強化學習

    強化學習智能系統從環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接
    發表于 05-30 06:53 ?1401次閱讀

    什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

    強化學習是人工智能基本的子領域之一,在強化學習的框架中,智能通過與環境互動,來
    的頭像 發表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b>有什么的致命缺陷?

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能強化學習算法,但是也有很多重要的應用場景牽涉到多個智能
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    如何測試強化學習智能適應性

    強化學習(RL)能通過獎勵或懲罰使智能實現目標,并將它們學習到的經驗轉移到新環境中。
    的頭像 發表于 12-24 09:29 ?3215次閱讀

    OPPOFindX玩游戲怎么樣

    OPPO Find X可以玩游戲嗎?作為OPPO今年力推的旗艦機型,OPPO Find X剛一發布,便憑借獨有的“全景屏+升降式攝像頭”設計打破了國內手機市場的靜寂!那么,OPPO Find X可以
    的頭像 發表于 07-03 15:05 ?1.3w次閱讀

    Ledring:用Arduino玩游戲

    電子發燒友網站提供《Ledring:用Arduino玩游戲.zip》資料免費下載
    發表于 11-14 11:24 ?0次下載
    Ledring:用Arduino<b class='flag-5'>玩游戲</b>

    Ledring用Arduino玩游戲

    電子發燒友網站提供《Ledring用Arduino玩游戲.zip》資料免費下載
    發表于 12-19 10:14 ?0次下載
    Ledring用Arduino<b class='flag-5'>玩游戲</b>

    如何使用 PyTorch 進行強化學習

    的計算圖和自動微分功能,非常適合實現復雜的強化學習算法。 1. 環境(Environment) 在強化學習中,環境是一個抽象的概念,它定義了智能
    的頭像 發表于 11-05 17:34 ?220次閱讀