欧美日韩精品不卡一区二区三区_国产精品视频一区二区三区_亚洲中文字幕无码第一区

強化學習是一種非常重要 AI 技術，它能使用獎勵（或懲罰）來驅動智能體（agents）朝著特定目標前進，比如它訓練的 AI 系統 AlphaGo 擊敗了頂尖圍棋選手，它也是 DeepMind 的深度 Q 網絡（DQN）的核心部分，它可以在多個 workers 之間分步學習，例如，在 Atari 2600 游戲中實現“超人”性能。

麻煩的是，強化學習框架需要花費大量時間來掌握一個目標，而且框架往往是不靈活和不總是穩定的。

但不用擔心，Google 近日發布了一個替代方案：基于 TensorFlow 的開源強化學習框架 Dopamine（多巴胺）。

Google 的博文中提到，這個基于 Tensorflow 的強化學習框架，旨在為 RL 的研究人員提供靈活性，穩定性和可重復性的研究。受到大腦中獎勵動機行為的主要成分的啟發，以及反映神經科學與強化學習研究之間強烈的歷史聯系，該平臺旨在實現可推動激進發現的思辨研究（speculative research）。此版本還包括一組闡明如何使用整個框架的 colabs。

除了強化學習框架的發布，谷歌還推出了一個網站（https://google.github.io/dopamine/baselines/plots.html），允許開發人員快速可視化多個智能體的訓練運行情況。他們希望，這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法，不管是漸進式還是激進式的想法。

以下為 Google 博客詳細內容，AI科技大本營編譯：

▌引入靈活和可重復的強化學習研究的新框架

強化學習（RL）研究在過去幾年中取得了許多重大進展。這些進步使得智能體可以以超人類級別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ，AlphaGo ，AlphaGo Zero 以及 Open AI Five。

具體而言，在 DQN 中引入 replay memories 可以利用以前的智能體經驗，大規模的分布式訓練可以在多個 workers 之間分配學習過程，分布式方法允許智能體模擬完整的分布過程，而不僅僅是模擬它們期望值，以學習更完整的圖景。這種類型的進展很重要，因為出現這些進步的算法還適用于其他領域，例如機器人技術。

通常，這種進步都來自于快速迭代設計（通常沒有明確的方向），以及顛覆既定方法的結構。然而，大多數現有的 RL 框架并沒有結合靈活性和穩定性以及使研究人員能夠有效地迭代 RL 方法，并因此探索可能沒有直接明顯益處的新研究方向。此外，從現有框架再現結果通常太耗時，這可能導致科學的再現性問題。

今天，我們推出了一個新的基于 Tensorflow 的框架，旨在為 RL 的研究人員提供靈活性、穩定性和可重復性。受到大腦中獎勵動機行為的主要成分的啟發，以及反映神經科學與強化學習研究之間強烈的歷史聯系，該平臺旨在實現可推動激進發現的思辨研究（speculative research）。此版本還包括一組闡明如何使用整個框架的 colabs。

▌易用性

清晰和簡潔是該框架設計中要考慮的兩個關鍵因素。我們提供更精簡的代碼（大約 15 個Python 文件），并且有詳細記錄。這是通過專注于 Arcade 學習環境（一個成熟的，易于理解的基準）和四個基于 value 的智能體來實現的：DQN，C51，一個精心策劃的 Rainbow 智能體的簡化版本，以及隱式分位數網絡（Implicit Quantile Network）智能體，這已在上個月的 ICML 大會上已經發表。我們希望這種簡潔性使研究人員能夠輕松了解智能體內部的運作狀況，并積極嘗試新的想法。

▌可重復性

我們對重復性在強化學習研究中的重要性特別敏感。為此，我們為代碼提供完整的測試覆蓋率，這些測試也可作為其他文檔形式。此外，我們的實驗框架遵循 Machado 等人給出的關于使用 Arcade 學習環境標準化經驗評估的建議。

▌基準測試

對于新的研究人員來說，能夠根據既定方法快速對其想法進行基準測試非常重要。因此，我們為 Arcade 學習環境支持的 60 個游戲提供四個智能體的完整培訓數據，可用作 Python pickle 文件（用于使用我們框架訓練的智能體）和 JSON 數據文件（用于與受過其他框架訓練的智能體進行比較）；我們還提供了一個網站，你可以在其中快速查看 60 個游戲中所有智能體的訓練運行情況。

下面展示我們在 Seaquest 上的 4 個代理的訓練情況，這是由 Arcade 學習環境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓練。x 軸表示迭代，其中每次迭代是 100 萬個游戲幀（4.5 小時的實時游戲）；y 軸是每場比賽獲得的平均分數。陰影區域顯示的是來自 5 次獨立運行的置信區間。

我們還提供已經訓練好的深度網絡，原始統計日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法，包括漸進式和激進式的想法。我們已經積極地將它用于我們的研究，并發現它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區做些貢獻。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

智能體

智能體

+關注

關注
1

文章
131

瀏覽量
10567
強化學習

強化學習

+關注

關注
4

文章
266

瀏覽量
11213
tensorflow

tensorflow

+關注

關注
13

文章
328

瀏覽量
60498

原文標題：Google發布“多巴胺”開源強化學習框架，三大特性全滿足

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

什么是深度強化學習?深度強化學習算法應用分析

什么是深度強化學習? 眾所周知，人類擅長解決各種挑戰性的問題，從低級的運動控制(如：步行、跑步、打網球)到高級的認知任務。

發表于 07-01 10:29 ?1398次閱讀

什么是深度<b class='flag-5'>強化學習</b>?深度<b class='flag-5'>強化學習</b>算法應用分析

深度學習框架TensorFlow&TensorFlow-GPU詳解

TensorFlow&TensorFlow-GPU：深度學習框架TensorFlow&TensorFlo

發表于 12-25 17:21

反向強化學習的思路

強化學習的另一種策略（二）

發表于 04-03 12:10

TensorFlow是什么

和 TPU（Tensor Processing Units）。Project Magenta 能夠使用強化學習模型生成音樂，運用了 TensorFlow。澳大利亞海洋生物學家使用了 TensorFlow

發表于 07-22 10:14

深度強化學習實戰

內容2:課程一： TensoRFlow入門到熟練：課程二：圖像分類：課程三：物體檢測：課程四：人臉識別：課程五：算法實現：1、卷積神經網絡CNN2、循環神經網絡RNN3、強化學習DRL4、對抗性生成

發表于 01-10 13:42

TensorFlow實戰之深度學習框架的對比

Google近日發布了TensorFlow 1.0候選版，這第一個穩定版將是深度學習框架發展中的里程碑的一步。自TensorFlow于2015年底正式

發表于 11-16 11:52 ?4551次閱讀

將深度學習和強化學習相結合的深度強化學習DRL

深度強化學習DRL自提出以來，已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo，將深度強化學習DRL成推上新的熱點和高度，成為人工智能歷史上一個新的里程碑。因此，深

發表于 06-29 18:36 ?2.8w次閱讀

TensorFlow的框架結構解析

TensorFlow是谷歌的第二代開源的人工智能學習系統，是用來實現神經網絡的內置框架學習軟件庫。目前，

發表于 04-04 14:39 ?7098次閱讀

人工智能機器學習之強化學習

強化學習是智能系統從環境到行為映射的學習，以使獎勵信號（強化信號）函數值最大，強化學習不同于連接主義學習中的監督

發表于 05-30 06:53 ?1401次閱讀

什么是強化學習？純強化學習有意義嗎？強化學習有什么的致命缺陷？

強化學習是人工智能基本的子領域之一，在強化學習的框架中，智能體通過與環境互動，來學習采取何種動作能使其在給定環境中的長期獎勵最大化，就像在上述的棋盤游戲寓言中，你通過與棋盤的互動來

發表于 07-15 10:56 ?1.8w次閱讀

谷歌推出新的基于Tensorflow的強化學習框架，稱為Dopamine

強化學習（RL）研究在過去幾年取得了許多重大進展。強化學習的進步使得 AI 智能體能夠在一些游戲上超過人類，值得關注的例子包括 DeepMind 攻破 Atari 游戲的 DQN，在圍棋中獲得矚目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 對戰人

發表于 08-31 09:20 ?3671次閱讀

Facebook開源Horizon主要是為了推進AI強化學習的發展

11月1日，Facebook開源了Horizon，一個由Facebook的AI研究人員、推薦系統專家和工程師共同搭建的強化學習平臺，其框架的構建工作開始于兩年半前，在過去一年中一直被Facebook內部使用。

發表于 11-05 09:34 ?831次閱讀

人工智能強化學習開源分享

電子發燒友網站提供《人工智能強化學習開源分享.zip》資料免費下載

發表于 06-20 09:27 ?1次下載

深度學習框架tensorflow介紹

深度學習框架tensorflow介紹深度學習框架TensorFlow簡介深度

發表于 08-17 16:11 ?2431次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環境的交互來學習如何做出決策，以最大化累積獎勵。PyTorch 是一個流行的開源機器

發表于 11-05 17:34 ?221次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

基于TensorFlow的開源強化學習框架 Dopamine

評論

什么是深度強化學習?深度強化學習算法應用分析

深度學習框架TensorFlow&TensorFlow-GPU詳解

反向強化學習的思路

TensorFlow是什么

深度強化學習實戰

TensorFlow實戰之深度學習框架的對比

將深度學習和強化學習相結合的深度強化學習DRL

TensorFlow的框架結構解析

人工智能機器學習之強化學習

什么是強化學習？純強化學習有意義嗎？強化學習有什么的致命缺陷？

谷歌推出新的基于Tensorflow的強化學習框架，稱為Dopamine

Facebook開源Horizon主要是為了推進AI強化學習的發展

人工智能強化學習開源分享

深度學習框架tensorflow介紹

如何使用 PyTorch 進行強化學習