手机在线看永久AV片免费-自拍偷自拍亚洲精品情侣-欧美人与动人物牲交免费观看-亚洲精品亚洲人成在线-国产精品视频一区二区三区四

我們探索構建通用強化學習環境中的生成式神經網絡模型。我們的世界模型（world model）可以以一種無監督的方式進行快速訓練，以學習環境的壓縮時空表征。通過使用從世界模型中提取的特征作為智能體的輸入，我們可以對一個非常簡潔且簡單的策略進行訓練，以解決所需的任務。我們甚至可以在一個完全由智能體本身的世界模型所生成的夢幻夢境中對智能體進行訓練，并將此策略遷移回實際環境中。

人類根據他們使用有限的感官對世界的感知，開發出一個有關世界的心智模型。而我們所做的決策和行動都是基于這種內部模型的。系統動力學之父——Jay Wright Forrester將心智模型定義為：

我們腦海中所承載的有關周圍世界的圖像，只是一個模型。世界上沒有一個人能夠在其腦海中對全部的世界、政府或國家進行透徹的想象。他只是選擇了概念，以及它們之間的關系，并用它們來表示真實的系統。（Forrester于1971年提出）

為了處理流經我們日常生活中的大量信息，我們的大腦學習對這些信息進行時空方面的抽象表征。我們能夠觀察一個場景，并記住有關它的一個抽象描述（Cheang和Tsao于2017年、Quiroga等人于2005年提出）。還有證據表明，我們在任何特定時刻所感知的事物，都是由我們的大腦基于內部模型對未來做出的預測所掌控的（Nortmann等人于2015年、Gerrit等人于2013年提出）。

理解我們大腦中的預測模型的一種方法是，它可能不是僅僅預測未來的一般情況，而是根據當前的運動動作預測未來的感官數據（Keller等人于2012年、Leinweber等人于2017年提出）。當我們面臨危險時，我們能夠本能地依據這個預測模型采取相應的行動，并執行快速的反射行為（Mobbs等人于2015年提出），而無需有意識地規劃出行動計劃。

我們所看到的事物是基于我們大腦對未來進行的預測（Kitaoka于2002年、Watanabe等人于2018年提出）

以棒球為例。一個擊球手只有幾毫秒的時間來決定該如何揮棒擊球，讓這要比視覺信號到達我們的大腦所需的時間短得多。他們之所以能夠打出每小時115英里的快速球，是因為我們有能力本能地預測出球將何時何地走向何方。對于職業球員來說，這一切都是在潛意識中發生的。他們的肌肉在適當的時間和地點按照他們的內部模型的預測反射性地揮棒擊球（Gerrit 等人于2013年提出）。他們可以迅速根據自身對未來的預測采取行動，而無需有意識地將可能的未來場景鋪展開以進行規劃（Hirshon于2013年提出）。

在許多強化學習（RL）（Kaelbling等人于1996年、Sutton和Barto于1998年、Wiering和van Otterlo于2012年提出）問題中，人工智能體也受益于具有良好的對過去和現在狀態的表征，以及良好的對未來的預測模型（Werbos等人于1987年、Silver于2017年提出），最好是在通用計算機上實現的強大的預測模型，如循環神經網絡（RNN）（Schmidhuber于1990、 1991年提出）。

大型RNN是具有高度表達性的模型，可以學習數據的豐富的時空表征。然而，在以往的研究中，許多無模型強化學習方法通常只使用參數很少的小型神經網絡。強化學習算法常常具有信用分配問題（credit assignment problem）的局限性，這使得傳統的強化學習算法難以學習大型模型的數百萬個權重，因此，在實踐中往往使用較小的網絡，因為它們在訓練期間能夠更快地迭代形成一個良好的策略。

在這項研究中，我們構建了OpenAI Gym環境的概率生成模型。使用從實際游戲環境中收集的記錄觀測值對基于RNN的世界模型進行訓練。對世界模型進行訓練之后，我們可以使用它們來模擬完整的環境并訓練對智能體進行訓練

理想情況下，我們希望能夠有效地對基于RNN的大型智能體進行訓練。反向傳播算法（Linnainmaa于1970年、Kelley于1960年、Werbos于1982年提出）可以用來對大型神經網絡進行有效的訓練。在這項研究中，我們通過將智能體分為一個大的世界模型和一個小的控制器模型，從而對大型神經網絡進行訓練以解決強化學習任務。首先，我們對大型神經網絡進行訓練，以無監督的方式學習智能體的世界模型，然后訓練較小的控制器模型，學習使用這個世界模型執行任務。一個小型控制器讓訓練算法專注于小型搜索空間上的信用分配問題，同時不會以大的世界模型的容量和表現力為代價。通過智能體世界模型的視角對智能體進行訓練，我們表明，它可以學習一個高度緊湊的策略以執行其任務。

雖然有大量關于基于模型的強化學習的研究，但本文并不是對該領域當前狀態的評述（Arulkumaran等人于2017年、Schmidhuber于2015年提出）。相反，本文的目標是從1990—2015年關于基于RNN的世界模型和控制器組合的一系列論文中提煉若干個關鍵概念（Schmidhuber于1990年、1991年、1990年、2015年提出）。

我們證明了在模擬潛在空間夢境中訓練智能體執行任務的可能性。這一方法擁有許多切實優點。例如，在運行計算密集型游戲引擎時，需要使用大量的計算資源來將游戲狀態渲染到圖像幀中，或計算與游戲不直接相關的物理量。相信我們都不情愿在現實環境中浪費訓練智能體的周期，而是更樂意在模擬環境中盡可能多地訓練智能體。此外，在現實世界中訓練智能體的代價甚至更大，因此，漸進式地進行訓練以模擬現實的世界模型可以更容易地嘗試使用不同方法來訓練我們的智能體。

此外，我們可以利用深度學習框架，在分布式環境中使用GPU，從而加速世界模型的模擬。將世界模型作為一個完全可微的循環計算圖的好處在于，我們可以直接在夢境中使用反向傳播算法對其策略進行微調，從而實現目標函數最大化（Schmidhuber于上世紀90年代提出）。

對視覺模型V使用VAE并將其作為獨立模型進行訓練也存在局限性，因為它可能會對與任務無關的部分觀測進行編碼。畢竟，根據定義來看，無監督學習不知道哪些是對當前任務有用的。例如，在Doom環境中，它在側墻上復制了不重要的詳細磚瓦圖案，但在賽車環境中，它沒有在道路上復制與任務相關的磚瓦圖案。通過與預測獎勵的M模型一起訓練，VAE可以學習專注于圖像中與任務相關的領域，但這里需要權衡的一點是，如果不進行重復訓練，那么我們或許就不能有效地利用VAE再次執行新任務。

學習任務的相關特性也與神經科學有所關聯。當受到獎勵時，基本感覺神經元便會從抑制中釋放出來，這意味著它們通常僅學習與任務相關的特征，而非任何特征，至少自在成年期是這樣的（Pi等人于2013年提出）。

今后的工作可能會探討如何使用無監督分割層（Byravan等人于2017年提出）來提取更好的特征表征，這與所學習的VAE表征相比具有更好的實用性和可解釋性。

另一個令人關切的問題是，我們世界模型的容量有限。盡管現代存儲設備可以存儲使用迭代訓練過程生成的大量歷史數據，但我們基于長短期記憶網絡（LSTM）（Hochreiter和Schmidhuber于1997年提出；Gers等人于2000年提出）的世界模型可能無法在其權重連接中存儲所有記錄的信息。雖然人類的大腦可以保存幾十年甚至幾個世紀的記憶（Bartol等人于2015年提出），但我們通過反向傳播訓練的神經網絡容量有限，并受災難性遺忘等問題的影響（Ratcliver 于1990年，French于1994年，Kirkpatrick等人于2016年提出）。如果我們希望智能體學會探索更復雜的世界，那么今后可以探索用更高容量的模型取代小型MDNRNN網絡（Shazeer等人于2017年，Ha等人于2016年，Suarez等人于2017年，van den Oord等人于2016年，Vaswani等人于2017年提出），或加入外部記憶模塊（Gemici等人于2017年提出）。

基于RNN的控制器與環境交互的古代繪圖（Schmidhuber于1990年提出）

就像早期基于RNN的C-M系統一樣（Schmidhuber等人于上世紀90年代提出），我們模擬了可能的未來時間步長，而沒有從人類的層次化規劃或抽象推理中獲益，這往往忽略了不相關的時空細節。然而，更常見的“學會思考”（Schidhuber于2015年提出）方法并不局限于這種相當幼稚的方法。相反，它允許循環C學習循環M的子例程，并重用它們以任意的計算方式解決問題，例如，通過層次化規劃或利用類似M的程序權重矩陣的其他部分。近期，One Big Net（Schmidhuber，2018年）擴展了C-M方法，它將C和M合并成一個網絡，并使用類似Power Play的行為回放（Schmidhuber于2013，Srivastava等人于2012年提出）（其中教師網絡（teacher net）的行為被壓縮成學生網絡（student net）（Schmidhuber于1992年提出）），以避免在學習新網絡時忘記舊的預測和控制技能。這些具有更通用方法的實驗在未來有待進一步研究。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4600

瀏覽量
92647
計算機

計算機

+關注

關注
19

文章
7425

瀏覽量
87719
強化學習

強化學習

+關注

關注
4

文章
266

瀏覽量
11216

【大語言模型：原理與工程實踐】大語言模型的預訓練

訓練數據時，數量、質量和多樣性三者缺一不可。數據的多樣性對于大語言模型至關重要，這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠提供多樣的語言表達特征，如官方知識型數據、口語化表達的論壇

發表于 05-07 17:10

選手SHOW｜我們想做的，是讓你卸下心防的AI

「AI大學·未來課棧@成都棧」，與科大訊飛工作人員溝通中，提到了這一問題，很快就得到了解決。”虛實夢境團隊介紹道。人工智能虛擬醫生語音識別準確率不高的解決方案是，將原先的通用語音識別模型

發表于 07-09 09:15

　　華為云深度學習服務，讓企業智能從此不求人

實踐經驗，相應也在實踐過程中對深度學習平臺進行了很多優化，以降低內部使用深度學習平臺進行模型訓練的難度。

發表于 08-02 20:44

Pytorch模型訓練實用PDF教程【中文】

本教程以實際應用、工程開發為目的，著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發中，主要涉及三大部分，分別是數據、模型和損失

發表于 12-21 09:18

基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的表情或性別gradcam

CV：基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的臉部表情或性別的grad

發表于 12-27 16:48

模型是數字世界與物理世界連接的橋梁

、開環、有跳舞輥、伺服電機調節等）的模型及其參數驗證，然后封裝為可復用的共性組件，在應用開發中，直接配置其模式、參數等，加速機器的配置，響應快速的市場變化需求。圖4-建模仿帶來的好處因

發表于 05-01 08:44

基于HarmonyOS開發的運動員智能訓練系統

，展示在手機界面中。智能運動APP 使用了HUAWEI DevEco Studio 開發的，選擇了JS語言進行編寫，通過fetch方法請求華為云服務器中使用Spring Boot編寫的數據接口，

發表于 06-29 09:39

智能維修訓練系統模型的設計與實現

介紹了基于事例的智能維修訓練系統中學生模型的結構組成和實現方法。該

發表于 09-15 10:11 ?14次下載

啟元世界發布啟元智能體訓練云平臺啟元AI擊敗星際爭霸選手

啟元世界發布啟元智能體訓練云平臺，據官方介紹，正是通過智能體

發表于 06-24 09:09 ?4365次閱讀

如何使用NVIDIA TAO快速準確地訓練AI模型

利用 NVIDIA TLT 快速準確地訓練人工智能模型的探索表明，人工智能在工業過程中具有巨大的

發表于 04-20 17:45 ?2768次閱讀

什么是預訓練 AI 模型？

預訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據不同行業的應用需求

發表于 04-04 01:45 ?1416次閱讀

NLP中的遷移學習：利用預訓練模型進行文本分類

遷移學習徹底改變了自然語言處理（NLP）領域，允許從業者利用預先訓練的模型來完成自己的任務，從而大大減少了訓練時間和計算資源。在本文中，我們將討論遷移學習的概念，探索一些流行的預

發表于 06-14 09:30 ?431次閱讀

使用OpenVINO優化并部署訓練好的YOLOv7模型

在《英特爾銳炫顯卡+ oneAPI 和 OpenVINO 實現英特爾視頻 AI 計算盒訓推一體-上篇》一文中，我們詳細介紹基于英特爾獨立顯卡搭建 YOLOv7

發表于 08-25 11:08 ?1460次閱讀

python訓練出的模型怎么調用

在Python中，訓練出的模型可以通過多種方式進行調用。 1. 模型保存與加載在Python中

發表于 07-11 10:15 ?1626次閱讀

什么是大模型、大模型是怎么訓練出來的及大模型作用

，基礎模型。 ? 大模型是一個簡稱，完整的叫法，應該是“人工智能預訓練大模型”。預訓練，是一項技

發表于 11-25 09:29 ?82次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

我們的「世界模型」可實現在其夢境中對智能體進行快速訓練

評論

【大語言模型：原理與工程實踐】大語言模型的預訓練

選手SHOW｜我們想做的，是讓你卸下心防的AI

華為云深度學習服務，讓企業智能從此不求人

Pytorch模型訓練實用PDF教程【中文】

基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的表情或性別gradcam

模型是數字世界與物理世界連接的橋梁

基于HarmonyOS開發的運動員智能訓練系統

智能維修訓練系統模型的設計與實現

啟元世界發布啟元智能體訓練云平臺啟元AI擊敗星際爭霸選手

如何使用NVIDIA TAO快速準確地訓練AI模型

什么是預訓練 AI 模型？

NLP中的遷移學習：利用預訓練模型進行文本分類

使用OpenVINO優化并部署訓練好的YOLOv7模型

python訓練出的模型怎么調用

什么是大模型、大模型是怎么訓練出來的及大模型作用