成片人免费观看一级A片_亚洲欧洲国产日产综合综合_WWW国产精品人妻一二三区_欧美XXXX色视频在线观看免费

將強化學習算法應用到現實問題中的一個障礙就是缺少合適的獎勵函數，而設計獎勵函數又比較困難，因為用戶只能自己理解任務的目標，很難傳達給強化學習智能體。這就引出了智能體和用戶的連接問題（agent alignment problem）：我們如何創建一款符合用戶想法的智能體呢？

近日，DeepMind的新論文Scalable agent alignment via reward modeling: a research direction就提出了一種研究方向，本文對該論文進行了概述總結。簡單來說，本次提出的方法依靠獎勵模型的循環應用，通過連接（align）用戶的目的解決復雜的現實世界問題。以下是論智對原文的詳細編譯：

最近幾年，強化學習在復雜的游戲環境中得到了不錯的表現，例如雅達利游戲、圍棋、象棋、Dota 2、星際爭霸II等等，AI智能體在這些復雜領域的表現甚至超過了人類水平。游戲是開發和測試機器學習算法的理想平臺，其中有很多挑戰性的任務，需要具備多種認知能力才能完成。機器學習研究者可以在云端同時運行數千個模擬實驗，生成足夠多的訓練數據供系統學習。

重要的是，游戲通常有清晰的目標，還有可以表現距離目標遠近的分數。分數能為強化學習智能體提供有用的獎勵函數，當選擇了正確的算法或架構時，能讓我們獲得快速的反饋。

智能體的連接問題

總的來說，AI的目標是不斷具備解決現實中復雜問題的能力，從而造福人類。但是現實生活中的任務并沒有內置的獎勵函數。這樣一來，智能體在任務中的表現就無法輕易地定義，所以我們需要一種好方法提供反饋，讓智能體確切地了解我們想要什么，從而幫我們實現目標。換句話說，我們想用人類的反饋訓練AI系統，用這種方法將系統的行為和我們的目標聯系在一起。針對這一目標，于是”智能體的連接“問題的定義如下：

如何創建能符合人類目標的智能體？

連接問題可以在強化學習框架中進行，只不過其中要接受數字類型的獎勵信號，智能體可以通過交互協議和用戶進行互動，從而讓用戶將他們的想法傳遞給智能體。該協議有多種形式，用戶可以提供示范、偏好、最佳行為或者提供獎勵函數。解決智能體連接問題的一種方法就是根據用戶目標作出動作。

DeepMind的新論文對這一問題指明了研究方向。基于此前的AI安全性問題和各種相關研究，我們設想了這些研究成果能為智能體的連接問題做出哪些幫助。這為了解如何與用戶互動打開了新的大門，即從他們的反饋中學習并預測偏好，這些都是更復雜、更抽象的話題，需要用超越人類水平的方式去理解。

用獎勵建模進行連接

研究方向的重點是基于獎勵建模：我們用用戶反饋訓練了一個獎勵模型，來捕捉他們的意圖。同時，我們還訓練了一個帶有強化學習的策略，用來讓獎勵最大化。換句話說，我們將“學習做什么”從“學習怎么做”中分離出來。

獎勵建模圖示

例如，在之前的研究中我們教智能體如何根據用戶的要求進行后空翻、根據目標狀態放置目標物體、根據用戶選擇和專業玩家示范玩雅達利游戲。未來，我們想設計的算法能夠學習適應用戶提供反饋的方式（例如使用自然語言）。

擴大規模

長期來看，我們會擴大獎勵建模的規模，將其應用于人類難以評估的領域。為了做到這一點，我們需要增強用戶衡量輸出的能力。我們討論了如何循環應用獎勵建模：我們可以用獎勵建模訓練智能體，幫助用戶進行評估。如果評估過程比做出動作更容易，我們就能從簡單的任務中轉移到更復雜的任務上。這也可以看作是迭代增強的例子。

循環獎勵建模圖示

例如，假設我們現在想訓練智能體設計一款計算機芯片，為了檢測一款芯片設計，我們訓練了其他帶有獎勵模型的智能體，模擬測試芯片的性能，計算熱損耗、估計芯片的使用壽命、尋找安全漏洞等等。最后，智能體的輸出能讓用戶訓練出符合要求的智能體。盡管每個智能體都要解決很多比當前機器學習系統更難的任務，但這些任務會比設計芯片要簡單。因為設計一款計算機芯片，你要理解每種評估任務，但是反之則不是必要的。在這種情況下，循環獎勵模型可以讓我們的智能體解決更復雜的任務，同時保留和用戶目標之間的聯系。

研究挑戰

想將獎勵建模擴大到復雜問題中，我們會遇到一些挑戰。下圖列出了五種主要問題以及可能的解決方法，論文對這些問題進行了深入的講解。

這也是智能體匹配問題中最后一個重要因素：當將智能體應用在現實世界中時，我們需要向用戶充分證明我們的智能體的確和用戶目標完全匹配。論文中提到了五種不同的方法，幫助用戶增加對智能體的信心：設計選擇、測試、可解釋性、正式驗證以及理論保證。

結語

雖然我們相信循環獎勵建模是訓練相連智能體的正確方向，但目前我們還不知道它擴展的情況如何。幸運的是，我們還有一些與智能體連接相關的研究方向：

模仿學習

短期強化學習

反向強化學習

協作反向強化學習

迭代增強

辯論

智能體基礎

論文中對它們的相似之處和不同點都做了更深介紹。

正如對抗輸入對計算機視覺系統的穩健性一樣，在復雜的顯示領域中部署機器學習系統也是未來需要面對的難題。盡管我們會在擴展獎勵建模時遇到挑戰，但這些挑戰是可以從中獲取進展的具體技術性問題。從這個意義上講，我們的研究方向已經準備就緒，可以開展深層強化學習智能體的實證研究了。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器學習

機器學習

+關注

關注
66

文章
8378

瀏覽量
132415
智能體

智能體

+關注

關注
1

文章
132

瀏覽量
10568
強化學習

強化學習

+關注

關注
4

文章
266

瀏覽量
11216

原文標題：如何讓智能體了解用戶意圖？DeepMind提出獎勵建模

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

什么是機電一體化

像人類那樣會思考判斷。4）機電一體化的例子機電一體化產品中一定有運動機械，并且采用了電子技術使運動機械實現柔性化和智能化。機器人、微機控制型縫紉機、自動對焦相機、自動對焦防顫型攝像機

發表于 08-29 09:06

機電一體化系統

如圖1.1所示，機電一體化系統與靈活性和智能型最強的人體相對應，由如下5個要素構成；1）機械裝置：能夠實現某種運動的機構（相當于人類的骨骼）。2）執行裝置:驅動機械裝置運動的部分（相當于人

發表于 08-29 09:11

熱銷智能會議平板多媒體教學一體機

`教學會議一體機的優勢：豐富教育內容使用觸摸一體化教育不僅可以豐富了教育內容,拓寬教育水平,促進教育目標明確,加快教育的速度,并且可以更形象生動地顯示在課堂上,滿足學生實踐的時間。老師使用人均觸摸

發表于 11-28 10:16

基于4位單片機SH66P58的智能體脂秤方案設計

智能體脂秤又稱健康秤，能測出不同時間人體的脂肪和水分等所占比例，從而反映出人體在不同時間的健康狀況。由于測試人體電阻時，需要人體和測試電極直接接觸，所以脂肪秤產品要有很強的抗ESD靜電干擾性能，本文

發表于 11-29 07:42

OpenAI公布MADDPG代碼，讓智能體學習合作、競爭和交流

體對抗，環境則完全符合你的技術水平）。其次，多智能體環境沒有穩定的平衡，即無論一個智能體多么聰明

發表于 03-16 14:01 ?1.4w次閱讀

如何讓AI符合人類的意圖？如何創建符合用戶意圖的智能體？

近年來，強化學習在許多復雜游戲環境中取得了令人矚目的成績，從Atari游戲、圍棋、象棋到Dota 2和星際爭霸II，AI智能體在越來越復雜的領域迅速超越了人類水平。游戲是開發和測試機器學習算法的理想

發表于 11-24 10:24 ?4237次閱讀

如何測試強化學習智能體適應性

強化學習（RL）能通過獎勵或懲罰使智能體實現目標，并將它們學習到的經驗轉移到新環境中。

發表于 12-24 09:29 ?3215次閱讀

智能體是什么

智能體在某種程度上屬于人工智能研究范疇，因此要想給智能體下一個確切的定義就如同給人工智能下一個確

發表于 01-12 10:52 ?1.2w次閱讀

華為鵬城智能體正式發布，創建數字經濟樣板城市

大數據、人工智能、區塊鏈等新一代信息技術，建設數基、數網、數紐、數腦、數體系列工程，打造數據驅動的有深度學習能力的城市級一體化智能協同體系，進一步推動深圳城市治理的科學化、精細化、人性化、品質化，

發表于 09-24 13:56 ?1621次閱讀

數字花海中蓉城智能體邂逅未來智能體的奇幻漂流之成都折疊篇

不久之前，我們曾經介紹分析過華為發布智能體技術參考架構，對于產業智能革命的鼎新作用。其中咱們一起聊過深圳的鵬城智能體有種種

發表于 09-30 05:26 ?1541次閱讀

人工智能的倫理智能體應用及相關研究

、智能家居、智慧醫療、戰爭武器等人類生活密切相關的領域。這些應用中，智能體與環境、尤其是與人類和社會的交互愈來愈突出，其中的倫理和道德問題日

發表于 03-24 15:25 ?7次下載

多智能體路徑規劃研究綜述

多智能體路徑規劃是一類尋找多個智能體從起始位置到目標位置且無沖突的最優路徑集合的問題，針對該問題的研究在物流、軍事和安防等領域有著大量的應用

發表于 06-04 11:56 ?4次下載

聯匯科技發布自主智能體 OmBot 歐姆智能體及 OmBot OS 操作系統

智能體的發展都表現出極大興趣，并寄予厚望。大語言模型的出現，無疑給 AI 智能體的發展帶來了全新的想象力，因此盡管在眾多 AI 智能

發表于 07-11 14:07 ?460次閱讀

圖為大模型一體機新探索，賦能智能家居行業

圖為大模型一體機新探索，賦能智能家居行業 ?在21世紀的今天，科技的飛速進步正以前所未有的速度重塑著我們的生活方式。從智能手機到物聯網，從大數據到人工

發表于 10-24 11:05 ?205次閱讀

AI智能體逼真模擬人類行為

近日，據外媒最新報道，斯坦福大學、華盛頓大學與Google DeepMind的科研團隊攜手合作，成功開發出一種能夠高度逼真模擬人類行為的AI智能體。該智能

發表于 11-26 10:24 ?148次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

智能體的連接問題,如何創建能符合人類目標的智能體？

評論

什么是機電一體化

機電一體化系統

熱銷智能會議平板多媒體教學一體機

基于4位單片機SH66P58的智能體脂秤方案設計

OpenAI公布MADDPG代碼，讓智能體學習合作、競爭和交流

如何讓AI符合人類的意圖？如何創建符合用戶意圖的智能體？

如何測試強化學習智能體適應性

智能體是什么

華為鵬城智能體正式發布，創建數字經濟樣板城市

數字花海中蓉城智能體邂逅未來智能體的奇幻漂流之成都折疊篇

人工智能的倫理智能體應用及相關研究

多智能體路徑規劃研究綜述

聯匯科技發布自主智能體 OmBot 歐姆智能體及 OmBot OS 操作系統

圖為大模型一體機新探索，賦能智能家居行業

AI智能體逼真模擬人類行為