2016年,Alphabet的DeepMind與AlphaGo一起問世,該AI一直領先于人類最佳Go players。一年后,該子公司繼續完善其工作,創建了AlphaGo Zero。 在AlphaGo Zero的前身通過觀察業余和專業比賽學會了圍棋的過程中,AlphaGo Zero通過簡單地與自己對戰來掌握了古老的游戲。 然后,DeepMind創建了AlphaZero,該AlphaZero可以使用單一算法玩圍棋,象棋和將棋(日本象棋)。將所有這些AI捆綁在一起的是,他們知道在訓練中必須掌握的游戲規則。 而DeepMind的最新AI MuZero,不需要去被告知如何下棋等游戲規則即可掌握。取而代之的是,該AI獨自學習了游戲的相關內容,并且與DeepMind以前的任何算法一樣,更加有能力,或者說更勝一籌。
創建一種可以適應情況的算法是人工智能研究人員試圖解決的一個挑戰,該算法雖然不知道控制仿真的所有規則,但仍然可以找到一種規劃成功的方法。DeepMind一直嘗試使用稱為超前搜索的方法來解決該問題。使用這種方法,算法將考慮未來狀態以規劃行動計劃。解決這個問題的最好方法是考慮如何玩象棋或星際爭霸II這樣的策略游戲。在采取行動之前,將考慮到對手的反應并嘗試做出相應的計劃。以幾乎相同的方式,利用前瞻方法的AI將嘗試預先計劃幾個動作。即使是像國際象棋這樣相對簡單的游戲,也無法考慮所有可能的未來狀態,因此AI會優先考慮最有可能贏得比賽的游戲。
DeepMind
這種方法的問題在于,大多數現實情況,甚至某些游戲,都沒有一套簡單的規則來管理操作方式。因此,一些研究人員試圖通過使用一種方法來解決該問題,該方法試圖對特定游戲或場景環境將如何影響結果進行建模,然后使用該知識制定計劃。該系統的缺點是某些域是如此復雜,以至于幾乎不可能對各個方面進行建模。例如,事實證明,大多數Atari游戲都是這種情況。
在某種程度上,MuZero結合了兩個方面的優勢。它沒有嘗試對所有模型進行建模,而只是嘗試考慮那些對決策至關重要的因素。正如DeepMind所指出的,這是作為人類所做的事情。當大多數人看著窗外,看到地平線上形成烏云時,他們通常不會被凝結和壓力前沿之類的事情所困擾。相反,他們思考如果出門應該如何穿著以不被雨水淋濕。MuZero做的也是類似的事情。
在必須做出決定時,它考慮了三個因素。它將考慮其先前決定的結果,它目前所處的位置以及下一步的最佳行動方案。這種看似簡單的方法使MuZero成為迄今為止DeepMind最有效的算法。在測試中,它發現MuZero在國際象棋,圍棋和將棋中的表現都和AlphaZero一樣好,并且比Atari游戲中包括Agent57在內的所有以前的算法都要好。它還發現,MuZero考慮動作的時間越長,執行效果就越好。DeepMind還進行了測試,在那些測試中,它發現MuZero仍然能夠取得良好的結果。
在Atari游戲中獲得高分固然很好,但是DeepMind最新研究的實際應用又如何呢?總之,它們可能是開創性的。雖然還沒有找到,但MuZero是最接近研究人員來開發通用算法的。該子公司表示,MuZero的學習能力有一天可以幫助它解決沒有簡單規則的機器人領域的復雜問題。
原文標題:DeepMind最新AI - 無需提前知曉規則 也可以掌握游戲
文章出處:【微信公眾號:IEEE電氣電子工程師學會】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
AI
+關注
關注
87文章
30239瀏覽量
268479 -
人工智能
+關注
關注
1791文章
46896瀏覽量
237670
原文標題:DeepMind最新AI - 無需提前知曉規則 也可以掌握游戲
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論