AlphaStar橫空出世 星際爭霸2人類1:10輸給AI
剛剛,我們見證了 AI 與人類 PK 的又一次重大進展!DeepMind 北京時間 1 月 25 日凌晨 2:00 起公布了其錄制的 AI 在《星際爭霸 2》中與2位職業選手的比賽過程:AlphaStar 5:0 戰勝職業選手TLO ,5:0戰勝 2018 年 WSC 奧斯汀站亞軍 MaNa 。與兩位人類對手的比賽相隔約兩周,AI 自學成才,經歷了從與TLO 對戰時的菜鳥級別,進化到完美操作的過程,尤其是與MaNa 的對戰,已經初步顯示了可以超越人類極限的能力。
這次的演示也是 DeepMind 的星際爭霸 2 AI AlphaStar 的首次公開亮相。除了此前比賽錄像的展示外,AlphaStar 還和MaNa 現場來了一局,不過,這局AlphaStar 輸給了人類選手MaNa 。
我們不難看出,盡管其神經網絡已經趨于長期優化,但似乎仍然會在一定程度上陷入局部最優,被人類發現固定模式,落入圈套,而且從 5 個小叮當抱團,到純追獵部隊,都顯示出它對游戲兵種的理解尚不到位,如果最后一局它可以像人類一樣直接派出鳳凰防守棱鏡,或許它將繼續憑借超強的微操一波推平 MaNa。
比賽回放過程中,主持人問到 DeepMind 科學家,平時如何訓練 AlphaStar,DeepMind 科學家 Oriol Vinyals、David Silver 表示,首先是模仿學習,團隊從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過觀察一個人所處的環境,盡可能地模仿某個特定的動作,從而理解星際爭霸的基本知識。這其中所使用到的訓練資料不但包括專業選手,也包括業余選手。這是 AlphaStar 成型的第一步。
之后,團隊會使用一個稱為“Alpha League”的方法。在這個方法中,Alpha League 的第一個競爭對手就是從人類數據中訓練出來的神經網絡,然后進行一次又一次的迭代,產生新的 agent 和分支,用以壯大“Alpha League”。
圖 | Alpha League 示意圖
然后,這些 agent 通過強化學習過程與“Alpha League”中的其他競爭對手進行比賽,以便盡可能有效地擊敗所有這些不同的策略,此外,還可以通過調整它們的個人學習目標來鼓勵競爭對手朝著特定方式演進,比如說旨在獲得特定的獎勵。
最后,團隊在“Alpha League”中選擇了最不容易被利用的 agent,稱之為“the nash of League”,這就是 TLO 所對戰的5個。
近幾年,除了 DeepMind 以外,已經有越來越多的人工智能公司或者研究機構投身到開發游戲類AI的浪潮中,例如 OpenAI 和騰訊的 AI lab 等等。
歸根結底,這些團隊對游戲AI的熱情,恐怕都源于打造通用型人工智能的這一終極目標:游戲AI的研發將會進一步拓寬人類對于AI能力的認知,這樣的研究最終將探索的問題 AI 能否能夠通過游戲規則進行自主學習,達到更高層次的智能乃至通用型人工智能。例如,在游戲AI的設計中,增強學習算法的改進將至關重要。增強學習是一種能夠提高 AI 能力的核心算法,它讓 AI 能夠解決具有不確定性動態的決策問題(比如游戲 AI,智能投資,自動駕駛,個性化醫療),這些問題往往也更加復雜。
而 DeepMind 團隊的成果已經為此帶來了一絲曙光——AlphaGo Zero在短時間內精通圍棋、象棋、國際象棋三種棋類游戲,已有棋類通用AI雛形。棋類游戲之后,最值得期待的進展,就是各家開發的AI在即時戰略類 RTS 游戲或多人在線競技類 MOBA 游戲上的表現了。此前,騰訊 AI Lab 負責人之一姚星就介紹過,在游戲AI的研究上,騰訊 AI Lab 已從圍棋 AI “絕藝”等單個 AI 的完全信息博弈類游戲,轉移到規則不明確、任務多樣化、情況復雜的游戲類型,如星際爭霸和 Dota2 等復雜的即時戰略類 RTS 游戲或多人在線競技類 MOBA 游戲。
在剛剛過去的2018年,OpenAI 開發出的 AI OpenAI Five 就是針對 Dota2 開發的AI,但是它與人類 PK 的過程可謂充滿戲劇性。2018 年 8 月初,OpenAI Five 戰勝一支人類玩家高水平業余隊伍(天梯 4000 分左右),然而,到了 8 月底 OpenAI Five 被兩支專業隊伍打敗, AI 提前結束了其在本屆 DOTA 2 國際頂尖賽事 TI 8 的旅程。回顧那次失敗的過程,其實OpenAI 的系統仍然無法全面理解 DOTA 復雜的游戲系統和規則。
現在,DeepMind 的星際爭霸2 AI 已經以其超強實力打響游戲 AI 2019 年第一戰,接下來還有哪些游戲AI將橫空出世呢?各大游戲AI又將如何邁向通用人工智能,讓我們拭目以待。
-
AI
+關注
關注
87文章
30171瀏覽量
268428 -
人工智能
+關注
關注
1791文章
46872瀏覽量
237593
發布評論請先 登錄
相關推薦
評論