北京時(shí)間2019年1月25日2時(shí),DeepMind在倫敦向世界展示了他們的最新成果——星際爭霸2人工智能AlphaStar[1] 。
圖1. DeepMind AlphaStar挑戰(zhàn)星際人類職業(yè)玩家直播畫面
比賽共11局,直播展示的是去年12月期間AlphaStar挑戰(zhàn)Liquid team職業(yè)玩家TLO和MANA的部分比賽錄像,分別有5局。最后一局為AlphaStar對戰(zhàn)MaNa的現(xiàn)場直播。比賽采用固定天梯比賽地圖、神族對抗神族的形式。
圖2. 比賽地圖、游戲版本、對戰(zhàn)種族信息
結(jié)果自然是AlphaStar大比分碾壓式勝利,在2018年12月10日以5:0擊敗TLO,12月19日以5:0擊敗MaNa。但是當(dāng)天現(xiàn)場表演賽上AlphaStar卻不敵MaNa。最終,AlphaStar取得了10-1的絕佳成績,堪稱世界上第一個(gè)擊敗星際爭霸頂級職業(yè)玩家的人工智能。
星際爭霸
星際爭霸是由暴雪娛樂公司開發(fā)的一款經(jīng)典即時(shí)戰(zhàn)略游戲。與國際象棋、Atari游戲、圍棋不同,星際爭霸具有以下幾個(gè)難點(diǎn):
1、博弈——星際爭霸具有豐富的策略博弈過程,沒有單一的最佳策略。因此,智能體需要不斷的探索,并根據(jù)實(shí)際情況謹(jǐn)慎選擇對局策略。
2、非完全信息——戰(zhàn)爭迷霧和鏡頭限制使玩家不能實(shí)時(shí)掌握全場局面信息和迷霧中的對手策略。
3、長期規(guī)劃——與國際象棋和圍棋等不同,星際爭霸的因果關(guān)系并不是實(shí)時(shí)的,早期不起眼的失誤可能會在關(guān)鍵時(shí)刻暴露。
4、實(shí)時(shí)決策——星際爭霸的玩家隨著時(shí)間的推移不斷的根據(jù)實(shí)時(shí)情況進(jìn)行決策動作。
5、巨大動作空間——必須實(shí)時(shí)控制不同區(qū)域下的數(shù)十個(gè)單元和建筑物,并且可以組成數(shù)百個(gè)不同的操作集合。因此由小決策形成的可能組合動作空間巨大。
6、三種不同種族——不同的種族的宏機(jī)制對智能體的泛化能力提出挑戰(zhàn)。
圖3. 直播中組織者分析Atari,圍棋,星際三者在信息獲取程度、玩家數(shù)量、動作空間、動作次數(shù)的不同,難度呈現(xiàn)逐漸提升
正因?yàn)檫@些困難與未知因素,星際爭霸不僅成為風(fēng)靡世界的電子競技,也同時(shí)是對人工智能巨大的挑戰(zhàn)。
評估AlphaStar戰(zhàn)力
星際爭霸中包含神族、人族、蟲族三種選擇,不同種族有不同的作戰(zhàn)單位、生產(chǎn)機(jī)制和科技機(jī)制,因而各個(gè)種族間存在戰(zhàn)術(shù)制衡。為了降低任務(wù)訓(xùn)練所需時(shí)間,并避免不同種族間客觀存在的不平衡性,AlphaStar以神族對陣神族為特定訓(xùn)練場景,固定使用天梯地圖-CatalystLE為訓(xùn)練和對決地圖。
面對蟲族職業(yè)玩家TLO和排名更加靠前的神族職業(yè)玩家MaNa的輪番挑戰(zhàn),AlphaStar憑借近乎無解的追獵微觀操作和鳳凰技能單位的配合,能在絕大多數(shù)人類玩家都認(rèn)為嚴(yán)重受到克制的兵種不朽下,在正面戰(zhàn)場上反敗為勝扭轉(zhuǎn)戰(zhàn)局,并最終兵不血刃的橫掃人類職業(yè)玩家,取得了星際爭霸AI當(dāng)前最佳的表現(xiàn)水平,在實(shí)時(shí)戰(zhàn)略游戲上取得了里程碑式的意義。
圖4. 追獵者相互克制兵種關(guān)系
AlphaStar是如何訓(xùn)練的?
AlphaStar的行為是由一個(gè)深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生。網(wǎng)絡(luò)的輸入來自游戲原始的接口數(shù)據(jù),包括單位以及它們的屬性,輸出則是一組指令,這些指令構(gòu)成了游戲的可行動作。網(wǎng)絡(luò)的具體結(jié)構(gòu)包括處理單位信息的變換器(transformer),深度LSTM核(deep LSTM core),基于指針網(wǎng)絡(luò)(pointer network)的自動回歸策略頭(auto-regressive policy head),和一個(gè)集中式價(jià)值評估基準(zhǔn)(centralised value baseline)。這些組成元件是目前最先進(jìn)的人工智能方法之一。DeepMind將這些技術(shù)組合在一起,有信心為機(jī)器學(xué)習(xí)領(lǐng)域中普遍存在的一些問題,包括長期序列建模、大規(guī)模輸出空間如翻譯、語言建模、視覺表示等,提供一種通用的結(jié)構(gòu)。
AlphaStar權(quán)重的訓(xùn)練同樣是使用新型的多智能體學(xué)習(xí)算法。研究者首先是使用暴雪發(fā)布的人類匿名對戰(zhàn)數(shù)據(jù),對網(wǎng)絡(luò)權(quán)重進(jìn)行監(jiān)督訓(xùn)練,通過模仿來學(xué)習(xí)星際天梯上人類玩家的微觀、宏觀策略。這種模擬人類玩家的方式讓初始的智能體能夠以95%的勝率打敗星際內(nèi)置電腦AI精英模式(相當(dāng)于人類玩家黃金級別水平)。
在這初始化之后,DeepMind使用了一種全新的思路進(jìn)一步提升智能體的水平。星際本身是一種不完全信息的博弈問題,策略空間非常巨大,幾乎不可能像圍棋那樣通過樹搜索的方式確定一種或幾種勝率最大的下棋方式。一種星際策略總是會被別一種策略克制,關(guān)鍵是如何找到最接近納什均衡的智能體。為此,DeepMind設(shè)計(jì)了一種智能體聯(lián)盟(league)的概念,將初始化后每一代訓(xùn)練的智能體都放到這個(gè)聯(lián)盟中。新一代的智能體需要要和整個(gè)聯(lián)盟中的其它智能體相互對抗,通過強(qiáng)化學(xué)習(xí)訓(xùn)練新智能體的網(wǎng)絡(luò)權(quán)重。這樣智能體在訓(xùn)練過程中會持續(xù)不斷地探索策略空間中各種可能的作戰(zhàn)策略,同時(shí)也不會將過去已經(jīng)學(xué)到的策略遺忘掉。
圖5.在使用人類數(shù)據(jù)初始化智能體后,DeepMind構(gòu)建了一個(gè)智能體聯(lián)盟,在每一代都將強(qiáng)化學(xué)習(xí)得到的智能體放入這個(gè)聯(lián)盟中,每個(gè)智能體要和聯(lián)盟中其它的智能體做對抗學(xué)習(xí)。最終從聯(lián)盟中水平靠前的幾個(gè)智能體中選取一個(gè)和MaNa對抗。
這種思路最早出現(xiàn)在DeepMind另一項(xiàng)工作——種群強(qiáng)化學(xué)習(xí)(population-based reinforcement learning)。這與AlphaGo明顯的不同在于:AlphaGo讓當(dāng)前智能體與歷史智能體對抗,然后只對當(dāng)前智能體的權(quán)重做強(qiáng)化學(xué)習(xí)訓(xùn)練;而種群強(qiáng)化學(xué)習(xí)則是讓整個(gè)種群內(nèi)的智能體相互對抗,根據(jù)結(jié)果每個(gè)智能體都要進(jìn)行學(xué)習(xí),從而不只是最強(qiáng)的智能體得到了提升,它的所有可能的對手都有所提升,整個(gè)種群都變得更加智能。
圖6.隨著聯(lián)盟中對智能體的訓(xùn)練,整個(gè)聯(lián)盟的最強(qiáng)水平和整體水平都得到了提升,最終超過了人類玩家MaNa和TLO(神族)在MMR下的評分。圖中縱坐標(biāo)給出的是Match Making Rate (MMR),是一種對玩家水平的有效評估,圖中橫線對應(yīng)暴雪對線上玩家水平的分級。
此外DeepMind還宣稱,每個(gè)智能體不只是簡單地和聯(lián)盟其它智能體相互對抗學(xué)習(xí),而是有針對性、有目的性的學(xué)習(xí)。例如通過內(nèi)在激勵的調(diào)整,有些智能體只考慮打敗某種類型的競爭對手,而另一些智能體則是要盡可能地?fù)魯》N群的大部分智能體。這就需要在整體訓(xùn)練過程中不斷地調(diào)整每個(gè)智能體的目標(biāo)。
權(quán)重的訓(xùn)練使用了新型的強(qiáng)化學(xué)習(xí)——離策略執(zhí)行-評價(jià)(off-policy actor-critic)算法,結(jié)合了經(jīng)驗(yàn)回放(experience replay)、自我模仿學(xué)習(xí)(self-imitation learning)、和策略蒸餾(policy distillation)。這些技術(shù)保證了訓(xùn)練的穩(wěn)定性和有效性。
圖7.黑點(diǎn)代表了和MaNa對戰(zhàn)所選擇的智能體。大圖給出了該智能體在訓(xùn)練過程中策略的變化情況。其它彩色點(diǎn)代表了不同策略對應(yīng)的智能體,并顯示出了不同時(shí)期不同策略被選中和MaNa智能體對抗的概率。尺寸越大,被選中概率越大。左下圖給出了不同訓(xùn)練時(shí)期MaNa智能體出兵組成變化。
硬件部分
為了訓(xùn)練AlphaStar,DeepMind調(diào)動了Google的v3云TPU。構(gòu)建了高度可拓展的分布式訓(xùn)練方式,支持?jǐn)?shù)千個(gè)智能體群并行訓(xùn)練。整個(gè)AlphaStar智能體聯(lián)盟訓(xùn)練了14天,每個(gè)智能體調(diào)用了16個(gè)TPU。在訓(xùn)練期間,每個(gè)智能體經(jīng)歷了相當(dāng)于正常人類要玩200年的游戲時(shí)長。最終的AlphaStar智能體集成了聯(lián)盟當(dāng)中最有效策略的組合,并且可以在單塊桌面級GPU上運(yùn)行。
AlphaStar是如何玩游戲的?
在比賽時(shí)AlphaStar通過其界面直接與星際爭霸游戲引擎交互,獲得地圖上可以觀察的所有信息,也可稱為全局信息。它并沒有輸入移動視角的視野圖像。不過對比賽錄像的分析表明AlphaStar隱式地學(xué)到了注意力集中機(jī)制。平均而言,AlphaStar的動作指令每分鐘會在前線和運(yùn)營之間切換30次,這與MANA和TLO等人類玩家的切屏行為非常相近。
圖8. 與MaNa第二場比賽中AlphaStar的神經(jīng)網(wǎng)絡(luò)可視化。從智能體的角度顯示了它對游戲的理解,左下角起為游戲的輸入,神經(jīng)網(wǎng)絡(luò)的激活可視化,智能體的主要操作位置,局勢評估,生產(chǎn)建造。
在12月份的比賽之后,DeepMind開發(fā)了第二版的AlphaStar。加入了移動視角機(jī)制,使其只能感知當(dāng)前屏幕上的視野信息,并且動作位置僅限于當(dāng)前區(qū)域。結(jié)果表明AlphaStar同樣能在移動視角輸入下迅速提升性能,緊緊追趕全局輸入的性能,最終結(jié)果幾乎一致。
DeepMind一共訓(xùn)練了兩種智能體,一個(gè)使用原始全局輸入,一個(gè)使用移動視角輸入。它們都首先使用人類數(shù)據(jù)監(jiān)督學(xué)習(xí)初始化,然后使用上述強(qiáng)化學(xué)習(xí)過程和第一版學(xué)好的智能體聯(lián)盟對抗。使用使用視角輸入的智能體幾乎與全局輸入的一樣強(qiáng)大。在DeepMind的內(nèi)部排行榜上超過7000MMR(遠(yuǎn)高于MaNa的MMR)。然而在直播比賽當(dāng)中,MaNa戰(zhàn)勝了移動視角的智能體。DeepMind分析認(rèn)為該智能體只訓(xùn)練了七天的時(shí)間,還沒有達(dá)到它的最高水平,希望在不久的將來會對收斂結(jié)果做進(jìn)一步評測。
圖9. 以整個(gè)地圖信息為輸入和以移動視角為輸入兩種智能體訓(xùn)練的提升效果比較。兩者都是不完全信息,存在戰(zhàn)爭迷霧遮擋敵方單位的情況。只不過前者是將所有可視單位的信息放在全局地圖上作為輸入,后者是只將玩家局部視野內(nèi)的單位信息作為輸入。因此后者需要智能體在游戲過程中不斷調(diào)整局部視野的范圍,確保有用信息的輸入。
眾多觀戰(zhàn)者另一個(gè)關(guān)心的問題是AlphaStar的平均每分鐘操作數(shù)(Actions Per Minute, APM)。計(jì)算機(jī)可以利用強(qiáng)大的計(jì)算能力,在短時(shí)間集中大量的操作,遠(yuǎn)超過人類的極限能力。就算是頂級職業(yè)玩家,APM也僅有數(shù)百,遠(yuǎn)遠(yuǎn)低于現(xiàn)有的對戰(zhàn)機(jī)器人。如自動悍馬2000,可以獨(dú)立控制每個(gè)單元,APM維持在數(shù)萬以上。
在TLO和MANA的比賽當(dāng)中,AlphaStar的平均APM為280,盡管其操作更為精確,但APM明顯低于大部分職業(yè)玩家。同時(shí),AlphaStar從觀察到行動之間存在350毫秒的延遲。
圖10. 對戰(zhàn)時(shí)AlphaStar,TLO(神族),MaNa三者的APM比較
綜上,DeepMind認(rèn)為AlphaStar對MaNa和TLO的勝利依靠的是卓越的宏觀機(jī)制和微觀戰(zhàn)略決策,而不是單純的靠閃爍追獵Blink。
AlphaStar優(yōu)缺點(diǎn)分析
AlphaStar優(yōu)勢
1)戰(zhàn)勝職業(yè)玩家
AlphaStar的成功在星際爭霸游戲乃至整個(gè)實(shí)時(shí)戰(zhàn)略游戲具有里程碑式的意義,不僅在于第一次正式擊敗人類職業(yè)玩家,更在于這套深度強(qiáng)化學(xué)習(xí)框架在不完全依賴于規(guī)則腳本的基礎(chǔ)上,通過監(jiān)督學(xué)習(xí)、模仿訓(xùn)練、種群提升、和后期強(qiáng)化學(xué)習(xí)來提升智能體的作戰(zhàn)能力。這套研究思路和方法一樣適用于其他的實(shí)時(shí)戰(zhàn)略游戲。
2)微觀操作卓越
即使在兵種對抗處于劣勢的情況下,AlphaStar依靠精準(zhǔn)的微操決策控制能力,仍然可以在形勢不利的局面下反敗為勝,化逆境為順境。表現(xiàn)了實(shí)時(shí)戰(zhàn)略游戲的一種雖然簡單粗暴但較為直接的解決方式,證明了深度強(qiáng)化學(xué)習(xí)探索到較優(yōu)可行解的能力。
3)利用地形優(yōu)勢的感知能力
在戰(zhàn)爭局勢不利的情況下,準(zhǔn)確作出戰(zhàn)略撤退,并分散撤退到具有較高地勢的關(guān)口四周。利用峽口因素精確作出包夾的動作行為,形成對敵方的封鎖及包抄,從而為局勢逆轉(zhuǎn)提供條件,具備較強(qiáng)的地形感知能力和利用性。
AlphaStar不足
1)硬件資源需求高
單個(gè)智能體訓(xùn)練需要16個(gè)V3版本(最新版,運(yùn)算次數(shù)為V2版本的8倍)的云TPU,以AlphaLeague訓(xùn)練完成的10類智能體作為保守估計(jì),至少需要上百塊TPU作為硬件計(jì)算支持,帶來的硬件基礎(chǔ)成本使普通開發(fā)者難以承受。
2)魯棒性仍不足
在最后一場直播中可見,由于AlphaStar無法根據(jù)敵人騷擾意圖分散安排兵力部署防守本方基地,致使被人類玩家戲耍來回拉扯全軍大部隊(duì),從而始終無法對人類玩家發(fā)起進(jìn)攻,使人類玩家有足夠時(shí)間生產(chǎn)大量的反追獵兵種(不朽),最終導(dǎo)致比賽的失利。
3)地圖場景較為簡單
本次使用CatalstLE為兩人小地圖,沒有多余的隨機(jī)起始點(diǎn),因而AlphaStar不需要派偵察部隊(duì)偵察敵人確定位置,減小了環(huán)境的不確定性,簡化了整體的不完全信息性。并且小地圖使智能體偏向于使用RUSH類戰(zhàn)術(shù),使探索策略的復(fù)雜性顯著降低。
4)微操APM峰值過高
不同于普通人類玩家,AlphaStar的APM不具有冗余重復(fù)性,每次都為有效操作(EPM)。普通人類玩家的EPM平均大約只有80左右,只有在交戰(zhàn)過程中短暫的20秒到30秒左右的時(shí)間達(dá)到EPM 200以上。但AlphaStar在使用近乎無解的閃爍追獵戰(zhàn)術(shù)EPM估計(jì)能達(dá)到1000左右,顯然對于人類玩家并不公平。
5)后期表現(xiàn)未知
根據(jù)此次比賽公開的錄像表現(xiàn),AlphaStar大部分時(shí)刻采取追獵者攻擊、騷擾或防御等動作,尚未觀察到其他更為高級的兵種操作,并且沒有出現(xiàn)滿人口滿科技樹的情況,因而AlphaStar的后期表現(xiàn)能力存在較大疑問。
總評:從開放的11組視頻對戰(zhàn)資源分析,AlphaStar可以在局勢不利的情況下,憑借卓越的微操控制能力、地形利用能力和多兵種整體協(xié)同配合能力,有效逆轉(zhuǎn)戰(zhàn)局,實(shí)現(xiàn)扭虧為盈。但是在最后一場現(xiàn)場直播中,AlphaStar出現(xiàn)了明顯的作戰(zhàn)缺陷,始終無法合理分配兵力保護(hù)基地,被人類玩家來回拉扯戰(zhàn)場,錯(cuò)過了進(jìn)攻的最佳時(shí)機(jī),導(dǎo)致最終失利。縱觀本次人機(jī)對抗,雖然在限制Bot的APM部分做的不太到位,只限制其APM的均值而沒對峰值限制,但與2017年在韓國世宗大學(xué)舉辦的星際人機(jī)對抗(同樣沒對電腦APM作限制)以Bot的慘敗相比較,本次的AlphaStar是真正意義上在全尺度地圖上擊敗了星際爭霸人類職業(yè)玩家,可謂進(jìn)步顯著。
星際爭霸AI的研究進(jìn)展簡介
星際爭霸是由暴雪娛樂公司于1998年公開發(fā)售,為實(shí)時(shí)戰(zhàn)略游戲的典型代表,深受廣大游戲玩家的歡迎并創(chuàng)造一列歷史先河。與此同時(shí),隨著BWAPI,TorchCraft,SC2LE等開源API(Application Interface)的發(fā)布,眾多研究者和工程師們紛紛對星際爭霸展開了深入研究。
圖11. 2017年星際人機(jī)對抗(腳本Bot)與2019年星際人機(jī)對抗(AIBot)
早期的搜索型算法(如α-β搜索,MCTS樹搜索)已經(jīng)被廣泛用于完成星際中動作攻擊選擇任務(wù)和建筑生產(chǎn)序列規(guī)劃任務(wù)。并隨著計(jì)算資源及性能的不斷提升,演化計(jì)算、深度神經(jīng)網(wǎng)絡(luò)、深度強(qiáng)化學(xué)習(xí)(AlphaStar的主要采用方法)等方法正發(fā)揮著越來越顯著的作用。圖11表示了近些年人工智能算法在星際爭霸的子任務(wù)中的具體應(yīng)用。其中以強(qiáng)化學(xué)習(xí)為代表的計(jì)算智能算法在星際爭霸領(lǐng)域取得了一系列顯著的突破性進(jìn)展。在特定場景的星際微操任務(wù)下,多智能體強(qiáng)化學(xué)習(xí)方法如阿里的Peng等提出的基于雙向RNN的BicNet[3] ,牛津大學(xué)Foerster等提出的基于反事實(shí)機(jī)制的COMA[4] , 自動化所Shao等提出的基于SARSA(λ)和權(quán)重共享的PS-MAGDS[5] 等方法表現(xiàn)突出,能有效處理多智能體間信譽(yù)分配的問題。而在宏觀序列生產(chǎn)預(yù)測任務(wù),自動化所Tang等基于卷積神經(jīng)網(wǎng)絡(luò)的前向Q學(xué)習(xí)方法[6] 能幫助智能體找到最佳的生產(chǎn)序列,提升智能體的環(huán)境適應(yīng)性,從而擊敗內(nèi)置AI。分層強(qiáng)化學(xué)習(xí)方法可以在需要長期規(guī)劃的任務(wù)問題上解決獎賞反饋稀疏的問題,以騰訊的TStarBot[7] 為代表的層級強(qiáng)化學(xué)習(xí)證明了該方法能在標(biāo)準(zhǔn)天梯地圖中完整地完成AI的整套系統(tǒng)性學(xué)習(xí)任務(wù)。
圖12. 計(jì)算智能算法在星際爭霸中的應(yīng)用環(huán)境[2]
AlphaStar同樣采用深度強(qiáng)化學(xué)習(xí)作為其核心訓(xùn)練方法,并與他的“哥哥”AlphaGo具有相似之處,都采用人類對戰(zhàn)數(shù)據(jù)作預(yù)訓(xùn)練模仿學(xué)習(xí)。但為了滿足實(shí)時(shí)性要求,AlphaStar舍棄了搜索模塊,只讓神經(jīng)網(wǎng)絡(luò)輸出發(fā)揮作用,是一種更為純粹的“深度強(qiáng)化學(xué)習(xí)”方法。
結(jié)束語
從AlphaStar的表現(xiàn)來看,人工智能半只腳已經(jīng)踏上了實(shí)時(shí)對戰(zhàn)游戲的頂峰。然而另外半只腳能否踏上去還要看能否解決現(xiàn)存的后期乏力、魯棒性差的問題。近年來隨著國際象棋、Atari游戲、圍棋、德州撲克等一一被征服,人工智能在不斷挑戰(zhàn)人類智力領(lǐng)域的統(tǒng)治力。反之人類研究者也在不斷推動和挖掘人工智能的極限。人工智能是否有極限?下一個(gè)將會被征服的領(lǐng)域會是什么?讓我們拭目以待。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46872瀏覽量
237593 -
智能體
+關(guān)注
關(guān)注
1文章
132瀏覽量
10568 -
DeepMind
+關(guān)注
關(guān)注
0文章
129瀏覽量
10819
原文標(biāo)題:Deepmind AlphaStar 如何戰(zhàn)勝人類職業(yè)玩家【中科院自動化所深度解析】
文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論