“最終之戰”人類完敗!DOTA2 AI 2:0吊打世界冠軍
OpenAI 又回來了。就在硅谷當地時間 4 月 13 日,它完成了其成立以來的最大挑戰——迎戰 TI8( Dota 2 國際邀請賽)冠軍 OG 戰隊,并以 2:0 的成績最終碾壓人類(還史無前例地上演了一場人機搭配的大混戰)!
至此,繼 DeepMind AlphaGo 攻陷圍棋之后, Dota 2 被 OpenAI 拿下。
賽后,OG 隊長 N0tail 在接受采訪時表示,“AI 的表現超乎想象,它雖然在插眼等方面還有待進步,買活的時機也與人類常識相反,但它的技能釋放十分精準,可能凌駕于所有人類玩家之上,而且有超強的執行力,能夠保證隨時將損失降到最低。或許跟它交戰 50 場之后,我們能贏一常”
圖 | 在擊敗 OG 之前,OpenAI 已經打敗了 Alliance 等三只職業隊伍,全部都是 2:
在比賽結束后,OpenAI 宣布,從4 月18 日到 4 月 21 日內,所有人都可以挑戰 OpenAI Five,即日起開放注冊。無論你是 2000分,還是 8000分,都可以組隊挑戰這個打敗了 OG 的強大AI。
此次比賽之前,OpenAI 表示,這次公開對決將會是 OpenAI Five 在 Dota 2 中的最后一次出場,因此本次比賽名為OpenAI Five Finals,意為“最終之戰”。它的對手自然不能是無名之輩。
人類代表:OG戰隊
代表人類出戰的 OG 戰隊,是第八屆 Dota 2國際邀請賽(TI8)的冠軍。它的前身是“monkeyBusiness”戰隊,最早以大爹 N0tail 和他的摯友 Fly 為核心(兩人一起打了超過 1400 場 Dota),還挖掘了當時的天才少年,之后的天梯9000 分第一人 Miracle,發展歷程可以追溯到 2015 年,頗具傳奇色彩。
圖丨 OG 戰隊的五名成員 (來源:OG)
彼時,五人組剛剛更名 OG,就一舉拿下了法蘭克福和馬尼拉 Major 錦標賽冠軍。在 TI6 失意之后,Miracle 等三人離隊,僅留下 N0tail和Fly兩兄弟,但重振旗鼓的 OG 又連續拿下波士頓和基輔 Major 冠軍,成為首支贏得四次 Major 冠軍的 Dota 2 戰隊。
好景不長,在經歷 TI7 和 2017/2018 賽季的低潮期后,OG 眼看 TI8 直邀無望,只能參加海眩可是雪上加霜的是,在海選開始前不到一個月,s4 和 Fly 兩名選手突然轉會 EG 戰隊,幾乎意味著 N0tail 和 OG 的 TI8 之旅還沒開始就結束了,逼得 OG 不得不緊急引入從未打過職業的新人 Topson,兄弟 Dota 不復存在。
造化弄人,就是 OG 這樣一支臨時拼湊的海選隊伍,最終爆發出驚人的韌性和團隊默契,多次上演驚天翻盤,手刃“叛徒” Fly 和 s4 所在的 EG 戰隊,力克“不可戰勝的” PSG.LGD 戰隊兩次( True Sight 看的讓人心痛),出人意料地拿下了 TI8 冠軍之盾。
圖 | TI8 賽場,昔日好友,形同陌路
從不被看好,到一路逆襲,再到近半年又一次跌落神壇,OG 雖然被戲稱為“最菜 TI 冠軍”,也被詬病“含金量不足”,但它奪冠之路的傳奇色彩足以比肩曾經的護國神翼Wings。尤其是在奪冠功臣 Ana 復出之后,其紙面實力絕對不容小覷。
此次 OpenAI Five 選擇最終決戰 TI8 冠軍 OG,足以為 OpenAI Dota 2 AI 游戲項目劃上一個完整的句號。
AI表現驚艷,OG潰不成軍
這次比賽是三局兩勝制,雙方按照隊長模式選人。OpenAI 仍然制定了一些限制,規則與之前 TI8 上的基本比賽一致,但移除了巫妖,剩下了 17 個英雄:
圖 | 比賽限制
第一局,AI 選出了直升機、,火槍、死亡先知、斯溫和冰女的四核陣容,選人結束后直接給出了 67.6% 的勝率,信心滿滿。人類選出了神牛、巫醫、毒龍、影魔和隱刺,相對比較脆皮的陣容。
圖 | 雙方陣容
開局搶符,AI 拿下 Notail 巫醫一血,在優勢路用斯溫,火槍和直升機剛三。隨后雙方對線互有斬獲,Ceb 的毒龍選擇劣勢路拉兵線,牛頭不斷游走 gank,中單 Topson 隱刺對線死亡先知也可以五五開。
另一方面,AI 三核剛三的騷套路侵略性極強,頻頻越塔嘗試擊殺ana的影魔和notail 的巫醫,在 JerAx 神牛的保護下,AI 并未嘗到太多甜頭。
10 分鐘,人頭數 8:9,AI經濟領先 1 千,雙方對線幾乎平手。不過根據之前的經驗,AI 的強勢期即將到來。
13 分鐘,AI 的死亡先知在追殺隱刺時,身背真假眼,卻先放下了假眼,隱刺得以逃出生天,可以看出 AI 還是不能很好地利用真假眼。
在 18 分鐘的遭遇戰中,AI 擊殺了過于托大的毒龍和隱刺,馬上給出了 95% 的勝率。
圖 | AI宣告:“我們估算的勝率為95%。”
事實證明它們并沒有夸大。1分鐘后,AI 在夜魘中路二塔擊殺了神牛和巫醫,又追上高地擊殺了走位不慎的影魔,直接在 20 分鐘破掉 OG 中路高地,這讓解說和觀眾始料未及。
盡管 OG 在之后開始更加謹慎,不再貿然深入,但 AI 侵略性不減,幾乎時刻都在五人抱團,滿地的真眼使得隱刺幾乎沒有機會打探太多信息。
24 分鐘,AI 再次在夜魘野區團滅 OG,但并未選擇打 Roshan。
圖 | 現在可以看到AI選擇的戰略目標
29 分鐘,OG 進攻天輝野區,AI 不以為然,死亡先知甚至做出了當面反眼這樣的“挑釁/勾引”動作。隨后 AI 憑借神級拉扯,送給了 OG 三人團滅,順勢攻上了OG 高地,破掉了下路和上路遠程兵營,揚長而去。
隨后的局勢幾乎是一邊倒,OG 不僅沒有找到翻盤機會,反倒出現了幾次莫名的出擊和落單,脆皮陣容讓 AI 逐一擊破,完全無法組織有效的防守。即使神牛幾次做出多人跳大,AI 仍然能夠憑借微操化解,將損失降到最低,甚至秒開 BKB借勢反打。
30 分鐘左右,AI 成功打出超級兵,而自己的二塔都還健在。游戲在35分鐘進入了垃圾時間,OG 被困在自己高地上,毫無招架之力,最終在38分鐘打出GG。AI 拿下第一局。
圖 | 第一局 AI 勝利,人頭數 52:29
第二局,AI 選出了冰女、直升機、斯溫、巫醫和毒龍。OG 則是火槍、神牛、死亡先知、小魚人和萊恩。AI 給出了 60.8% 的勝率,比第一局低了 7% 左右,然而事實并非如此。
雙方正常 212 分路,對線初期和第一局相似,雙方有來有回。
不過 AI 對血量和技能的判斷更勝一籌,經常在極限狀態下擊殺 OG 英雄,尤其是冰女和直升機的強勢雙人組,讓 OG 的死亡先知十分難受,而且因為小魚這樣的英雄對線能力較弱,AI 在 10 分鐘就建立了 4 千經濟優勢,人頭數 11:3,OG 經濟被全面壓制。
局勢一邊倒到什么程度呢?9 分半,AI 就直接給出了 95% 的勝率,比上一局快了 30 分鐘。
雖然偶有繞樹逃生等亮眼表現,但對線期崩盤,讓 OG 完全無法招架 AI 中期的兇猛侵略。
圖 | 一張圖看懂第二局的OG有多慘
14 分鐘,AI 就直接殺上了 OG 的上路高地,簡直就像是毆打小朋友一樣。19分鐘,OG三路被破,只能在自家泉水種樹。
僅僅 20 分鐘,OG 傾三人之力,甚至都辦法擊殺一個20%血量的毒龍。伴隨著AI 矮人直升機的超神,夜魘基地轟然倒塌。
至此,OpenAI 2:0 擊敗 OG!
圖 | 基地崩塌前的最后一秒
在看完AI碾壓OG之后,幾個解說按捺不住Dota之魂,于是OpenAI嘗試了一次前所未有的人機合作混戰:3 個 AI + 2 個解說 VS 3 個 AI + 2 個解說。
這局表演賽的節奏明顯放慢,面對人類玩家的加入,AI 顯得有些“手足無措”,很少主動配合,而幾個解說也苦于沒有辦法指揮AI——無論是打字還是游戲自帶指令,都不能控制AI的行為——只好全場各自為戰,或者跟著AI 抱團。
圖 | 人類控制的女王滿血被集火,AI剃刀和火槍溜之大吉
比賽進行了約60分鐘,整體來看,AI和人類還無法做到積極互動,幾乎看不到雙方的亮眼配合。比如AI操縱的三個英雄經常抱團打野,卻不會跟著人類一起推塔和gank,還會看著人類隊友被集火,卻袖手旁觀,從旁邊默默路過(也可能是在后臺吐槽人類太菜)。
看來我們離 AI 陪玩,甚至是 AI 教練,還有很長的路要走。
OpenAI 結束 DOTA 2 三年之旅
OpenAI Dota 2 AI 首秀是在 2017 年 8 月的國際邀請賽(TI)現場,戰勝了世界頂級中單選手 Dendi。那場影魔BO3 SOLO賽中,OpenAI 先下一城,Dendi 在第二局被拿下一血后選擇主動放棄,最終 0:2 敗于 AI SOLO 系統。根據 OpenAI 的介紹,他們的 AI 還擊敗了 Sumail 和 Arteezy 等明星選手。
SOLO賽之后,OpenAI 推出了可以進行 5V5 對戰的“ OpenAI Five ”,并且在2018 年 8 月初以 4:1 成績戰勝了 Dota 2解說和前職業選手組成的戰隊。OpenAI 團隊隨后認為,自己的 AI 系統已經準備好挑戰職業隊伍了。
但是,在2018 年 8 月 22 日~24 日的 TI8 國際邀請賽現場,之前一路高歌猛進的 OpenAI Five 遭遇重擊,在兩場比賽中分別被職業隊伍 paiN Gaming 和中國前職業選手BurNIng,xiao8,430,SanSheng和rOtk組成的明星隊伍擊敗,原本計劃三天三場的比賽,只比了兩天兩場就草草收尾,提前結束了 TI8 征程。
圖丨 OpenAI Dota 2 項目三年來的主要進展
根據 OpenAI TI8 兩場比賽之后發布的博客文章,導致失敗的主要原因是對戰的游戲玩家明顯實力比 AI 高出不少量級 ,除此之外,缺乏戰略規劃也導致了 AI 的失敗。縱觀八月中旬和 TI8 的幾場比賽,OpenAI 的系統似乎并沒有展現出太多的進步,尤其是在戰略方面。雖然比賽規則有所調整,但是面對更加默契和高水平的職業隊伍時,AI 系統精密計算的技能釋放和反應極快的微操可以驚艷觀眾,打贏遭遇戰,卻無法帶來勝利。
TI8比賽之后,開發人員曾透露,OpenAI Five 中使用的模型架構也并不復雜。每一個英雄由一個單獨的 LSTM 模型控制,且為一個單層的、含有 1024 個單元的 LSTM 網絡,它從 BOT API 中獲取數據,然后通過多個不同的動作輸出接口進行控制。
OpenAI 的 Dota 2 AI 使用了256 個 V100 GPU 和 128000 個 CPU訓練模型,不使用人類數據,80% 的時間自我對弈,20% 的時間和過去的版本對弈,訓練中每天進行的游戲數量時長相當于大約 180 年。
因此,不少人相信,從 TI8 失利至今的大半年時間里,Dota 2 AI 系統的迭代優化又有了新的飛躍。
圖丨 OpenAI Five 的網絡架構圖
這次比賽,OG 戰隊以 TI8 奪冠時的原班人馬出戰 OpenAI Five,但相比在2018 年奪冠時的巔峰時期,現在的 OG 戰隊實力已經有所下滑,Ana 回歸之前,這支隊伍已經幾次淹死在海選中,無緣大型比賽。
而且直到比賽前,任何人都不知道 OpenAI 的 OpenAI Five 又成長到了何種境界,加之此前 AI 曾經戰勝準職業選手隊伍,也曾被職業選手隊伍所打敗,時隔大半年重出江湖,也為本次比賽帶來了很強的懸念。
“對我而言,最令人著迷的一點是看機器如何找到突破游戲的方式,以及它將如何對人類的游戲方式進行反應,”OG 的 Jesse“JerAx”Vainikka 在這次比賽之前說道,“這次比賽將是一次很好的學習經歷,因為我們將了解機器如何優先考慮資源并利用英雄。”
游戲 AI 的殊途同歸?
隨著 OpenAI Five 在今天完成 Dota 2 中的最后一戰,回顧 OpenAI 探索和開發Dota 2 AI 幾乎長達 3 年的過程,是時候重新思考和審視這些 AI 公司在游戲類AI開發上所付出的努力和選擇的目標。
比如說,我們究竟應該如何看待開發這些游戲 AI 的必要性?無論是 DeepMind 開發的 Alphago 還是 OpenAI Five,始終有人忍不住計較,設計這些游戲AI和人類競爭根本就不公平,甚至以此來否定這種人機大戰的價值。
著名的深度學習批判者、紐約大學教授 Gary Marcus 就曾在推特上指出這種不公平。與人類游戲玩家(或其他一些 AI 系統)不同,OpenAI Five 實際上并不看屏幕,而是使用 Dota 2 的“ BOT API ”來獲取數據,包括從每個英雄的位置到個人法術和攻擊的冷卻時間等所有信息。這就為 AI “快速解決了極具挑戰性的場景感知問題”,從而為 AI 提供了巨大的優勢。
AI 作弊爭議背后的本質問題是:人類和 AI 之間可能有所謂“公平”的博弈嗎?恐怕我們等不到這樣一場比賽了。因為,AI 天生就被按照比人類有優勢來打造。正如 AI 游戲研究員庫克所說的那樣:“計算機當然要在某些方面比人類優秀。這是我們發明計算機的原因。”
圖 | “眼觀三十六路,耳聽四十八方”的AI
在游戲中擊敗專業人士,也不是 OpenAI 等公司開發游戲 AI 所追求的目標。他們所希望的,是 AI 學習如何制定數以千計的小決策來實現更大的目標。Brockman 曾這樣表示:“我們 Dota 項目的初衷不是為了在這個比賽稱霸,是因為我們認為可以開發出能夠在未來幾十年內為世界提供動力的人工智能技術。”對于 OpenAI 來說,選擇 DOTA2 作為人工智能測試的原因,“是因為我們認為它是一個能夠幫助我們測試和開發通用 AI 技術的良好平臺”。
而且,這個雄心勃勃的想法也正在走向現實。例如,用于教授 OpenAI Five 的“基礎設施”之一——一個名為 Rapid 的系統就正在被用于其他項目,例如用它來使機械臂以更高水平的靈活性來操縱物體。另外,該系統可以協調數千個同時運行數百個強化學習算法的處理器,每個算法都為機器人提供動力,機器人通過游戲或模擬移動手,然后在試驗結束時將其學到的內容與其他機器人同步。Rapid 目前仍在持續改進中。
圖丨 Rapid 系統被用到機械手操控上
另一方面,AI 在 Dota2 中有勝有敗的表現,也讓人們繼續反思相關的技術方向,強化學習是其中討論度最高的話題之一。
OpenAI 創建人工智能時使用了強化學習算法。這種被認為可以實現讓機器“從零開始學習”的技術看似簡單,但是能讓 AI 習得一些復雜的行為。它有別于傳統的監督學習,不需要大量的標注數據,讓 AI 在虛擬環境中通過自我嘗試和獎勵學會復雜的任務。對于游戲這種擁有天然優秀的模擬環境的場景,強化學習被認為可以幫助創造水平極高的游戲 AI。
圖丨強化學習的原理
強化學習最出風頭的案例,恐怕還是 Deepmind 開發 AlphaGo 的一戰成名,尤其是 AlphaGo Zero 的誕生。兩者都是強化學習發展史上里程碑式的案例。AlphaGo 結合了監督學習、強化學習和其他一些創新的輔助方法,而 AlphaGo Zero 僅僅依靠強化學習和自我對弈,盡管它也使用了預先準備的算法規則用于持續的迭代,依然比前者更遵循了強化學習的整體思路。但著名 AI 學者、新晉圖靈獎獲得者 Yann LeCun 認為,AlphaGo Zero 的成功很難推廣到其他領域。
在 OpenAI Five 被職業隊打敗的過程中,AI 充分暴露了依靠這種方法拋棄人類先驗經驗、獲取新的技能,還有一些“盲區”。
來自斯坦福的 Andrey Kurenkov 就撰寫了大量有關強化學習局限性的文章,他表示,此前的比賽表明,強化學習可以處理“比大多數人工智能研究人員想象的復雜程度更高的問題”,但一些失敗的結局表明,游戲 AI 需要新的方式來培養其“長期思維”。也就是說,AI 在即時即地的反應上做得很好,但宏觀層面決策的表現卻很糟糕。他在其文章中如此總結 AlphaGo 和 OpenAI Dota2 AI 的成績局限性所在:從零開始學習導致它們和人類學習相比,更依海量游戲指令和使用更原始的、無人能及的計算能力。
也正因為這些局限,目前我們也還沒有看到有任何 AI 被廣泛應用在商業級游戲中。但在接下來很長一段時間,AI 打游戲恐怕還需要通過強化學習來實現,強化學習究竟是不是讓機器能夠像人一樣從零學習新技能的最佳方法,還需要更長時間的驗證。
(
評論
查看更多