在 4 月 14 日,OpenAI Five 代表人工智能拿下了與人類的競爭史上又一個里程碑:以 2 比 0 的絕對優(yōu)勢擊敗了 Dota 2 TI8 冠軍 OG 戰(zhàn)隊(duì)。其中甚至以碾壓之勢拿下第二盤,僅用 22 分鐘就“打卡下班”。比賽 4 天后,OpenAI 宣布將開放為期 3 天的 Arena 競技場模式,邀請所有 Dota 2 玩家挑戰(zhàn)OpenAI Five。
這場“人機(jī)大戰(zhàn)”的競技場于北京時間 4 月 22 日正式落幕。AI 在 Dota 2 競技場上獲得的最終成績?yōu)?7215 : 42,勝率高達(dá) 99.4%,足以看出 OG 的敗北并不是偶然事件。
相比較 8 個多月前 TI8 上的表現(xiàn),我們能明顯看到 AI 的進(jìn)步。比賽中有很多亮眼和極限操作,比如死血冰女果斷開大反殺兩人,家常便飯一樣的吹風(fēng)/BKB 躲先手,走走停停的暗影護(hù)符卡視野等等,頂級人類玩家都未必能保證 100% 做到。
除了驚訝于 AI 的進(jìn)步速度,Dota 社區(qū)有很多聲音認(rèn)為 OG 只是“隨便玩玩,沒認(rèn)真打”,而 OpenAI 隨后推出的競技場模式,就像是一封 AI 遞給人類的戰(zhàn)書,上書四個大字:You Can You Up。
筆者作為 Dota 老玩家,必然不能錯過這千載難逢的機(jī)會,但由于找不到足夠的人手對抗 AI,只能自己帶 4 個 AI 娛樂一下。在連輸兩局之后基本摸清了 AI 隊(duì)友的脾氣(從不聽話)和制裁 AI 的套路(隱身等于無敵),通過瘋狂帶線和毒瘤發(fā)育連贏三場“膀胱局”(指游戲時間特別長的對局),總算是勉強(qiáng)保住了 5000 分的尊嚴(yán)。
AI 稱霸,但人類大神達(dá)成十連勝
競技場有兩種模式,一種是五名人類玩家組隊(duì)對抗 AI,另一種是人類 + AI 的合作模式。
目前競技場已經(jīng)關(guān)閉,OpenAI 還未放出詳細(xì)的比賽錄像和結(jié)果解析,不過根據(jù)排行榜數(shù)據(jù)和社區(qū)反饋,我們可以挖掘出很多關(guān)于 OpenAI Five 的特征。
值得注意的是,AI 的 99% 勝率看似恐怖,其實(shí)里面有很多“水分”,比如組隊(duì)娛樂的玩家。最有分析價值的還是人類獲勝的比賽。
排行榜顯示,在人類獲勝的 42 場比賽中,有一些來自于天梯大神隊(duì)伍,還有一些知名 Dota 2 主播的隊(duì)伍,比如 Twitch 平臺的 Waga,也有中國玩家熟悉的 OB 五人組和 Zard/天使焦/Fade/戰(zhàn)術(shù)大師 Rubick 等人。
在這些隊(duì)伍中,有一支隊(duì)長是“ainodehna”的隊(duì)伍一枝獨(dú)秀,取得了對抗 AI 的十連勝。相比之下,排名第二的隊(duì)伍僅有三連勝。
Steam 和 DotaBuff 的資料顯示,隊(duì)伍成員應(yīng)該來自于俄羅斯或獨(dú)聯(lián)體地區(qū),其中的 ainodehna 和 junior 單排天梯分都在 7000 以上,獲得了冠絕一世獎?wù)拢瑲W服排名分別是 294 和 227。而且他們還有電競選手資料,很可能曾經(jīng)加入過職業(yè)或準(zhǔn)職業(yè)隊(duì)伍。
熱心網(wǎng)友教你識破 AI 套路
即便如此,想要獲得十連勝也絕對不是一件容易的事。哪怕是兩支水平相近的人類隊(duì)伍對戰(zhàn),也很少有這樣的連勝,他們所用的技巧因此引發(fā)了熱議。
由于這些比賽會在 Twitch 上直播,也會有人將人類勝利的視頻放到 YouTube 上,所以很快就有熱心網(wǎng)友在 Reddit 論壇上整理出了“如何打敗 AI”的帖子。
最開始的 1000 局比賽里,人類隊(duì)伍只贏了 3 局。但隨著時間的推移,OpenAI 的弱點(diǎn)逐漸暴露。就像所有游戲的 AI 一樣,如果你足夠強(qiáng),擊敗 AI 總有套路可尋。
AI 的 5V5 團(tuán)戰(zhàn)和遭遇戰(zhàn)都很強(qiáng),但卻不擅長應(yīng)對帶線和分推戰(zhàn)術(shù),不擅長插眼和反眼,對信使的保護(hù)也很糟糕。它們在逆風(fēng)局的時候大多窩在家里「打麻將」,不愛主動出擊,甚至還會頂著偷塔保護(hù)強(qiáng)拆兵營和基地,直到自己的高地建筑幾乎被拆光了才回家。
最致命的是,AI 非常不擅長應(yīng)對隱身單位,隱身等于無敵。
圖 | 面對 AI,隱身等于無敵
于是就有了三輔助牽扯 AI 五人,兩大哥隱刀 BKB 拆家這樣的騷套路。還有網(wǎng)友表示,隱刺出了輝耀之后可以一直灼燒 AI 英雄,可是 AI 看不見隱刺,也不知道自己掉血的原因是輝耀隱刺在附近——人類玩家可以瞬間理解這種情況。
由此我們能夠看出,獲得了上千場勝利的 AI 似乎并未“學(xué)會”如何打 Dota,很多常識人類通過十幾局游戲就能快速掌握,但卻是AI學(xué)不明白的技巧。
AI 的強(qiáng)大是建立在靈活走位、反應(yīng)迅速、無縫銜接技能和精準(zhǔn)控制血量之上的“變態(tài)”微操作,它能夠依靠這些打贏遭遇戰(zhàn)和團(tuán)戰(zhàn),但是面對人類故意設(shè)下的圈套或者隱身單位,它仍然缺乏合理的推理能力。
圖 | 人類強(qiáng)拆兵營,AI 卻只顧中路打架
換言之,在已經(jīng)大規(guī)模減少復(fù)雜度的游戲中,AI 仍然難以透過復(fù)雜的表面看到本質(zhì),比如 AI 自己控制的英雄在不斷掉血,周圍卻沒有看到敵方英雄(表面),為什么會這樣(本質(zhì))?下一步該怎么辦?
打個比方,OpenAI Five 就像一個嚴(yán)重偏科的學(xué)生,有的科目能得 120 分,有的卻只能得 20 分。獲得連勝的隊(duì)伍正是揚(yáng)長避短,利用明顯的“木桶效應(yīng)”不斷制裁 AI,頗有幾分田忌賽馬的感覺。
OpenAI 自己也認(rèn)為,大規(guī)模的競技場測試會回答一個重要的研究問題:OpenAI Five 在多大程度上可以被人類找到漏洞,進(jìn)而被反復(fù)擊敗。
向“通用人工智能技術(shù)”進(jìn)軍
我們可以將這一問題擴(kuò)大到整個深度學(xué)習(xí)領(lǐng)域,甚至是通用人工智能技術(shù)(AGI)。
簡單來說,AGI 就是和人類智能水平相似的 AI 系統(tǒng),能夠進(jìn)行感知、推理、學(xué)習(xí)、決策、行動和交流等任務(wù),不必局限于某個應(yīng)用領(lǐng)域,可以創(chuàng)造靈活的通用解決方案,能在很多領(lǐng)域替代人類。
按照 OpenAI 的愿景,今天陪人類玩游戲的 AI 系統(tǒng),明天很可能拓展到自動化和機(jī)器人領(lǐng)域,有望成為AGI 的雛形。
OpenAI 本指望通過競技場為 AI 積累通用經(jīng)驗(yàn),但如今可能會面臨一個數(shù)據(jù)較少的嚴(yán)峻考驗(yàn):人類只贏了 42 場,這對于動輒分析數(shù)萬場訓(xùn)練數(shù)據(jù)的 AI 來說,實(shí)在是九牛一毛,它真的可以從中學(xué)到什么嗎?
圖 | OpenAI 每天的訓(xùn)練量相當(dāng)于玩 180 年 Dota 游戲
假設(shè) OpenAI Five 想要變成 AGI 的雛形,那么它的學(xué)習(xí)能力就應(yīng)該媲美人類。
人類有什么樣的學(xué)習(xí)能力呢?從競技場的例子可以看出,AI 一開始連贏了 500 場,但一支人類頂尖隊(duì)伍在嘗試 2 次之后就獲得了勝利,之后還獲得了連勝。
隨著人類不斷挖掘 AI 的弱點(diǎn),只用了 1 天就摸清了 AI 的套路,做到了可以穩(wěn)定擊敗 AI,最后取得十連勝(這支隊(duì)伍在競技場結(jié)束之后還在直播打 OpenAI,繼續(xù)保持了連勝記錄)。
也就是說,人類整體只用了幾百場游戲、頂尖個體甚至只用了 2 場游戲,就“學(xué)會了”如何反復(fù)擊敗訓(xùn)練了 4.5 萬年的 AI,兩者的學(xué)習(xí)效率差距顯而易見。
當(dāng)然,在比賽的過程中,OpenAI 自身是鎖定的,不會學(xué)習(xí),也不會改變,給了人類找到套路的機(jī)會。但這并不能改變它需要的訓(xùn)練數(shù)據(jù)遠(yuǎn)超人類的事實(shí)。
圖 | 雙大哥隱刀 BKB 拆家
從大數(shù)據(jù)到小數(shù)據(jù)
現(xiàn)代機(jī)器學(xué)習(xí)領(lǐng)域最熱門的莫過于深度學(xué)習(xí)(AlphaGo)和強(qiáng)化學(xué)習(xí)(OpenAI Five)等人工神經(jīng)網(wǎng)絡(luò)。當(dāng) AI 系統(tǒng)一次次在圍棋、電子游戲、圖像識別、自然語言處理等多個應(yīng)用領(lǐng)域追上、甚至超越人類后,很多人都在使用這些技術(shù)探索可以應(yīng)用于多個領(lǐng)域的 AGI 的可能性。
但是,這些技術(shù)都依賴于海量數(shù)據(jù)和計(jì)算資源,比如訓(xùn)練 AI 識別醫(yī)療影像,進(jìn)行中英翻譯或聽懂你說的話,均需要數(shù)十萬份訓(xùn)練數(shù)據(jù)才能訓(xùn)練出表現(xiàn)出色的模型。但它們也只能在特定場景下才能使用。因此,相對于被稱之為“強(qiáng)人工智能”的 AGI,這類 AI 系統(tǒng)普遍被稱為“弱”或“窄人工智能”(Narrow AI)。
如果想再更進(jìn)一步,進(jìn)軍 AGI,首先要攻克的就是在冷門應(yīng)用場景下,訓(xùn)練數(shù)據(jù)稀少的問題。
目前已有類似的努力,比如“僅需”數(shù)千個數(shù)據(jù)就能生效的生成模型(Generative Models)、數(shù)據(jù)需求進(jìn)一步降低至數(shù)百的遷移學(xué)習(xí)(Transfer Learning),可以從零開始的單樣本學(xué)習(xí)(one-shot learning)和自我對戰(zhàn) (Self-Play),這都是近幾年的新興概念。
生成模型的基礎(chǔ)思想為“訓(xùn)練算法來生成自己的訓(xùn)練數(shù)據(jù)”,通過生成一個能夠抽取出基類數(shù)據(jù)的模型,根據(jù)少量的訓(xùn)練數(shù)據(jù),憑空“想”出大量的訓(xùn)練數(shù)據(jù)。對于圖像來說,迄今最成功的生成模型是生成對抗網(wǎng)絡(luò)(GAN)。正如生成對抗網(wǎng)絡(luò)的發(fā)明人 Ian Goodfellow 所說的,生成模型給機(jī)器帶來了“想象力”。
但是,有些應(yīng)用場景連訓(xùn)練生成模型的數(shù)據(jù)都湊不夠。因此,由人類兒童學(xué)習(xí)方式啟發(fā)的遷移學(xué)習(xí)誕生了。
遷移學(xué)習(xí)是深度學(xué)習(xí)領(lǐng)域?yàn)榱私鉀Q其海量數(shù)據(jù)需求而開發(fā)的一種手段。其基礎(chǔ)在于先用一個有著大量訓(xùn)練數(shù)據(jù)的場景訓(xùn)練模型。完成訓(xùn)練后,該模型的特征將適用于所有跟這個應(yīng)用場景相關(guān)或類似的具體場景。
換句話說,這個模型“學(xué)會”的特征可以被“遷移”到另外一個應(yīng)用場景。比如用具有 1400 萬張照片的 ImageNet 去訓(xùn)練一個圖像識別模型(通用特征),然后再訓(xùn)練這個模型去具體地識別醫(yī)療成像中的腫瘤(具體應(yīng)用)。
但遷移學(xué)習(xí)的基礎(chǔ)也限制了它的應(yīng)用場景:如果一個任務(wù)的所有相關(guān)任務(wù)都缺少數(shù)據(jù)(比如打 Dota 2),就無法訓(xùn)練遷移學(xué)習(xí)所需的“通用模型”(生成模型因此也不適用)。這也是將深度學(xué)習(xí)擴(kuò)散到新的(少數(shù)據(jù))應(yīng)用領(lǐng)域時所面臨的最大挑戰(zhàn)。
在計(jì)算機(jī)視覺任務(wù)領(lǐng)域,為了減少對訓(xùn)練數(shù)據(jù)的依賴,研究人員正在努力研發(fā)單樣本學(xué)習(xí)。單樣本,指的是借助元學(xué)習(xí)(Meta Learning)技術(shù)的支持,只用展示一張圖片或者一段演示,就可以讓 AI 認(rèn)識某個物品,學(xué)會某種技能,從而具備一種“觸類旁通”的能力。
而在其他從零開始的應(yīng)用場景中,AI 可以根據(jù)規(guī)則在自我對戰(zhàn)中進(jìn)行學(xué)習(xí),這也正是 OpenAI Five 和 DeepMind 的 AlphaGo Zero 所使用的技術(shù)。自我對戰(zhàn)最大的優(yōu)勢在于可以“從零開始”,在大量的對戰(zhàn)中進(jìn)行優(yōu)化,用大量的計(jì)算力和訓(xùn)練時間來掌握一個技能。
無論哪種方法,我們都能看出類似的趨勢:減少數(shù)據(jù)需求。但是,從 OpenAI Five 競技場的表現(xiàn)來看,雖然現(xiàn)有的技術(shù)手段能夠有效地減少對數(shù)據(jù)的依賴,卻依然無法有效地提高模型訓(xùn)練的速度。
所幸,提升學(xué)習(xí)速度也是當(dāng)下機(jī)器學(xué)習(xí)領(lǐng)域的一個大熱門。可以預(yù)見的是,從 AI 到 AGI,將是一個漫長的發(fā)展歷程,而只借助少量數(shù)據(jù)就能迅速學(xué)習(xí)新技能的能力,將是發(fā)展過程中的最大難題之一。
-
電子游戲
+關(guān)注
關(guān)注
0文章
39瀏覽量
9895 -
AI
+關(guān)注
關(guān)注
87文章
30146瀏覽量
268414
原文標(biāo)題:AI Dota2雖完虐人類卻弱點(diǎn)頻現(xiàn) | OpenAI Five親測報告
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論