還記得AlphaGo在圍棋上戰勝人類那時候的轟動嗎?現在一個名叫Pluribus的AI,在和世界撲克牌冠軍對戰的時候,完勝了人類。
也許你會認為AI能戰勝人類在今天已經是司空見慣的事了。但這次具有突破性的是,這場對戰不再是一對一,對手是15名人類頂尖撲克玩家。這也是AI首次在超過兩個人的游戲中擊敗人類玩家。
這次的德州撲克比賽為期12天,比賽撲克牌有超過10,000,以六人無限制玩法,Pluribus和15名頂尖玩家以兩種模式開展比賽。
▲Pluribus和五名職業撲克玩家對抗
第一種模式是1個Pluribus和5個人類玩家組賽,第二種模式是1個人類玩家和 5個Pluribus 組賽(每個Pluribus獨立并沒有相互配合)。第二種模式參賽的是2名作為撲克的傳奇人物——Darren Elia和Chris Ferguson,后者曾獲得6次世界冠軍。
比賽的結果是,Pluribus全盤獲勝。
假如它是人類玩家,按一個籌碼值1美元,便能以每小時1,000美元的驚人速度不斷贏錢。
Pluribus由Facebook的人工智能團隊和卡內基梅隆大學計算機科學系人員共同研發,早在兩年前他們已經研發出了Libratus的撲克游戲系統,一直都是德州撲克的單挑賽中的世界贏家。
在和單個人類比賽中,博弈論能為AI提供最佳策略,因此 AI 可以完全掌控通往勝利的“特定路線”,通過預測每次游戲結束的結果,從而為下一步的行為作決定。
但這對于涉及多方利益且沒有明確條件的多人游戲場景并不適用。
由于Libratus難以確定所有玩家手里有什么牌,也不能了解對手的內心想法,從而無法捉摸對手是試探或是虛張聲勢,不能準確預知他們的每一個投注決定,因此游戲可以說是呈指數級地復雜化。
研究人員在Libratus的基礎上構建了Pluribus,它的不同之處在于新使用了一種稱為搜索功能的機制,能夠對接下來的未知行為進行展望,而不是在預測最終結果后反推。
在同時應對其余幾名玩家的復雜性之下,這種短期的敏銳性恰恰是最大的優勢。
從Libratus到Pluribus的進步,可以發現AI隨著進步,能夠使用更少的資源和更低的成本去制造。
比起動輒十萬美元的先進系統,Pluribus短短8天內創建,在云服務器上培訓也只用了不到150美元的費用。如今的Pluribus只用兩個CPU就能運行,而2016年的AlphaGo系統需要使用1,920個CPU才贏得游戲,而且Pluribus占用內存不到 128 GB,平均只需20秒就能下決定,速度是職業撲克玩家的兩倍。
這次的成果也是展現了AI研究的巨大進展。由于撲克游戲隱藏了信息和運氣元素,與人對弈時,它不能只是計算人類行為,而是要超越人類的行為。目前證明Pluribus已經可以對抗多個該領域內的頂尖人類,研究人員表示,客觀上來說,AI已經被證明可以稱為“超人”了。
對于后續的發展,聯合開發者Noam Brown認為Pluribus已經到達了撲克游戲的極限,完成了最后一個挑戰。接下來,這個技術將在更多場景被用到。例如網絡安全、欺詐檢測、金融談判等等,甚至還可以幫自動駕駛汽車導航交通。
畢竟AI能在多人場景中使用,還能處理隱藏信息的能力,才更符合現實生活中的挑戰。撲克游戲只是提供了一個現實世界的模型。
不過它的算法代碼就不會公開了,畢竟一旦公開,可能會毀掉所有撲克牌的世界了。
-
計算機
+關注
關注
19文章
7418瀏覽量
87712 -
人工智能
+關注
關注
1791文章
46845瀏覽量
237535
原文標題:15名世界頂尖的撲克牌玩家,都輸給了同一個對手。
文章出處:【微信號:luomajqrxt,微信公眾號:機器人學堂】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論