得益于索尼 AI 、索尼互動(dòng)娛樂(lè)( SIE )以及 GT Sport 的開發(fā)者 Polyphony Digital Inc 。的最新合作, Gran Turismo ( GT ) Sport 的競(jìng)爭(zhēng)對(duì)手正面臨一個(gè)新的、 AI 超級(jí)強(qiáng)大的競(jìng)爭(zhēng)者。
被稱為 Gran Turismo Sophy ( GT Sophy )的自主人工智能賽車代理最近擊敗了 GT 運(yùn)動(dòng)領(lǐng)域的世界最佳車手。發(fā)表在 Nature, 上的 工作 介紹了一種新的深度強(qiáng)化學(xué)習(xí)平臺(tái),用于創(chuàng)建 GT Sophy ,并可能為全球玩家?guī)?lái)新的人工智能體驗(yàn)。
索尼集團(tuán)公司董事長(zhǎng)、總裁兼首席執(zhí)行官吉田健一郎在一份 發(fā)布。 的聲明中說(shuō):“索尼的目的是‘通過(guò)創(chuàng)造力和技術(shù)的力量,讓世界充滿情感’,而大圖里斯莫·索菲就是這一點(diǎn)的完美體現(xiàn)。”
“我們?yōu)橛螒蛲婕掖蛟炝艘豢钣螒?AI ,這是索尼作為一家創(chuàng)意娛樂(lè)公司的獨(dú)特之處。它標(biāo)志著 AI 發(fā)展的重大飛躍,同時(shí)也為全球 GT 粉絲提供了增強(qiáng)的體驗(yàn)。”
Smart gaming
人工智能對(duì)游戲來(lái)說(shuō)并不新鮮。 2017 年,來(lái)自 DeepMind 的 Alpha Zero 項(xiàng)目在學(xué)會(huì)玩和征服國(guó)際象棋、日本象棋和使用深度強(qiáng)化學(xué)習(xí)( deep RL )圍棋時(shí)成為新聞
作為機(jī)器學(xué)習(xí)的一種補(bǔ)償, deep RL 在基本術(shù)語(yǔ)中使用計(jì)算 RL 代理通過(guò)試錯(cuò)來(lái)做出決策,以解決問(wèn)題。在算法中引入深度學(xué)習(xí)后,智能體從非常大的數(shù)據(jù)集做出決策,并決定有效地實(shí)現(xiàn)其目標(biāo)的行動(dòng)。
Alpha Zero 程序使用了一種算法,一個(gè)未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對(duì)自己進(jìn)行了數(shù)百萬(wàn)次游戲,并根據(jù)其結(jié)果調(diào)整游戲。
然而,賽車人工智能對(duì)來(lái)自不同汽車、賽道、駕駛員、天氣和對(duì)手的無(wú)數(shù)變量提出了更復(fù)雜的推理需求。作為最逼真的駕駛模擬器之一, GT Sport 使用真實(shí)的賽車和賽道尺寸,通過(guò)考慮空氣阻力和輪胎摩擦等因素再現(xiàn)比賽環(huán)境。
強(qiáng)化良好行為
該團(tuán)隊(duì)創(chuàng)建了一個(gè)能夠適應(yīng)實(shí)時(shí)因素的賽車代理,并使用新開發(fā)的 deep RL 算法對(duì) GT Sophy 進(jìn)行了賽車控制、賽車戰(zhàn)術(shù)和賽車禮儀三項(xiàng)具體技能的培訓(xùn)。根據(jù) project’s website ,該算法使用最新的強(qiáng)化學(xué)習(xí)技術(shù),根據(jù)賽車經(jīng)紀(jì)人的行為對(duì)其進(jìn)行獎(jiǎng)勵(lì)或懲罰。
研究人員在研究報(bào)告中寫道:“使用 deep RL 開發(fā)賽車代理的優(yōu)點(diǎn)之一是,工程師無(wú)需編程如何以及何時(shí)執(zhí)行贏得比賽所需的技能,只要它暴露在正確的條件下,代理通過(guò)反復(fù)試驗(yàn)學(xué)會(huì)做正確的事。”。
該團(tuán)隊(duì)定制了一個(gè)基于網(wǎng)絡(luò)的分布式異步部署和培訓(xùn)( DART )平臺(tái),使用 SIE 的全球云基礎(chǔ)設(shè)施研究人員在 PlayStation 4 控制臺(tái)上培訓(xùn) GT Sophy ,然后使用 DART 收集培訓(xùn)數(shù)據(jù)并評(píng)估代理的版本。
使用這個(gè)系統(tǒng),研究人員指定一個(gè)實(shí)驗(yàn),自動(dòng)運(yùn)行,并在網(wǎng)絡(luò)瀏覽器中查看數(shù)據(jù)。每個(gè)實(shí)驗(yàn)都在一個(gè)計(jì)算節(jié)點(diǎn)上使用一個(gè)培訓(xùn)師,該培訓(xùn)師使用 cuDNN 加速的 TensorFlow 深度學(xué)習(xí)框架和 NVIDIA V100 GPU 或 NVIDIA A100 GPU 的一半,再加上大約 8 個(gè) CPU 和 55 個(gè) 記憶的碎片。
據(jù) project’s website 報(bào)道,“該系統(tǒng)允許索尼人工智能的研究團(tuán)隊(duì)無(wú)縫地同時(shí)運(yùn)行數(shù)百個(gè)實(shí)驗(yàn),同時(shí)探索將 GT Sophy 提升到下一個(gè)水平的技術(shù)。”。
增壓燃?xì)廨啓C(jī)
在 2021 ,世界上最好的 GT 賽車手中有四人在兩個(gè)單獨(dú)的比賽中與 GT Suffy 競(jìng)爭(zhēng)。這些比賽包括三個(gè)賽馬場(chǎng)、四名 GT Sophy 經(jīng)紀(jì)人和賽車。在首次亮相時(shí), GT Sophy 在計(jì)時(shí)賽中表現(xiàn)出色,但在同一賽道上挑戰(zhàn)賽車手時(shí)表現(xiàn)不佳。
該隊(duì)在第一場(chǎng)比賽結(jié)果的基礎(chǔ)上進(jìn)行了改進(jìn),升級(jí)了訓(xùn)練體系,增加了網(wǎng)絡(luò)規(guī)模,調(diào)整了特征和獎(jiǎng)勵(lì),增強(qiáng)了對(duì)手。
這一結(jié)果造就了一名賽車經(jīng)紀(jì)人,他可以在急轉(zhuǎn)彎處超越一名人類駕駛員,處理?yè)頂D的起跑,在滑流中進(jìn)行彈弓傳球,并執(zhí)行防守動(dòng)作。經(jīng)紀(jì)人這樣做的同時(shí),也遵守了人類駕駛員理解和實(shí)踐的微妙的體育道德考慮。在計(jì)時(shí)賽和 FIA 認(rèn)證的格蘭賽車錦標(biāo)賽系列賽中,它也擊敗了頂尖的人力車手。
據(jù)報(bào)道, GT Sophy 在短短幾個(gè)小時(shí)內(nèi)就學(xué)會(huì)了繞道而行。在大約兩天的時(shí)間里,它可以擊敗大約 95% 的人類玩家。給它 10 到 12 天,大約 45 , 00 個(gè)駕駛小時(shí), GT Sophy 就等于或超過(guò)了世界頂級(jí)車手。
憑借其賽車實(shí)力, GT Sophy 的目標(biāo)是讓 GT 運(yùn)動(dòng)更有趣、更具競(jìng)爭(zhēng)力和教育性。一些與 GT Sophy 競(jìng)爭(zhēng)的專家報(bào)告說(shuō),他們學(xué)習(xí)了轉(zhuǎn)彎和駕駛技術(shù)的新方法。
研究人員還發(fā)現(xiàn), deep RL 有可能改善協(xié)作機(jī)器人、無(wú)人機(jī)或自動(dòng)駕駛車輛等系統(tǒng)的實(shí)際應(yīng)用。
關(guān)于作者
Michelle Horton 是 NVIDIA 的高級(jí)開發(fā)人員通信經(jīng)理,擁有通信經(jīng)理和科學(xué)作家的背景。她在 NVIDIA 為開發(fā)者博客撰文,重點(diǎn)介紹了開發(fā)者使用 NVIDIA 技術(shù)的多種方式。
審核編輯:郭婷
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28224瀏覽量
206594 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4946瀏覽量
102822 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
783文章
13690瀏覽量
166162
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論