AI模型將視覺(jué)和語(yǔ)言轉(zhuǎn)化為機(jī)器人動(dòng)作。
7月28日,谷歌DeepMind推出了一款新的機(jī)器人模型Robotics Transformer 2(RT-2)。
這是一個(gè)全新的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中學(xué)習(xí),并將這些知識(shí)轉(zhuǎn)化為機(jī)器人控制的通用指令。
高容量視覺(jué)-語(yǔ)言模型(VLMs)在web-scale數(shù)據(jù)集上訓(xùn)練,使得這些系統(tǒng)非常擅長(zhǎng)識(shí)別視覺(jué)或語(yǔ)言模式并跨不同語(yǔ)言進(jìn)行操作。但是,要使機(jī)器人達(dá)到類(lèi)似的能力水平,需要收集每個(gè)物體、環(huán)境、任務(wù)和情況的第一手機(jī)器人數(shù)據(jù)。
在Google DeepMind的論文中介紹了Robotics Transformer 2(RT-2),一個(gè)全新的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,它從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中學(xué)習(xí),并將這些知識(shí)轉(zhuǎn)化為機(jī)器人控制的通用指令,同時(shí)保留了web-scale能力。
?
一個(gè)在web-scale數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型(VLM)正在從RT-1的機(jī)器人數(shù)據(jù)中學(xué)習(xí),以成為可以控制機(jī)器人的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,RT-2。
這項(xiàng)工作建立在Robotic Transformer 1(RT-1)的基礎(chǔ)上。RT-1是一個(gè)經(jīng)過(guò)多任務(wù)演示訓(xùn)練的模型,可以學(xué)習(xí)機(jī)器人數(shù)據(jù)中看到的任務(wù)和對(duì)象的組合。更具體地說(shuō),Google DeepMind的工作使用了在辦公室廚房環(huán)境中用13臺(tái)機(jī)器人在17個(gè)月的時(shí)間內(nèi)收集的RT-1機(jī)器人演示數(shù)據(jù)。
RT-2表現(xiàn)出了更好的泛化能力,超越了它所接觸到的機(jī)器人數(shù)據(jù)的語(yǔ)義和視覺(jué)理解,包括解釋新命令并通過(guò)執(zhí)行基本推理(例如關(guān)于對(duì)象類(lèi)別或高級(jí)描述的推理)來(lái)響應(yīng)用戶(hù)命令。
Google DeepMind研究團(tuán)隊(duì)還展示了將思維鏈推理納入RT-2中使其能夠進(jìn)行多階段語(yǔ)義推理,例如決定哪種物體可以用作一把臨時(shí)錘子(石頭),或者哪種飲料最適合疲倦的人(能量飲料)。
1.采用視覺(jué)語(yǔ)言模型進(jìn)行機(jī)器人控制
?
RT-2以視覺(jué)-語(yǔ)言模型(VLMs)為基礎(chǔ),將一個(gè)或多個(gè)圖像作為輸入,并生成一系列通常表示自然語(yǔ)言文本的標(biāo)記。此類(lèi)VLMs已經(jīng)在大規(guī)模網(wǎng)絡(luò)的數(shù)據(jù)上成功訓(xùn)練,用于執(zhí)行視覺(jué)問(wèn)答、圖像字幕或?qū)ο笞R(shí)別等任務(wù)。在Google DeepMind的工作中,將Pathways Language and Image model(PaLI-X)和 Pathways Language model Embodied(PaLM-E)作為RT-2的支柱。
要控制一個(gè)機(jī)器人,必須對(duì)其進(jìn)行訓(xùn)練以輸出動(dòng)作。Google DeepMind研究團(tuán)隊(duì)通過(guò)將動(dòng)作表示為模型輸出中的標(biāo)注(類(lèi)似于語(yǔ)言標(biāo)記)來(lái)解決這一挑戰(zhàn),并將動(dòng)作描述為可以由標(biāo)準(zhǔn)自然語(yǔ)言標(biāo)記化處理的字符串,如下所示:
在RT-2的訓(xùn)練中,動(dòng)作字符串的表示方式。這種字符串的示例可以是機(jī)器人動(dòng)作標(biāo)記編號(hào)的序列,例如:“1 128 91 241 5 101 127 217”。
該字符串以一個(gè)標(biāo)志開(kāi)始,指示是繼續(xù),還是終止當(dāng)前情節(jié)不執(zhí)行后續(xù)命令,然后機(jī)器人根據(jù)指示更改末端執(zhí)行器的位置和旋轉(zhuǎn)以及機(jī)器人抓手所需伸展的命令。
Google DeepMind研究團(tuán)隊(duì)使用與RT-1中相同的機(jī)器人動(dòng)作離散版本,并表明將其轉(zhuǎn)換為字符串表示使得可以在機(jī)器人數(shù)據(jù)上訓(xùn)練VLM模型,因?yàn)榇祟?lèi)模型的輸入和輸出空間無(wú)需改變。
?
RT-2的架構(gòu)和訓(xùn)練:對(duì)一個(gè)預(yù)訓(xùn)練的VLM模型在機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行共同微調(diào)。生成的模型接收機(jī)器人攝像頭圖像并直接預(yù)測(cè)機(jī)器人要執(zhí)行的動(dòng)作。
2.泛化和涌現(xiàn)能力
?
Google DeepMind研究團(tuán)隊(duì)對(duì)RT-2模型進(jìn)行了一系列定性和定量實(shí)驗(yàn),涵蓋了超過(guò)6000次機(jī)器人試驗(yàn)。在探索RT-2的涌現(xiàn)能力時(shí),首先尋找了需要將web-scale數(shù)據(jù)和機(jī)器人的經(jīng)驗(yàn)相結(jié)合的任務(wù),然后定義了三類(lèi)技能:符號(hào)理解、推理和人類(lèi)識(shí)別。 ?
每個(gè)任務(wù)都需要理解視覺(jué)-語(yǔ)義概念,并具備執(zhí)行機(jī)器人控制以對(duì)這些概念進(jìn)行操作的能力。例如,“拿起即將從桌子上掉下來(lái)的袋子”或“將香蕉移動(dòng)到2加1的和”,要求機(jī)器人對(duì)機(jī)器人數(shù)據(jù)中從未見(jiàn)過(guò)的對(duì)象或場(chǎng)景上執(zhí)行操作任務(wù),這需要從網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化而來(lái)的知識(shí)進(jìn)行操作。
機(jī)器人數(shù)據(jù)中不存在的涌現(xiàn)能力示例,需要從網(wǎng)絡(luò)預(yù)訓(xùn)練中進(jìn)行知識(shí)轉(zhuǎn)移。
在所有類(lèi)別中,與之前的基線(xiàn)相比(例如之前在大規(guī)模視覺(jué)數(shù)據(jù)集上預(yù)訓(xùn)練的RT-1模型和Visual Cortex(VC-1)等模型),RT-2的泛化性能提高到了3倍以上。
?
涌現(xiàn)能力評(píng)估的成功率:RT-2模型優(yōu)于之前的RT-1和VC-1基線(xiàn)。
Google DeepMind研究團(tuán)隊(duì)還進(jìn)行了一系列的定量評(píng)估,首先從最初的RT-1任務(wù)開(kāi)始,這些任務(wù)在機(jī)器人數(shù)據(jù)中有示例,然后繼續(xù)進(jìn)行對(duì)機(jī)器人來(lái)說(shuō)之前從未見(jiàn)過(guò)的不同程度的對(duì)象、背景和環(huán)境的評(píng)估,要求機(jī)器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化能力。 ?
機(jī)器人以前未見(jiàn)過(guò)的環(huán)境示例,RT-2可以推廣到新的情況。
RT-2在機(jī)器人數(shù)據(jù)中保持了對(duì)原始任務(wù)的性能,并提高了機(jī)器人在之前未曾見(jiàn)過(guò)的情景上的性能,從RT-1的32%提高到62%,顯示了大規(guī)模預(yù)訓(xùn)練的顯著好處。 ?
此外,Google DeepMind研究團(tuán)隊(duì)還觀(guān)察到與僅在視覺(jué)任務(wù)上預(yù)訓(xùn)練的基準(zhǔn)模型相比有顯著改進(jìn),例如VC-1和機(jī)器人操作的Reusable Representations for Robotic Manipulation(R3M),以及用VLM進(jìn)行對(duì)象識(shí)別的算法,例如Manipulation of Open-World Objects(MOO)。 ?
RT-2在分布內(nèi)可見(jiàn)的任務(wù)上實(shí)現(xiàn)了高性能,在分布外不可見(jiàn)的任務(wù)上優(yōu)于多個(gè)基線(xiàn)。
在開(kāi)源的“Language Table”機(jī)器人任務(wù)套件上評(píng)估模型,Google DeepMind研究團(tuán)隊(duì)在模擬環(huán)境中取得了90%的成功率,明顯優(yōu)于以前的基線(xiàn),包括BC-Z(72%)、RT-1(74%)和LAVA(77%)。 ?
然后研究團(tuán)隊(duì)在真實(shí)世界中評(píng)估了相同的模型(因?yàn)樗窃谀M和真實(shí)數(shù)據(jù)上進(jìn)行訓(xùn)練的),并展示了它泛化到新物體的能力,如下所示,訓(xùn)練數(shù)據(jù)集中除藍(lán)色立方體外,沒(méi)有其他對(duì)象存在。 ?
RT-2在真實(shí)機(jī)器人Language Table任務(wù)中表現(xiàn)良好。在訓(xùn)練數(shù)據(jù)中,除了藍(lán)色立方體之外,沒(méi)有其他對(duì)象存在。
受到LLM中使用的思維鏈提示方法的啟發(fā),研究團(tuán)隊(duì)對(duì)模型進(jìn)行了探測(cè),將機(jī)器人控制與思維鏈推理相結(jié)合,使得學(xué)習(xí)長(zhǎng)期規(guī)劃和簡(jiǎn)易技能可以在單個(gè)模型中實(shí)現(xiàn)。 ?
具體而言,研究團(tuán)隊(duì)對(duì)RT-2的一個(gè)變體進(jìn)行了幾百個(gè)梯度步驟的微調(diào),以增強(qiáng)其聯(lián)合使用語(yǔ)言和動(dòng)作的能力。然后對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,加入一個(gè)額外的“計(jì)劃”步驟,首先用自然語(yǔ)言描述機(jī)器人即將采取的動(dòng)作的目的,然后是“動(dòng)作”和動(dòng)作標(biāo)注。下面是一個(gè)這樣的推理示例和機(jī)器人的行為結(jié)果: ?
思維鏈推理可以學(xué)習(xí)一個(gè)獨(dú)立的模型,既可以規(guī)劃長(zhǎng)期技能序列,又可以預(yù)測(cè)機(jī)器人的動(dòng)作。 ?
通過(guò)這個(gè)過(guò)程,RT-2可以執(zhí)行更復(fù)雜的命令,需要推理完成用戶(hù)指令所需的中間步驟。得益于其VLM主干,RT-2可以從圖像和文本命令進(jìn)行規(guī)劃,從而實(shí)現(xiàn)視覺(jué)基礎(chǔ)規(guī)劃,而當(dāng)前的計(jì)劃和執(zhí)行方法(如SayCan)無(wú)法看到真實(shí)世界,完全依賴(lài)于語(yǔ)言。 ? ? ?
3.推進(jìn)機(jī)器人控制
?RT-2表明,視覺(jué)-語(yǔ)言模型(VLMs)可以轉(zhuǎn)變?yōu)閺?qiáng)大的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,通過(guò)將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,直接控制機(jī)器人。 ?
通過(guò)基于PaLM-E和PaLI-X的兩個(gè)VLA實(shí)例,RT-2導(dǎo)致了高度改進(jìn)的機(jī)器人策略,并且更重要的是,它具有顯著更好的泛化性和涌現(xiàn)能力,這些能力繼承自web-scale的視覺(jué)-語(yǔ)言預(yù)訓(xùn)練。 ?
RT-2不僅是現(xiàn)有VLM模型簡(jiǎn)單而有效的修改,而且顯示了構(gòu)建通用型物理機(jī)器人的前景,這種機(jī)器人可以進(jìn)行推理、問(wèn)題解決并解釋信息,以在真實(shí)世界中執(zhí)行各種任務(wù)。? ?
審核編輯:劉清
評(píng)論
查看更多