亚洲欧洲国产码专区在线观看_日韩精品电影综合区亚洲_国产成人亚洲综合无码精品_久久精品人妻人妻人人玩

現(xiàn)代機(jī)器人技術(shù)在運動類任務(wù)上的表現(xiàn)已經(jīng)很驚艷，比如搬運重物、雪地行走等，但對于人和目標(biāo)的交互式任務(wù)，比如餐桌擺盤、裝飾房間等多半還無能為力。近日，斯坦福大學(xué)研究人員就試圖通過大型視頻集來識別、表示和生成人與物體間的真實交互。

近幾年來，虛擬現(xiàn)實（VR）和機(jī)器人平臺技術(shù)已經(jīng)取得了巨大進(jìn)步。這些平臺現(xiàn)在可以讓我們體驗更加身臨其境的虛擬世界，讓機(jī)器人幫我們完成具有挑戰(zhàn)性的運動類任務(wù)，例如在雪中行走，搬運重物等。那么，我們能否很快就能擁有可以會擺放餐桌、會做菜的機(jī)器人了呢？

很遺憾，這個目標(biāo)現(xiàn)在離我們還有點遠(yuǎn)。

在日常生活中人與物體發(fā)生相互作用的一些例子

為什么？要弄清這個問題，需要從日常人類生活中的相互作用的多樣性說起。我們幾乎無時無刻不在進(jìn)行活動，這些活動中包括簡單的動作，比如吃水果，或更復(fù)雜一些的，比如做飯。這些活動中都會發(fā)生人和周圍事物的相互作用，這個過程是多步的，會受到物理學(xué)、人類目標(biāo)，日常習(xí)慣和生物力學(xué)的支配。

為了開發(fā)更具動態(tài)性的虛擬世界和更智能的機(jī)器人，我們需要教機(jī)器捕獲，理解和復(fù)制這些交互行為。我們可以以大型視頻集（如YouTube，Netflix，F(xiàn)acebook）的形式，廣泛提供了解這些交互所需的信息。

本文將描述從視頻中學(xué)習(xí)人與對象的多級交互活動所采取的一些初級步驟。主要討論生成適用于VR/ AR技術(shù)的人與對象交互動畫，研究如何使機(jī)器人能巧妙地對用戶行為和交互作出反應(yīng)。

問題和挑戰(zhàn)

我們將研究重點放在人類進(jìn)行的各種交互活動的子集上，常見的如家用桌上或辦公室中的人與物體的交互，比如用手拿取桌子上的目標(biāo)。下圖中類似的桌面交互活動占到我們?nèi)粘Ｐ袨橹械暮艽笠徊糠郑捎谑?物體的配置空間很大，因此這些交互活動的模式和特征難以捕獲。

上圖是我們收集的視頻中的一些桌面交互活動實例。我們收集了75個視頻（20個驗證視頻）。

我們的目標(biāo)是通過學(xué)習(xí)大型視頻集來識別、表示和生成這些真實的交互。這必須要解決具有挑戰(zhàn)性的基于視覺的識別任務(wù)，產(chǎn)生與當(dāng)前和過去的環(huán)境狀態(tài)一致、時間空間一致的多步交互。這些交互還應(yīng)符合基本物理定律（比如不能穿透物體），人類習(xí)慣（比如不能端著帶杯柄的咖啡杯），并受到人體生物力學(xué)特征的限制（比如夠不到太遠(yuǎn)的物體）。

動作劃分（Ac tion Plots）表示

人類活動的空間及其支持的相互作用存在無數(shù)可能。與對象的交互會導(dǎo)致連續(xù)的時空上的轉(zhuǎn)換，使交互模式難以形式化。不過，這些復(fù)雜的相互作用可以按照順序進(jìn)行建模，即總結(jié)出從給定狀態(tài)到后續(xù)狀態(tài)的變化概率。

為了在這個順序模型中進(jìn)行參數(shù)化表示，我們引入了一個稱為動作劃分（action plot）的表示，負(fù)責(zé)表示由手完成的、導(dǎo)致場景中的狀態(tài)發(fā)生改變的一系列動作。每個動作定義交互中的唯一階段，并表示為動作元組，每個動作元組由動作標(biāo)簽、持續(xù)時間、參與對象、結(jié)束狀態(tài)和位置組成。這種離散化處理方式更加突出了人與物體相互作用的組合性質(zhì)，同時抽象出時空變換的復(fù)雜度。

從視頻中識別人與物體的交互

學(xué)習(xí)生成包含多步驟交互行為的動作劃分，捕捉現(xiàn)實世界中人和物體交互行為的物理約束和因果關(guān)系。我們的目標(biāo)是從人類場景交互的視頻集合中進(jìn)行自動學(xué)習(xí)，因為這是一種快速，廉價、多功能的設(shè)置。為了完全表示動作劃分，需要首先獲取有關(guān)對象的實例、類別和位置，然后確定手的位置，最后進(jìn)行動作檢測和分割，這些信息都要從視頻中提取，難度很大。

我們通過自動化的pipeline，利用計算機(jī)視覺領(lǐng)域的最新進(jìn)展，在動作劃分任務(wù)上實現(xiàn)了最高的精度。

對象和實例跟蹤：動作劃分中的一個重要組成部分是對象類別、實例、位置和狀態(tài)。我們使用基于更快的R-CNN架構(gòu)的物體檢測器來在每幀圖像中找到候選邊界框和標(biāo)簽和對象位置，通過時間濾波減少檢測抖動。為了推斷對象的狀態(tài)，在每個邊界框的內(nèi)容上訓(xùn)練分類器。

手部檢測：由于大多數(shù)交互涉及手部，因此圖像處理目的是推斷出手在操縱哪些物體，以及手部遮擋時的物體位置。我們使用完全卷積神經(jīng)網(wǎng)絡(luò)（FCN）架構(gòu)來檢測手部動作。該網(wǎng)絡(luò)使用來自GTEA數(shù)據(jù)集中的手工掩模的數(shù)據(jù)進(jìn)行訓(xùn)練，并根據(jù)我們視頻集的子集進(jìn)行微調(diào)。通過手部檢測和物體的運動方式，可以推斷出手的實時狀態(tài)（是空閑，還是被占用），這是一個重要的信息。

動作劃分：要為每個視頻幀生成動作標(biāo)簽，我們需要識別所涉及的動作以及它們的開始和結(jié)束時間（即動作分段）。我們采用兩階段方法：（1）為每幀圖像提取有意義的圖像特征，（2）利用提取的特征對每幀的動作標(biāo)簽進(jìn)行分類，并對動作進(jìn)行分段劃分。為了增加動作劃分的魯棒性，使用LSTM網(wǎng)絡(luò)來暫時聚合信息。詳細(xì)信請參閱論文。

使用遞歸神經(jīng)網(wǎng)絡(luò)生成

利用上文中描述的動作劃分表示可以對復(fù)雜的時空交互進(jìn)行緊湊編碼，第2部分中的識別系統(tǒng)可以利用視頻創(chuàng)建動作劃分。現(xiàn)在的目標(biāo)是使用視頻集合中提取的動作圖來學(xué)習(xí)生成新的交互。為了使問題易于處理，我們將動作元組中的時變和時不變參數(shù)進(jìn)行解耦處理，更具體地說，是使用多對多RNN來建模，并利用與時間無關(guān)的高斯混合模型。

時間依賴性動作分割RNN：從自然語言處理中的類似序列問題中汲取靈感，使用狀態(tài)保持遞歸神經(jīng)網(wǎng)絡(luò)（RNN）來模擬交互事件中與時間相關(guān)的參數(shù)。

動作分割RNN會學(xué)習(xí)并預(yù)測包括動作標(biāo)簽、活動對象，對象狀態(tài)和持續(xù)時間組成的下一狀態(tài)。每個時間步長上的輸入會首先嵌入到指定大小的向量中。

與時間無關(guān)的物體位置模型：人和物體之間的許多相互作用需要通過建模，生成新的合理物體運動。物體的分布存在強(qiáng)烈的先驗性特征。比如在杯子周圍存在打開的瓶子是很常見的，但在筆記本電腦周圍就很少見。由于這些先驗性特征對時間因素的依賴性不高，我們可以利用高斯混合模型（GMM）對視頻集合進(jìn)行學(xué)習(xí)，并進(jìn)行建模。

與時間無關(guān)的對象位置模型的學(xué)習(xí)和建模。此圖為從視頻集合中學(xué)習(xí)的可能對象位置的熱圖。

結(jié)果與應(yīng)用實例

動畫合成：我們的方法可以學(xué)習(xí)單個動作的前后因果依賴性，所以可用于生成在訓(xùn)練期間未見過的新的動作圖像，并將這些動作圖渲染成逼真的動畫，如下圖所示。利用這一點可以產(chǎn)生虛擬/增強(qiáng)現(xiàn)實領(lǐng)域的新應(yīng)用，向人們傳授新技能（比如沖咖啡）。

機(jī)器人仿真和運動規(guī)劃：可以在智能和反應(yīng)環(huán)境中啟用應(yīng)用，改善老年人和殘疾人的生活。我們開發(fā)了帶差動驅(qū)動器的機(jī)器杯。杯子的動作由實時識別、表示和生成pipeline驅(qū)動。杯子可以實時捕獲交互并編碼為動作圖像，預(yù)測可能的未來狀態(tài)。機(jī)器人使用這些預(yù)測來做出適當(dāng)?shù)姆磻?yīng)。

下圖中的“召喚杯”顯示出用手抓杯子的過程。智能杯子會朝人手的方向移動，以防用戶伸手夠不到。但是，如果檢測到用戶的手中之前已經(jīng)拿了一本書，智能杯就不會移動，因為我們的方法隱式學(xué)會了“一次只讓手拿住一個物體”的物理約束。

“召喚杯”表現(xiàn)出了手、智能杯子和瓶子之間更復(fù)雜相互作用的實例。當(dāng)手去移動裝滿的瓶子時，智能杯自動定位以便手將瓶中的水倒進(jìn)杯里。但是，當(dāng)檢測到瓶子是空的時，智能杯不會做出反應(yīng)。只有掌握復(fù)雜的人和對象之間的交互特征，才能實現(xiàn)這種語義規(guī)劃。

討論與未來方向

本研究是識別、表示和生成合理的動態(tài)人與對象交互過程的第一步。我們提出了一種方法，通過識別視頻中的交互過程，使用動作劃分緊湊地表示出這些交互，并生成新的交互，從而自動學(xué)習(xí)視頻集合中的交互。雖然我們已經(jīng)取得了很大的成果，但仍有一些明顯的局限性。

我們用以進(jìn)行動作劃分的RNN無法捕獲的長時間范圍內(nèi)的活動。目前的應(yīng)用也僅限于桌上的交互式任務(wù)。在未來，我們計劃將研究范圍擴(kuò)展至長期的交互活動上，并改善我們生成的交互的合理性。

我們的方法為學(xué)習(xí)生成人與對象的交互活動提供了堅實的基礎(chǔ)。但是要想創(chuàng)建更具沉浸感和動態(tài)的虛擬現(xiàn)實，還需要進(jìn)行廣泛的研究，將來我們也許可以構(gòu)建會做晚餐、會洗碗的機(jī)器人。

本研究的論文將于2019年 Eurographics會議上發(fā)表。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
28231

瀏覽量
206621
虛擬現(xiàn)實

虛擬現(xiàn)實

+關(guān)注

關(guān)注
15

文章
2285

瀏覽量
94853
AR技術(shù)

AR技術(shù)

+關(guān)注

關(guān)注
4

文章
251

瀏覽量
17273

原文標(biāo)題：斯坦福黑科技打造新型交互機(jī)器人：看視頻一學(xué)就會！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

斯坦福大學(xué)研究人員就試圖通過大型視頻集來識別、表示和生成人與物體間的真實交互

評論

斯坦福大學(xué)開啟新項目尋找Apple Watch的健康新用途

斯坦福開發(fā)過熱自動斷電電池

斯坦福大學(xué)公開課：編程方法學(xué)-編程作業(yè)說明7

斯坦福大學(xué)公開課：編程方法學(xué)-編程作業(yè)說明6

斯坦福大學(xué)公開課：編程方法學(xué)-編程作業(yè)說明5

斯坦福大學(xué)公開課：編程方法學(xué)-作業(yè)5解答

斯坦福大學(xué)公開課：編程方法學(xué)-作業(yè)6

斯坦福大學(xué)公開課：編程方法學(xué)-作業(yè)6解答

斯坦福大學(xué)公開課：編程方法學(xué)-作業(yè)8解答

斯坦福大學(xué)公開課：編程方法學(xué)-編程作業(yè)說明3

斯坦福大學(xué)公開課：編程方法學(xué)-作業(yè)1解答

斯坦福大學(xué)公開課：編程方法學(xué)-作業(yè)4

斯坦福大學(xué)公開課：編程方法學(xué)-作業(yè)5

斯坦福大學(xué)開發(fā)觸感VR能真實感受虛擬世界

斯坦福大學(xué)研發(fā)全新AI輔助全息成像技術(shù)