精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

斯坦福大學(xué)研究人員就試圖通過大型視頻集來識別、表示和生成人與物體間的真實交互

DPVg_AI_era ? 來源:lq ? 2019-05-19 10:02 ? 次閱讀

現(xiàn)代機(jī)器人技術(shù)在運動類任務(wù)上的表現(xiàn)已經(jīng)很驚艷,比如搬運重物、雪地行走等,但對于人和目標(biāo)的交互式任務(wù),比如餐桌擺盤、裝飾房間等多半還無能為力。近日,斯坦福大學(xué)研究人員就試圖通過大型視頻集來識別、表示和生成人與物體間的真實交互。

近幾年來,虛擬現(xiàn)實(VR)和機(jī)器人平臺技術(shù)已經(jīng)取得了巨大進(jìn)步。這些平臺現(xiàn)在可以讓我們體驗更加身臨其境的虛擬世界,讓機(jī)器人幫我們完成具有挑戰(zhàn)性的運動類任務(wù),例如在雪中行走,搬運重物等。那么,我們能否很快就能擁有可以會擺放餐桌、會做菜的機(jī)器人了呢?

很遺憾,這個目標(biāo)現(xiàn)在離我們還有點遠(yuǎn)。

在日常生活中人與物體發(fā)生相互作用的一些例子

為什么?要弄清這個問題,需要從日常人類生活中的相互作用的多樣性說起。我們幾乎無時無刻不在進(jìn)行活動,這些活動中包括簡單的動作,比如吃水果,或更復(fù)雜一些的,比如做飯。這些活動中都會發(fā)生人和周圍事物的相互作用,這個過程是多步的,會受到物理學(xué)、人類目標(biāo),日常習(xí)慣和生物力學(xué)的支配。

為了開發(fā)更具動態(tài)性的虛擬世界和更智能的機(jī)器人,我們需要教機(jī)器捕獲,理解和復(fù)制這些交互行為。我們可以以大型視頻集(如YouTube,Netflix,F(xiàn)acebook)的形式,廣泛提供了解這些交互所需的信息

本文將描述從視頻中學(xué)習(xí)人與對象的多級交互活動所采取的一些初級步驟。主要討論生成適用于VR/ AR技術(shù)的人與對象交互動畫,研究如何使機(jī)器人能巧妙地對用戶行為和交互作出反應(yīng)。

問題和挑戰(zhàn)

我們將研究重點放在人類進(jìn)行的各種交互活動的子集上,常見的如家用桌上或辦公室中的人與物體的交互,比如用手拿取桌子上的目標(biāo)。下圖中類似的桌面交互活動占到我們?nèi)粘P袨橹械暮艽笠徊糠郑捎谑?物體的配置空間很大,因此這些交互活動的模式和特征難以捕獲。

上圖是我們收集的視頻中的一些桌面交互活動實例。我們收集了75個視頻(20個驗證視頻)。

我們的目標(biāo)是通過學(xué)習(xí)大型視頻集來識別、表示和生成這些真實的交互。這必須要解決具有挑戰(zhàn)性的基于視覺的識別任務(wù),產(chǎn)生與當(dāng)前和過去的環(huán)境狀態(tài)一致、時間空間一致的多步交互。這些交互還應(yīng)符合基本物理定律(比如不能穿透物體),人類習(xí)慣(比如不能端著帶杯柄的咖啡杯),并受到人體生物力學(xué)特征的限制(比如夠不到太遠(yuǎn)的物體)。

動作劃分(Action Plots)表示

人類活動的空間及其支持的相互作用存在無數(shù)可能。與對象的交互會導(dǎo)致連續(xù)的時空上的轉(zhuǎn)換,使交互模式難以形式化。不過,這些復(fù)雜的相互作用可以按照順序進(jìn)行建模,即總結(jié)出從給定狀態(tài)到后續(xù)狀態(tài)的變化概率。

為了在這個順序模型中進(jìn)行參數(shù)化表示,我們引入了一個稱為動作劃分(action plot)的表示,負(fù)責(zé)表示由手完成的、導(dǎo)致場景中的狀態(tài)發(fā)生改變的一系列動作。每個動作定義交互中的唯一階段,并表示為動作元組,每個動作元組由動作標(biāo)簽、持續(xù)時間、參與對象、結(jié)束狀態(tài)和位置組成。這種離散化處理方式更加突出了人與物體相互作用的組合性質(zhì),同時抽象出時空變換的復(fù)雜度。

從視頻中識別人與物體的交互

學(xué)習(xí)生成包含多步驟交互行為的動作劃分,捕捉現(xiàn)實世界中人和物體交互行為的物理約束和因果關(guān)系。我們的目標(biāo)是從人類場景交互的視頻集合中進(jìn)行自動學(xué)習(xí),因為這是一種快速,廉價、多功能的設(shè)置。為了完全表示動作劃分,需要首先獲取有關(guān)對象的實例、類別和位置,然后確定手的位置,最后進(jìn)行動作檢測和分割,這些信息都要從視頻中提取,難度很大。

我們通過自動化的pipeline,利用計算機(jī)視覺領(lǐng)域的最新進(jìn)展,在動作劃分任務(wù)上實現(xiàn)了最高的精度。

對象和實例跟蹤:動作劃分中的一個重要組成部分是對象類別、實例、位置和狀態(tài)。我們使用基于更快的R-CNN架構(gòu)的物體檢測器來在每幀圖像中找到候選邊界框和標(biāo)簽和對象位置,通過時間濾波減少檢測抖動。為了推斷對象的狀態(tài),在每個邊界框的內(nèi)容上訓(xùn)練分類器。

手部檢測:由于大多數(shù)交互涉及手部,因此圖像處理目的是推斷出手在操縱哪些物體,以及手部遮擋時的物體位置。我們使用完全卷積神經(jīng)網(wǎng)絡(luò)(FCN)架構(gòu)來檢測手部動作。該網(wǎng)絡(luò)使用來自GTEA數(shù)據(jù)集中的手工掩模的數(shù)據(jù)進(jìn)行訓(xùn)練,并根據(jù)我們視頻集的子集進(jìn)行微調(diào)。通過手部檢測和物體的運動方式,可以推斷出手的實時狀態(tài)(是空閑,還是被占用),這是一個重要的信息。

動作劃分:要為每個視頻幀生成動作標(biāo)簽,我們需要識別所涉及的動作以及它們的開始和結(jié)束時間(即動作分段)。我們采用兩階段方法:(1)為每幀圖像提取有意義的圖像特征,(2)利用提取的特征對每幀的動作標(biāo)簽進(jìn)行分類,并對動作進(jìn)行分段劃分。為了增加動作劃分的魯棒性,使用LSTM網(wǎng)絡(luò)來暫時聚合信息。詳細(xì)信請參閱論文。

使用遞歸神經(jīng)網(wǎng)絡(luò)生成

利用上文中描述的動作劃分表示可以對復(fù)雜的時空交互進(jìn)行緊湊編碼,第2部分中的識別系統(tǒng)可以利用視頻創(chuàng)建動作劃分。現(xiàn)在的目標(biāo)是使用視頻集合中提取的動作圖來學(xué)習(xí)生成新的交互。為了使問題易于處理,我們將動作元組中的時變和時不變參數(shù)進(jìn)行解耦處理,更具體地說,是使用多對多RNN來建模,并利用與時間無關(guān)的高斯混合模型。

時間依賴性動作分割RNN:從自然語言處理中的類似序列問題中汲取靈感,使用狀態(tài)保持遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來模擬交互事件中與時間相關(guān)的參數(shù)。

動作分割RNN會學(xué)習(xí)并預(yù)測包括動作標(biāo)簽、活動對象,對象狀態(tài)和持續(xù)時間組成的下一狀態(tài)。每個時間步長上的輸入會首先嵌入到指定大小的向量中。

與時間無關(guān)的物體位置模型:人和物體之間的許多相互作用需要通過建模,生成新的合理物體運動。物體的分布存在強(qiáng)烈的先驗性特征。比如在杯子周圍存在打開的瓶子是很常見的,但在筆記本電腦周圍就很少見。由于這些先驗性特征對時間因素的依賴性不高,我們可以利用高斯混合模型(GMM)對視頻集合進(jìn)行學(xué)習(xí),并進(jìn)行建模。

與時間無關(guān)的對象位置模型的學(xué)習(xí)和建模。此圖為從視頻集合中學(xué)習(xí)的可能對象位置的熱圖。

結(jié)果與應(yīng)用實例

動畫合成:我們的方法可以學(xué)習(xí)單個動作的前后因果依賴性,所以可用于生成在訓(xùn)練期間未見過的新的動作圖像,并將這些動作圖渲染成逼真的動畫,如下圖所示。利用這一點可以產(chǎn)生虛擬/增強(qiáng)現(xiàn)實領(lǐng)域的新應(yīng)用,向人們傳授新技能(比如沖咖啡)。

機(jī)器人仿真和運動規(guī)劃:可以在智能和反應(yīng)環(huán)境中啟用應(yīng)用,改善老年人和殘疾人的生活。我們開發(fā)了帶差動驅(qū)動器的機(jī)器杯。杯子的動作由實時識別、表示和生成pipeline驅(qū)動。杯子可以實時捕獲交互并編碼為動作圖像,預(yù)測可能的未來狀態(tài)。機(jī)器人使用這些預(yù)測來做出適當(dāng)?shù)姆磻?yīng)。

下圖中的“召喚杯”顯示出用手抓杯子的過程。智能杯子會朝人手的方向移動,以防用戶伸手夠不到。但是,如果檢測到用戶的手中之前已經(jīng)拿了一本書,智能杯就不會移動,因為我們的方法隱式學(xué)會了“一次只讓手拿住一個物體”的物理約束。

“召喚杯”表現(xiàn)出了手、智能杯子和瓶子之間更復(fù)雜相互作用的實例。當(dāng)手去移動裝滿的瓶子時,智能杯自動定位以便手將瓶中的水倒進(jìn)杯里。但是,當(dāng)檢測到瓶子是空的時,智能杯不會做出反應(yīng)。只有掌握復(fù)雜的人和對象之間的交互特征,才能實現(xiàn)這種語義規(guī)劃。

討論與未來方向

本研究是識別、表示和生成合理的動態(tài)人與對象交互過程的第一步。我們提出了一種方法,通過識別視頻中的交互過程,使用動作劃分緊湊地表示出這些交互,并生成新的交互,從而自動學(xué)習(xí)視頻集合中的交互。雖然我們已經(jīng)取得了很大的成果,但仍有一些明顯的局限性。

我們用以進(jìn)行動作劃分的RNN無法捕獲的長時間范圍內(nèi)的活動。目前的應(yīng)用也僅限于桌上的交互式任務(wù)。在未來,我們計劃將研究范圍擴(kuò)展至長期的交互活動上,并改善我們生成的交互的合理性。

我們的方法為學(xué)習(xí)生成人與對象的交互活動提供了堅實的基礎(chǔ)。但是要想創(chuàng)建更具沉浸感和動態(tài)的虛擬現(xiàn)實,還需要進(jìn)行廣泛的研究,將來我們也許可以構(gòu)建會做晚餐、會洗碗的機(jī)器人。

本研究的論文將于2019年 Eurographics會議上發(fā)表。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    28231

    瀏覽量

    206621
  • 虛擬現(xiàn)實
    +關(guān)注

    關(guān)注

    15

    文章

    2285

    瀏覽量

    94853
  • AR技術(shù)
    +關(guān)注

    關(guān)注

    4

    文章

    251

    瀏覽量

    17273

原文標(biāo)題:斯坦福黑科技打造新型交互機(jī)器人:看視頻一學(xué)就會!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    斯坦福大學(xué)開啟新項目 尋找Apple Watch的健康新用途

    斯坦福大學(xué)最近宣布了一個新的研究項目,目的是研究和創(chuàng)新Apple Watch在健康服務(wù)領(lǐng)域的新用途。這一項目由斯坦福大學(xué)醫(yī)學(xué)院的數(shù)字健康中心發(fā)起,投入10000美元的項目基金,共購買1
    發(fā)表于 01-19 11:02 ?951次閱讀

    斯坦福開發(fā)過熱自動斷電電池

    ` 本帖最后由 梅利號 于 2016-1-12 11:59 編輯 據(jù)1月12日消息報道,斯坦福大學(xué)研究人員最近開發(fā)出一款新式鋰電池,當(dāng)電池過熱時它會自動關(guān)閉,一旦將這種電池安裝在電子設(shè)備中,如
    發(fā)表于 01-12 11:57

    斯坦福大學(xué)公開課:編程方法學(xué)-編程作業(yè)說明7

    斯坦福大學(xué)公開課:編程方法學(xué)-編程作業(yè)說明7
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-編程作業(yè)說明6

    斯坦福大學(xué)公開課:編程方法學(xué)-編程作業(yè)說明6
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-編程作業(yè)說明5

    斯坦福大學(xué)公開課:編程方法學(xué)-編程作業(yè)說明5
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-作業(yè)5解答

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-作業(yè)6

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-作業(yè)6解答

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-作業(yè)8解答

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-編程作業(yè)說明3

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-作業(yè)1解答

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:50 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-作業(yè)4

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:37 ?0次下載

    斯坦福大學(xué)公開課:編程方法學(xué)-作業(yè)5

    斯坦福大學(xué)公開課: 編程方法學(xué)-分課時課件與作業(yè)。
    發(fā)表于 12-14 20:37 ?0次下載

    斯坦福大學(xué)開發(fā)觸感VR能真實感受虛擬世界

    斯坦福大學(xué)的SHAPE實驗室就對這種抓空的失落感很不滿,他們研究出了一種變形顯示器Shapeshift試圖將觸覺引入到虛擬現(xiàn)實技術(shù)中。
    發(fā)表于 06-18 15:21 ?3254次閱讀

    斯坦福大學(xué)研發(fā)全新AI輔助全息成像技術(shù)

    據(jù)最新消息,斯坦福大學(xué)研究人員成功研制出全新AI輔助全息成像技術(shù),其薄度、重量及質(zhì)量均超過了當(dāng)前方案,有望推動增強(qiáng)現(xiàn)實(AR)眼鏡領(lǐng)域的發(fā)展。
    的頭像 發(fā)表于 05-10 14:48 ?551次閱讀