精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-10-23 09:40 ? 次閱讀

本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機交互團隊在視覺-語言導航(Vision-and-Language Navigation, VLN)領域的最新工作。該工作構建了 VLN 中首個帶有高質量實體-標志物對齊標注的數據集,并提出實體-標志物對齊的自適應預訓練方法,從而顯著提高了智能體的導航性能。

ICCV 是“計算機視覺三大頂級會議”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行,本屆會議共收到全球 8260 篇論文投稿,2161 篇被接收,接收率為 26.16%,其中 152 篇論文被選為口頭報告展示(Oral Presentation),Oral 接收率僅為 1.8%。

wKgZomU10DKADan6AAHijJ9FR38163.png

論文題目:

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

論文地址:

https://arxiv.org/abs/2308.12587

開源數據集:

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代碼地址:

https://github.com/csir1996/vln-gela

wKgZomU10DKAfgAhAAAl6LOgh3c680.png

引言

視覺-語言導航(Vision-and-Language Navigation, VLN)任務旨在構建一種能夠用自然語言與人類交流并在真實 3D 環境中自主導航的具身智能體。自提出以來,VLN 越來越受到計算機視覺、自然語言處理和機器人等領域的廣泛關注。 如圖 1 所示,將自然語言指令中提過的標志物(物體或者場景)對應到環境中能夠極大的幫助智能體理解環境和指令,由此跨模態對齊是 VLN 中的關鍵步驟。然而,大多數可用的數據集只能提供粗粒度的文本-圖像對齊信號,比如整條指令與整條軌跡的對應或者子指令與子路徑之間的對應,而跨模態對齊監督也都停留在句子級別(sentence-level)。因此,VLN 需要更細粒度(entity-level)的跨模態對齊數據和監督方法以促進智能體更準確地導航。

為解決以上問題,我們提出了一種面向 VLN 的實體-標志物自適應預訓練方法,主要工作與貢獻如下:

1. 我們基于 Room-to-Room(R2R)數據集 [1] 標注實體-標志物對齊,構建了第一個帶有高質量實體-標志物對齊標注的 VLN 數據集,命名為 GEL-R2R;

2. 我們提出一種實體-標志物自適應預訓練 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 數據集顯式監督 VLN 模型學習實體名詞和環境標志物之間的細粒度跨模態對齊;

3. 我們構建的 GELA 模型在兩個 VLN 下游任務上取得了最佳的導航性能,證明了我們數據集和方法的有效性和泛化性。 wKgZomU10DKAHMgwAAy1Xi4UNy4383.png▲圖1. 具身智能體在3D真實環境中的導航示例 wKgZomU10DOARN_dAAAuhh9-KLM163.png

GEL-R2R數據集

為了建立指令中實體短語與其周圍環境中相應標志物之間的對齊,我們在 R2R 數據集的基礎上進行了實體-標志物對齊的人工標注,整個流程包括五個階段:

1. 原始數據準備。我們從 Matterport3D 模擬器中采集每個可導航點的全景圖。為了提高標注的效率和準確性,我們在全景圖中標注下一個動作方向,并根據 FG-R2R 數據集 [2] 將每個全景圖與相應的子指令進行對應;

2. 標注工具開發。我們基于 Label-Studio 開發了一個跨模態標注平臺,如圖 2 所示;

3. 標注指南建立。為確保標注的一致性,我們經過預標注之后建立了四個準則來標準化標注指南:

  • 對齊準則:指令中的實體短語應與全景圖中的標志物準確匹配

  • 自由文本準則:標注自由文本而不是類別

  • 文本共指準則:指代相同標志物的實體短語用相同的標簽標注

  • 唯一標志物準則:對于一個實體短語,在全景圖中只應標注一個對應的標志物

4. 數據標注與修訂;

5. 數據整合與處理。

wKgZomU10DOAbfPKAAh8T1fXP9Q036.png

▲圖2. GEL-R2R數據集標注界面如圖 3 所示,GEL-R2R 數據集共包含:71467 個實體短語,其中訓練集 57788 個,已見環境驗證集 4196 個,未見環境驗證集 9483 個;150183 個標志物,其中訓練集 121146 個,已見環境驗證集 8741 個,未見環境驗證集 20296 個。

wKgZomU10DOAaVXnAAIx1uvi4R8766.png▲圖3. GEL-R2R數據集統計分析 wKgZomU10DOAdwO2AAAtJ0fTuoM459.png

GELA方法

wKgZomU10DOADXdrAARjJLZ30i8478.png圖4. GELA方法概覽

如圖 4 所示,方法流程分為三個階段:預訓練(pre-training)、自適應預訓練(adaptive pre-training)和微調(fine-tuning)。我們直接在預訓練模型 HAMT [3] 的基礎上進行自適應預訓練,HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態編碼器構成。我們將跨模態編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們設計了三種自適應預訓練任務:

1. 實體短語預測。在這個任務中,我們通過標注的環境標志物預測其對應的實體短語在指令中的位置。首先將人工標注的實體位置轉化為 L+1 維的掩碼向量 (與 維度相同),并將人工標注的標志物邊界框轉化為 37 維的掩碼向量 (與 維度相同)。然后,我們將標志物圖像 patch 的特征平均化,并將其輸入一個兩層前饋網絡(Feedforward Network, FFN)中,預測指令序列中 token 位置的概率分布,用掩碼向量 作監督,具體損失函數為:

wKgZomU10DOAJKS2AAAX-lg11Os006.png

wKgZomU10DSAezOmAAAX-6i6ifg222.png

2. 標志物邊界框預測。在這個任務中,我們通過標注的實體名詞預測其對應的標志物邊界框坐標。首先平均實體短語 token 的特征向量,然后將其輸入兩層 FFN 和 Sigmoid 函數預測坐標 :

wKgZomU10DSAEijaAAAVifzwXqI883.png

最后,將人工標注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 損失和 GIoU 損失:

wKgZomU10DSAahFTAAAUW23ODXc548.png

3. 實體-標志物語義對齊。上述兩個單向預測任務使用位置信息來匹配實體和標志物,而此任務在跨模態編碼器輸出端強制對齊相對應的標志物和實體的特征向量。這個任務的約束比上面兩個單向預測任務更強,因為它直接作用于表示,而不是僅僅基于位置信息。具體損失函數如下:

wKgZomU10DSANVDoAAB0Xlwcdgw449.png自適應預訓練最終的損失函數為:

wKgZomU10DSABFrEAAAP7deVISE239.png

經過自適應預訓練后,我們利用模仿學習 (Imitation Learning,IL) 和強化學習 (Reinforcement Learning,RL) 訓練策略對 GELA 模型在兩個 VLN 下游任務(R2R 和 CVDN)上進行微調。IL 監督智能體克隆專家的行為,RL 鼓勵智能體根據學習策略探索軌跡。 wKgZomU10DWAZwyjAAAr2pbNr48702.png ?

實驗結果

如圖 5 所示,GELA 模型在 R2R 數據集上與先前 SOTA 模型的性能進行比較。GELA 模型在所有子集上的主要指標(SR 和 SPL)均優于所有其他模型。具體地,在已知驗證集上,GELA 的性能與 HAMT 模型相當,而在未知驗證集和測試集上,GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知環境泛化能力,這主要是由于 GELA 模型在學習實體-標志物對齊后,具有較強的語義特征捕捉能力。 wKgZomU10DWAfcr3AAMjz4D3vq4782.png 圖5. R2R數據集上的性能對比 我們同樣在 CVDN 數據集上對比了 GELA 模型與先前 SOTA 模型的性能,如圖 6 所示,該數據集使用以米為單位的目標進度 (Goal Progress,GP) 作為關鍵性能指標。結果表明,GELA 模型在驗證集和測試集上的性能都明顯優于其他模型。因此,GELA 模型對不同的 VLN 下游任務具有良好的泛化能力。

wKgZomU10DWAPX-AAADJrBWOOD4487.png圖6. CVDN數據集上的性能對比

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg

參考文獻

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg ?

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

·


原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2903

    文章

    44262

    瀏覽量

    371221

原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發現VLM可以作為一種無需任何微調或
    的頭像 發表于 11-22 09:42 ?62次閱讀

    ai大模型訓練方法有哪些?

    AI大模型訓練方法是一個復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統一的范圍。 數據增強:通過旋轉、縮放、裁剪等
    的頭像 發表于 07-16 10:11 ?1346次閱讀

    語言模型的訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識
    的頭像 發表于 07-11 10:11 ?386次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    在人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過在大規模文本數據上進行訓練
    的頭像 發表于 07-10 11:03 ?998次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?2349次閱讀

    【大語言模型:原理與工程實踐】大語言模型的訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對訓練數據的需求也相
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】核心技術綜述

    的復雜模式和長距離依賴關系。 訓練策略: 訓練是LLMs訓練過程的第一階段,模型在大量的文本數據上學習
    發表于 05-05 10:56

    利用液滴納米孔傳感平臺,實現單分子水平上皮克級生物標志物的靈敏檢測

    生物標志物存在于各種新陳代謝過程中,需要在單分子水平上進行精確細致的分析,以進行準確的臨床診斷。
    的頭像 發表于 04-23 11:38 ?615次閱讀
    利用液滴納米孔傳感平臺,實現單分子水平上皮克級生物<b class='flag-5'>標志物</b>的靈敏檢測

    基于DNA樹突狀探針的微流控免疫傳感平臺,用于過敏原標志物的高靈敏檢測

    過敏原特異性IgE(sIgE)是過敏原篩選和診斷中重要的過敏原標志物之一。近年來,食物過敏已成為一個全球性的健康問題。
    的頭像 發表于 04-22 14:56 ?605次閱讀
    基于DNA樹突狀探針的微流控免疫傳感平臺,用于過敏原<b class='flag-5'>標志物</b>的高靈敏檢測

    什么是自適應光學?自適應光學原理與方法的發展

    目前,世界上大型的望遠鏡系統都采用了自適應光學技術,自適應光學的出現為補償動態波前擾動,提高光波質量提供了新的研究方向。 60多年來,自適應光學技術獲得蓬勃發展,現已應用于天文學、空間光學、激光、生物醫學等領域。
    發表于 03-11 10:27 ?1842次閱讀

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是一種新的訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優勢,而且在效率上更勝一籌。
    的頭像 發表于 02-29 17:37 ?745次閱讀

    混合專家模型 (MoE)核心組件和訓練方法介紹

    ) 的 Transformer 模型在開源人工智能社區引起了廣泛關注。在本篇博文中,我們將深入探討 MoEs 的核心組件、訓練方法,以及在推理過程中需要考量的各種因素。 讓我們開始吧! 簡短總結 混合專家模型 (MoEs
    的頭像 發表于 01-13 09:37 ?1167次閱讀
    混合專家模型 (MoE)核心組件和<b class='flag-5'>訓練方法</b>介紹

    Versal自適應SoC系統集成和 確認方法指南

    電子發燒友網站提供《Versal自適應SoC系統集成和 確認方法指南.pdf》資料免費下載
    發表于 01-03 10:48 ?0次下載
    Versal<b class='flag-5'>自適應</b>SoC系統集成和 確認<b class='flag-5'>方法</b>指南

    無監督域自適應場景:基于檢索增強的情境學習實現知識遷移

    本文對比了多種基線方法,包括無監督域自適應的傳統方法(如Pseudo-labeling和對抗訓練)、基于檢索的LM方法(如REALM和RAG
    發表于 12-05 14:14 ?564次閱讀
    無監督域<b class='flag-5'>自適應</b>場景:基于檢索增強的情境學習實現知識遷移

    LabVIEW開發自適應降噪ANC

    LabVIEW開發自適應降噪ANC 在許多情況下,信號很嘈雜,必須消除噪聲。自適應降噪(ANC)是可用于消除信號噪聲的主要實時方法之一。可以使用LabVIEW自適應濾濾器工具包來設計A
    發表于 11-30 19:38