精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ImPosing:用于視覺定位的隱式姿態編碼

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-04-03 09:51 ? 次閱讀

主要內容:

提出了一種新的基于學習的用于車輛上的視覺定位算法,該算法可以在城市規模的環境中實時運行。

算法設計了隱式姿態編碼,通過2個獨立的神經網絡將圖像和相機姿態嵌入到一個共同的潛在表示中來計算每個圖像-姿態對的相似性得分。通過以分層的方式在潛在空間來評估候選者,相機位置和方向不是直接回歸的,而是逐漸細化的。算法占的存儲量非常緊湊且與參考數據庫大小無關。

Pipeline:

a2dae33c-d1ab-11ed-bfe3-dac502259ad0.png

輸入為查詢圖像

輸出為查詢圖像的六自由度姿態(t,q)∈SE(3),t是平移向量,q是旋轉四元數。

訓練是在帶有相機姿態label的數據庫圖像上進行訓練,沒有用額外的場景3D模型。

先通過圖像編碼器計算表示圖像向量。然后通過評估分布在地圖上的初始姿態候選來搜索相機姿態。姿態編碼器對相機姿態進行處理以產生可以與圖像向量相匹配的潛在表示,每個候選姿態都會有一個基于到相機姿態的距離的分數。高分提供了用于選擇新候選者的粗略定位先驗。通過多次重復這個過程使候選池收斂到實際的相機姿態。

論文技術點:

圖像編碼器:

使用圖像編碼器從輸入的查詢圖像計算圖像特征向量。

編碼器架構包括一個預訓練的CNN backbone,然后是全局平均池以及一個具有d個輸出神經元的全連接層。

特征向量比圖像檢索中常用的全局圖像描述符小一個數量級(使用d=256)以便在隨后的步驟中將其與一大組姿態候選進行有效比較。

初始姿態候選:

起點是一組N個相機姿態,這是從參考姿態(=訓練時相機姿態)中采樣。通過這種初始選擇為定位過程引入了先驗,類似于選擇錨點姿態。

姿態編碼器:

姿態候選通過一個神經網絡處理,輸出潛在向量,這種隱式表示學習到了給定場景中的相機視點與圖像編碼器提供的特征向量之間的對應關系。

首先使用傅立葉特征將相機姿態的每個分量(tx,ty,tz,qx,qy,qz,qw)投影到更高維度:

a2e7ddee-d1ab-11ed-bfe3-dac502259ad0.png,因為它有助于具有低維輸入的網絡擬合高頻函數。然后使用具有4層256個神經元和隱藏層為ReLU激活的MLP。每一組候選姿態都是在一次batch的前向傳遞中計算出來的。

相似性分數:

為每個圖像-姿態對計算余弦相似性來獲得相似性得分s。

在點積之后添加一個ReLU層,使得s∈[0,1]。

直觀地說,其目標是學習與實際相機姿態接近的候選姿態的高分。

有了這個公式后可以評估關于相機姿態的假設,并搜索得分高的姿態候選者。

相似性分數定義為:

a2efedf4-d1ab-11ed-bfe3-dac502259ad0.png

建議新的候選姿態:

基于在上一次迭代中使用的姿態候選獲得的分數,為這一次迭代選擇新的姿態候選。

首先選擇得分最高的B=100的姿態a2fb08ba-d1ab-11ed-bfe3-dac502259ad0.png

然后從(hi)中以高斯混合模型的方式對新的候選者進行采樣:

a3026d94-d1ab-11ed-bfe3-dac502259ad0.png

迭代姿態優化:

在每次迭代之后,將噪聲向量除以2,使得新的候選者被采樣為更接近先前的高分。

因此可以在千米級地圖中收斂到精確的姿態估計,同時只評估有限的稀疏姿態集。在每個時間步長獨立評估每個相機幀,但可以使用以前時間步長的定位先驗來減少車輛導航場景中的迭代次數。

每次迭代時所選姿態的示例如圖2所示。通過對初始姿態的N個候選進行采樣,保留了一個恒定的記憶峰值。

a30a386c-d1ab-11ed-bfe3-dac502259ad0.png

姿態平均:

最終的相機姿態估計是256個得分較高的候選姿態的加權平均值,與直接選擇得分最高的姿態相比,它具有更好的效果。使用分數作為加權系數,并實現3D旋轉平均。

損失函數:

通過計算參考圖像和以K種不同分辨率采樣的姿態候選者之間的分數來訓練網絡

a314e5c8-d1ab-11ed-bfe3-dac502259ad0.png

其中,st是基于相機姿態和候選姿態之間的平移和旋轉距離來定義。

a31972f0-d1ab-11ed-bfe3-dac502259ad0.png

實驗:

與最近的方法在幾個數據集上進行了比較,這些數據集涵蓋了大規模室外環境中的各種自動駕駛場景。

由于戶外環境的動態部分(移動物體、照明、遮擋等),這項任務極具挑戰性。

驗證了其算法能夠在9個不同的大型室外場景中進行精確定位。

然后展示了算法可以擴展到多地圖場景

Baseline:

將ImPosing與基于學習的方法進行比較。使用CoordiNet報告了牛津數據集上絕對姿態回歸結果作為基線。

將ImPosing與檢索進行比較,使用了NetVLAD和GeM,使用全尺寸圖像來計算全局圖像描述符,然后使用余弦相似度進行特征比較,然后對前20個數據庫圖像的姿態進行姿態平均。

沒有使用基于結構的方法進行實驗,因為使用3D模型進行幾何推理,這些方法比更準確,但由于存儲限制使得嵌入式部署變得困難。

在Oxford RobotCar和Daoxiang Lake數據集上的定位誤差比較

a31efef0-d1ab-11ed-bfe3-dac502259ad0.png

Daoxiang Lake是一個比Oxford RobotCar更具挑戰性的數據集,因為它的重復區域幾乎沒有判別特征,環境也多種多樣(城市、城郊、高速公路、自然等)。因此,圖像檢索的性能比姿態回歸差。ImPosing要準確得多,并且顯示出比競爭對手小4倍的中值誤差。

在4Seasons數據集上的比較:

a32f7690-d1ab-11ed-bfe3-dac502259ad0.png

4Seasons數據集包含慕尼黑地區在不同季節條件下的各種場景(城市、居民區、鄉村)中記錄的數據。

因為是針對車輛部署的視覺定位算法,比較了各種算法的性能效率:

a338e6e4-d1ab-11ed-bfe3-dac502259ad0.png

a3469302-d1ab-11ed-bfe3-dac502259ad0.png

論文的算法只需要在設備中存儲神經網絡權重和初始姿態候選,其中圖像編碼器為23MB,姿態編碼器小于1MB,初始姿態候選為1MB。

在圖3中報告了不同類別視覺定位方法的內存占用相對于參考數據庫大小的縮放規律。這是有大量數據可用的自動駕駛場景中的一個重要方面。對于給定的地圖,基于學習的方法具有恒定的內存需求,因為地圖信息嵌入在網絡權重中。

總結:

提出了一種新的視覺定位范式,通過使用地圖的隱式表示,將相機姿態和圖像特征連接在一個非常適合定位的潛在高維流形中。

證明了通過一個簡單的姿態候選采樣過程,能夠估計圖像的絕對姿態。

通過提供一種高效準確的基于圖像的定位算法,該算法可以實時大規模操作,使其可以直接應用于自動駕駛系統。

但是方法的準確性在很大程度上取決于可用的訓練數據的數量。而且與回歸的方法類似,其不會泛化到遠離訓練示例的相機位置。

提出的方法可以在許多方面進行改進,包括探索更好的姿態編碼器架構;找到一種隱式表示3D模型的方法,將隱式地圖表示擴展到局部特征,而不是全局圖像特征。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3595

    瀏覽量

    134156
  • 神經網絡
    +關注

    關注

    42

    文章

    4762

    瀏覽量

    100537
  • 算法
    +關注

    關注

    23

    文章

    4599

    瀏覽量

    92643

原文標題:WACV 2023 | ImPosing:用于視覺定位的隱式姿態編碼

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    動態環境中基于神經表示的RGB-D SLAM

    神經表示已經被探索用于增強視覺SLAM掩碼算法,特別是在提供高保真的密集地圖方面。
    的頭像 發表于 01-17 10:39 ?871次閱讀
    動態環境中基于神經<b class='flag-5'>隱</b><b class='flag-5'>式</b>表示的RGB-D SLAM

    基于嵌入視覺伺服循跡定位系統設計

    基于嵌入視覺伺服循跡定位系統設計
    發表于 08-20 15:51

    【芯靈思A83T試用申請】嵌入視覺--遠距離物體跟蹤與定位

    本帖最后由 左岸cpx 于 2017-4-27 15:25 編輯 項目名稱:嵌入視覺--遠距離物體跟蹤與定位試用計劃1)燒錄Linux系統在eMMC中,配置wifi , 藍牙2)安裝
    發表于 04-27 14:18

    嵌入姿態測量系統的姿態參數怎么計算?

    的研究和應用。然而,傳統的姿態測量系統包括捷聯慣導普遍具有體積大,重量大,復雜程度高等特點,使得傳統的姿態測量系統無法應用于日常應用。同時,傳統的捷聯慣導系統一般需要一 個尋北系統的
    發表于 08-22 07:27

    基于三元Golay寫碼的快速寫算法

    研究GF(3)上的編碼方法,利用三元Golay碼給出一種GF(3)上的寫碼,其寫性能較常見二元寫碼有顯著提高。提出基于三元Golay
    發表于 04-08 08:46 ?26次下載

    TPMS外置編碼存儲器輪胎定位技術設計方案

    TPMS外置編碼存儲器輪胎定位技術設計方案 TPMS技術及輪胎定位原理    汽車輪胎壓力監測系統(TPMS)主要用于在汽車
    發表于 03-11 15:17 ?1036次閱讀
    TPMS外置<b class='flag-5'>編碼</b>存儲器<b class='flag-5'>式</b>輪胎<b class='flag-5'>定位</b>技術設計方案

    基于人眼視覺特性的的嵌入零樹圖像編碼改進算法_劉敬

    基于人眼視覺特性的的嵌入零樹圖像編碼改進算法_劉敬
    發表于 03-16 10:02 ?1次下載

    面向AAV壓縮域的通用寫分析方法

    基于幀間幀內多階差分相關性的寫分析子特征,結合AAC編碼特性對子特征進行加權融合,得到用于通用寫分析的特征集合,并采用隨機森林組合分類器,實現了面向AAC MDCT系數修改的通用
    發表于 12-23 11:32 ?0次下載
    面向AAV壓縮域的通用<b class='flag-5'>隱</b>寫分析方法

    網絡編碼姿態監控體域網的容錯性

    由加速度傳感器構成的姿態監控體域網被廣泛應用于醫學、運動等領域,其需要具備較高的通信可靠性,因此,姿態監控體域網的容錯性是需要解決的關鍵問題之一。網絡編碼的冗余可以作為一種非常有效的錯
    發表于 12-25 16:06 ?0次下載
    網絡<b class='flag-5'>編碼</b><b class='flag-5'>姿態</b>監控體域網的容錯性

    醫療器械視覺定位應用

    中的典型應用之一。 醫療器械視覺定位工作流程: 1、在生產線上安裝視覺定位系統; 2、產品無序流入激光噴碼機打印區域,進行步進移動; 3、
    的頭像 發表于 05-22 15:08 ?2261次閱讀

    關于3D視覺定位技術詳細解析

    3D視覺定位指的是根據事先構建的3D模型及相關信息,計算取得某張圖像在拍攝時相機的位置和姿態。這是3D視覺的一項十分重要的技術,可以用來幫助實現人員
    的頭像 發表于 04-03 14:39 ?9531次閱讀
    關于3D<b class='flag-5'>視覺</b><b class='flag-5'>定位</b>技術詳細解析

    STM32操作增量編碼器(二)----使用編碼器接口實現定位

    上一個博文介紹了編碼器實現測試,這也是編碼器最普遍的應用,我們需要操作的東西并不多,通常來說記錄脈沖數。STM32操作增量編碼器(一)----使用外部中斷實現測速1.增量
    發表于 12-08 16:36 ?42次下載
    STM32操作增量<b class='flag-5'>式</b><b class='flag-5'>編碼</b>器(二)----使用<b class='flag-5'>編碼</b>器接口實現<b class='flag-5'>定位</b>

    機器視覺檢測與機器視覺定位的區別與應用

    機器視覺檢測與機器視覺定位是兩種重要的機器視覺應用技術,主要區別在于檢測對象和應用領域不同。機器視覺檢測技術可以
    的頭像 發表于 05-30 17:10 ?1024次閱讀

    一種基于RGB-D圖像序列的協同神經同步定位與建圖(SLAM)系統

    提出了一種基于RGB-D圖像序列的協同神經同步定位與建圖(SLAM)系統,該系統由完整的前端和后端模塊組成,包括里程計、回環檢測、子圖融合和全局優化。
    的頭像 發表于 11-29 10:35 ?575次閱讀
    一種基于RGB-D圖像序列的協同<b class='flag-5'>隱</b><b class='flag-5'>式</b>神經同步<b class='flag-5'>定位</b>與建圖(SLAM)系統

    一種將NeRFs應用于視覺定位任務的新方法

    視覺定位旨在估計在已知環境中捕獲的給定圖像的旋轉和位置,大致可以分為絕對姿態回歸(APR),場景坐標回歸(SCR)和分層方法(HM)。
    的頭像 發表于 10-28 10:03 ?138次閱讀
    一種將NeRFs應<b class='flag-5'>用于</b><b class='flag-5'>視覺</b><b class='flag-5'>定位</b>任務的新方法