国产一级a毛一级a看免费视频_久久久久国产一区二区三区_少妇一级婬片免费放_特级丰满少妇一级AAAA爱毛片_真人一级毛片_国产精品高潮呻吟久久av无码午夜鲁丝片_免费一级全黄少妇性色生活片

介紹一下我們最新開源的工作：FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators. 給定部分重疊的圖像和點云，FreeReg能夠估計可靠的像素-三維點同名關系并解算圖像-點云相對位姿關系。值得注意的是，FreeReg不需要任何訓練/微調！

基于FreeReg估計的準確的同名關系，我們可以把圖像patch投影到點云的對應位置：

主頁：https://whu-usi3dv.github.io/FreeReg/

代碼：github.com/WHU-USI3DV/FreeReg

論文：https://arxiv.org/abs/2310.03420

太長不看（TL,DR）:

區別于現有方法利用Metric Learning直接學習跨模態(圖像和點云)一直特征，FreeReg提出首先進行基于預訓練大模型的模態對齊，隨后進行同模態同名估計：

Diffusion大模型實現點云到圖像模態的統一并構建跨模態數據的粗粒度魯棒語義特征，
單目深度估計大模型實現圖像到點云模態的統一并刻畫跨模態數據的細粒度顯著幾何特征，
FreeReg通過融合兩種特征，無需任何針對圖像-點云配準任務的訓練，實現室內外圖像-點云配準SoTA表現。

任務概述：圖像-點云（Image-to-point cloud, I2P）配準

輸入：部分重疊的圖像和點云
輸出：圖像相機相對于點云的位置姿態
典型框架：
- Step I (關鍵) : 構建圖像-點云跨模態一致特征
- Step II: 基于特征一致性的 pixel(from 圖像)-point(from 點云) 同名估計
- Step III: 基于所構建同名匹配的相對姿態估計 (PnP+RANSAC)

FreeReg和現有方法的比較？

現有方法往往是：用一個2D特征提取網絡提取圖像特征；用一個3D特征提取網絡提取點云特征；然后根據pixel-to-point對應關系真值通過Metric Learning (Triplet/Batch hard/Circle loss/InfoCE...)的方式訓練網絡去提取跨模態一致的特征，這存在幾個問題：
圖像和點云存在故有的模態差異：圖像-紋理、點云-幾何，這給網絡可靠收斂帶來了困難，而影響特征的魯棒性(Wang et al, 2021);
需要長時間的訓練 (Pham，2020)；
場景間泛化能力弱 (Li，2023)。
FreeReg:
通過預訓練大模型實現模態對齊，消除模態差異，顯著提升特征魯棒性；
不需要任何針對I2P配準任務的訓練/微調；
能夠處理室內外等多類型場景。

FreeReg pipeline:

Section I: FreeReg-D

在這一部分，我們首先利用Diffusion大模型將點云對齊到圖像模態，然后基于圖像模態下的特征進行同名估計。Naive Solution：利用現在圖像生成大殺器的ControlNet (Zhang et al, 2023; depth-to-image diffusion model)實現從點云(深度圖)中渲染出一個圖像，然后和query圖像做match不就行了？不行！如下圖，一個depth map可能對應各種各樣的RGB圖像，ControlNet基于點云渲染出來的圖像合理，但是和query input image差異忒大，match不起來。

但是，我們注意到，ControlNet雖然生成的紋理和query差異很大，但是語義很正確而且和query RGB是對應的，那么我們怎么提取這種跨模態一致的語義特征呢？受到相關研究的啟發（Mingi et al, 2022）一種基于Diffusion大模型的多模特Diffusion Feature

Diffusion Feature提取

RGB image diffusion feature：預訓練圖像生成大模型Stable Diffusion (SD，Dhariwal et al,2022)能夠通過迭代T步去噪的方式從純噪聲生成一張符合某種text-prompt（包含一些代表語義的名詞）的圖像，證明它能認識、區分和表征這些語義。而我們就把圖像加上一些噪聲讓SD去處理，然后看看哪些SD深層特征具有語義性。
Depth diffusion feature：我們用預訓練的ControlNet處理來自點云投影的深度圖，并基于其引導SD的圖像生成(迭代去噪)過程使生成的圖像符合深度圖，當去噪到某種程度時候我們把SD的中間層特征拿出來，看看哪些特征保證了生成圖像不僅符合深度圖而且語義性也是對的。
如上圖的c，我們發現，SD的0-6層輸出特征具有可靠的語義性和跨模態一致性！后面的特征才關注紋理。所以我們之用0-6層的特征（我們最終選擇concate0,4,6層的特征）作為我們的語義特征就好了，叫做Diffusion Feature！

Section II: FreeReg-G

在這一部分，我們利預訓練的單目深度估計網絡Zoe-Depth (Bhat et al, 2023)去恢復input RGB的深度，并將其恢復到3D點云分布，然后對RGB恢復的點云和input點云分別提取幾何特征（Geometric feature， Choy et al, 2019）用于match。此外，由于match得到的同名關系存在于點云空間，我們的變換估計可以采用Kabsch算法而非PnP方法，Kabsch利用Zoe-depth預測深度的約束可以僅使用3對同名關系就實現變換解算，更高效、更可靠，但是受到Zoe的影響不太精準（具體可以間我們的原文）。

Section III: FreeReg = FreeReg-D + FreeReg-G

在這一部分，我們融合前面在不同模態空間中提取的Diffusion Feature和Geometric Feature，作為我們最終的跨模特特征。如下圖所示：

Diffusion Feature具有很強的語義相關性和跨模特一致的可靠性，但是因為語義信息關聯自圖像的比較大的區域，這種大感受野使得基于特征相似性和雙向最近鄰篩選得到的pixel-to-point同名對準確但是稀疏。
Geometric Feature能夠關注幾何細節構建更加dense的pixel-to-point correspondences，但是很容易受到zoe-depth預測誤差和噪聲的影響，導致得到的pixel-to-point同名對存在大量的outliers。
通過Fuse兩種特征(L2 normalization + weighted concatenate, Zhang et al, 2023)，FreeReg特征兼具語義可靠性和幾何顯著性，得到了更加可靠且dense的pixel-to-point correspondences！

實驗結果：

定性評價：得益于大模型模態對齊，FreeReg-D/G在沒有任何訓練和微調的情況下，就在室內外三個數據集上取得了SoTA表現，而FreeReg進一步提升算法表現，取得了平均20%的內點比例提升和48.6%的配準成功率提升！

定量評價：

更多的結果：實現細節、消融實驗、精度評價、同模態配準表現（也是SoTA！）、和同期工作的比較（FreeReg更優）、尚存問題請見我們的論文！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像

圖像

+關注

關注
2

文章
1075

瀏覽量
40269
點云

點云

+關注

關注
0

文章
58

瀏覽量
3763
大模型

大模型

+關注

關注
2

文章
2135

瀏覽量
1979

原文標題：武大&港大提出FreeReg：預訓練擴散大模型取得點云-圖像配準SoTA！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

基于擴散模型的圖像生成過程

等很難用文本指定。 ? 最近，谷歌發布了MediaPipe Diffusion插件，可以在移動設備上運行「可控文本到圖像生成」的低成本解決方案，支持現有的預訓練擴散

發表于 07-17 11:00 ?2474次閱讀

基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>生成過程

如何在PyTorch中使用擴散模型生成圖像

除了頂尖的圖像質量，擴散模型還帶來了許多其他好處，包括不需要對抗性訓練。對抗訓練的困難是有據可查的。在訓

發表于 11-22 15:51 ?422次閱讀

【大語言模型：原理與工程實踐】大語言模型的預訓練

大語言模型的核心特點在于其龐大的參數量，這賦予了模型強大的學習容量，使其無需依賴微調即可適應各種下游任務，而更傾向于培養通用的處理能力。然而，隨著學習容量的增加，對預訓練數據的需求也相

發表于 05-07 17:10

基于角點的紅外與可見光圖像自動配準方法

基于角點的紅外與可見光圖像自動配準方法摘要：針對紅外圖像與可見光圖像的自動配

發表于 05-12 09:11 ?29次下載

SAR圖像自動配準性能分析

合成孔徑雷達(SAR)圖像的自動配準長期以來都未能很好的解決，特別是高分辨率SAR圖像其配準的關

發表于 04-28 15:04 ?26次下載

基于多模型表示的高分辨率遙感圖像配準方法_項盛文

基于多模型表示的高分辨率遙感圖像配準方法_項盛文

發表于 03-19 19:19 ?0次下載

基于GPU加速的醫學圖像配準技術

針對目前醫學圖像配準技術無法滿足臨床實時性需求問題，對基于圖形處理器（ GPU）加速的醫學圖像配準

發表于 01-03 11:08 ?1次下載

基于SIFT特征的圖像配準（圖像匹配）

　SIFT圖像處理代碼，必須和三個文件一起下載使用：基于SIFT特征的圖像配準（Matlab源代碼）、基于SIFT特征的圖像

發表于 08-06 08:00 ?3次下載

基于SIFT特征的圖像配準（仿真圖片）

SIFT圖像處理代碼，必須和三個文件一起下載使用：基于SIFT特征的圖像配準（Matlab源代碼）、基于SIFT特征的圖像

發表于 08-06 08:00 ?3次下載

基于U-net分割的遙感圖像配準方法

在利用航拍遙感圖像進行土地測量與變化檢測時，需要對圖像進行配準處理。為實現目標區域的高精度匹配，提出一種遙感圖像

發表于 05-28 14:41 ?2次下載

預訓練數據大小對于預訓練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務上的良好表現主要得益于其在大量無監督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個預訓練

發表于 03-03 11:20 ?1252次閱讀

什么是預訓練 AI 模型？

該向孩子展示這種生物的圖像并描述其獨有特征。那么，如果要教一臺人工智能（AI）機器什么是獨角獸，該從什么地方做起呢？預訓練 AI 模型提供了解決方案。

發表于 04-04 01:45 ?1302次閱讀

什么是預訓練AI模型？

預訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用，

發表于 05-25 17:10 ?881次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）等領域中得到了廣泛應用。預

發表于 07-03 18:20 ?1432次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使模型學習到語言的通用知識

發表于 07-11 10:11 ?249次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

預訓練擴散大模型取得點云-圖像配準SoTA！

太長不看（TL,DR）:

任務概述：圖像-點云（Image-to-point cloud, I2P）配準

FreeReg pipeline:

實驗結果：

評論

基于擴散模型的圖像生成過程

如何在PyTorch中使用擴散模型生成圖像

【大語言模型：原理與工程實踐】大語言模型的預訓練

基于角點的紅外與可見光圖像自動配準方法

SAR圖像自動配準性能分析

基于多模型表示的高分辨率遙感圖像配準方法_項盛文

基于GPU加速的醫學圖像配準技術

基于SIFT特征的圖像配準（圖像匹配）

基于SIFT特征的圖像配準（仿真圖片）

基于U-net分割的遙感圖像配準方法

預訓練數據大小對于預訓練模型的影響

什么是預訓練 AI 模型？

什么是預訓練AI模型？

預訓練模型的基本原理和應用

大語言模型的預訓練