精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

第一個大規模點云的自監督預訓練MAE算法Voxel-MAE

3D視覺工坊 ? 來源:arxiv ? 作者:arxiv ? 2022-10-21 16:15 ? 次閱讀

作者:Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai

基于掩碼的自監督預訓練方法在圖像和文本領域得到了成功的應用。但是,對于同樣信息冗余的大規模點云,基于掩碼的自監督預訓練學習的研究還沒有展開。在這篇文章中,我們提出了第一個將掩碼自編碼器引入大規模點云自監督預訓練學習的方法:Voxel-MAE。不同于2D MAE采用RGB像素回歸,3D點云數量巨大,無法直接學習每個點云的數據分布,因此Voxel-MAE將點云轉成體素形式,然后進行體素內是否包含點云的二分類任務學習。這種簡單但是有效的分類學習策略能使模型在體素級別上對物體形狀敏感,進而提高下游任務的精度。即使掩蔽率高達90%,Voxel-MAE依然可以學習有代表性的特征,這是因為大規模點云的冗余度非常高。另外考慮點云隨著距離增大變稀疏,設計了距離感知的掩碼策略。2D MAE的Transformer結構無法處理大規模點云,因此Voxel-MAE利用3D稀疏卷積來構建encoder,其中position encoding同樣可以只處理unmasked的體素。我們同時在無監督領域自適應任務上驗證了Voxel-MAE的遷移性能。Voxel-MAE證明了對大規模點云進行基于掩碼的自監督預訓練學習,來提高無人車的感知性能是可行的。KITTI、nuScenes、Waymo數據集上,SECOND、CenterPoint和PV-RCNN上的充分的實驗證明Voxel-MAE在大規模點云上的自監督預訓練性能。

Voxel-MAE是第一個大規模點云的自監督掩碼自編碼器預訓練方法。

不同于MAE中,Voxel-MAE為大規模點云設計了適合的體素二分類任務、距離感知的掩碼策略和3D稀疏卷積構建的encoder等。

Voxel-MAE的自監督掩碼自編碼器預訓練模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo數據集上的性能。

Voxel-MAE同時在無監督領域自適應3D目標檢測任務上驗證了遷移性能。

算法流程

圖1 Voxel-MAE的整體框圖:首先將大規模點云轉成體素表示,然后采用距離感知的掩碼策略對體素進行mask,再將unmasked的體素送入不對稱的encoder-decoder網絡,重建體素。最后,采用判斷體素內是否包含點云的二分類交叉熵損失函數端到端訓練整個網絡。Encoder采用三維稀疏卷積網絡構建,Decoder采用三維反卷積實現。

Range-aware Masking

遵循常見的3D點云目標檢測的設置,我們將WXHXD范圍內的大規模點云沿著XYZ方向分成大小為VWXVHXVD的體素。所有體素的個數為nl,包含點云的體素個數為nv。

不同于2D圖像,3D點云的分布隨著離激光雷達的距離增加越來越稀疏。因此不能對不同位置的點云采用相同的掩碼策略。

對此我們設計了距離感知的掩碼策略。即對近處稠密的點云masking多,對遠處稀疏的點云masking少。具體我們將點云分成30米以內,30-50米,50米以外,然后分別采用r1,r2和r3三種掩碼率來對點云體素進行隨機掩蔽,其中r1》r2》r3。剩余的unmasked的體素個數為nun。對于所有包含點云的體素nl,我們將其點云體素分類目標設為1,其他設為0。

3D Sparse Convolutional Encoder

MAE論文中采用Transformer網絡架構對訓練集中的unmasked部分進行自注意力機制學習,不會被masked部分影響。但是由于unmasked的點云數量仍然很大,幾十萬級別,Transformer網絡無法處理如此大規模unmasked的點云數據。研究者通常采用3D SparseConvolutions來處理大規模稀疏3D點云。因此不同于2D MAE,Voxel-MAE采用3D SparseConvolutions來構建MAE中的encoder,其采用positional encoding來只對unmasked的體素聚合信息,從而類似MAE中的Transformer結構,可以降低訓練模型的計算復雜度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷積構建decoder。最后一層輸出每個體素包含點云的概率。decoder網絡簡單,只用于訓練過程。

Voxel-MAE的encoder和decoder的結構如下:

Reconstruction Target

2D MAE中采用masked部分的RGB像素回歸作為掩碼自編碼器自監督學習的目標,但是3D點云的數量很大,回歸點云需要學習每個點云的數據分布,是難以學習的。

對于3D點云的體素表示,體素內是否包含點云非常重要。因此我們為Voxel-MAE設計了體素是否包含點云的二分類任務。目標是恢復masked的體素的位置信息。雖然分類任務很簡單,但是可以學習到大規模點云的數據分布信息,從而提高預訓練模型的性能。

實驗結果

采用OpenPCDet算法基準庫,在KITTI、nuScenes、Waymo數據集上進行了實驗驗證。

1.KITTI

2. Waymo

3. nuScenes

4. 3D點云無監督領域自適應任務驗證遷移性能

5. 3D點云重建可視化圖

審核編輯:郭婷


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    44

    文章

    3529

    瀏覽量

    133313
  • 激光雷達
    +關注

    關注

    967

    文章

    3863

    瀏覽量

    188767
  • 數據集
    +關注

    關注

    4

    文章

    1197

    瀏覽量

    24538

原文標題:Voxel-MAE: 第一個大規模點云的自監督預訓練MAE算法

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    ,在大模型實踐和理論研究的過程中,歷時8月完成 《大規模語言模型:從理論到實踐》 書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應用,并解決相關技術問題。 本書經上市,
    發表于 03-11 15:16

    個大規模電路是怎么設計出來的???

    組合成電路,比如電視機的電路板上電子元件縱橫交錯,怎么設計組合成那樣的,還有各與器件參數大小怎么算的?數字電路的各個門,模擬電路的三極管,單個是簡單,就是不明白怎么組合成大規模電路的。書上就那么幾個簡單的電路圖,網上也查詢過
    發表于 12-24 20:34

    AU1200 MAE驅動程序的開發流程是什么?

    隨著移動多媒體終端的口益普及,功能的日益強大,人們已經不滿足于自己的手持終端僅僅能夠聽MP3音樂,而是希望終端在播放音樂的同時能夠播放高質量視頻,并支持多種視頻格式。AU 1200作為
    發表于 03-16 07:38

    請問怎樣去設計MAE前端驅動軟件?

    MAE是什么?MAE的開發環境如何去建立?怎樣對MAE前端驅動軟件進行設計及測試?
    發表于 04-22 06:04

    神經網絡在訓練時常用的些損失函數介紹

    標準的高斯分布,說明我們的這個損失函數可能不是很適合這個問題。下圖顯示各訓練輪次的對比MSE收斂得很好,但MSE可能過擬合了,因為它從20輪開始下降變得變換并且開始上升。MAE
    發表于 10-20 17:14

    AU 1200 MAE驅動程序開發流程

    AU 1200作為款基于MIPS架構的處理器,由于其片上集成了視頻硬件設備(Media Accel-eration Engine,MAE),使得該處理器無需配合其他視頻解碼芯片即可完成多種格式的視頻解碼功能 &nb
    發表于 06-24 09:38 ?596次閱讀
    AU 1200 <b class='flag-5'>MAE</b>驅動程序開發流程

    個大規模超文本網絡搜索引擎剖析(英文版)

    個大規模超文本網絡搜索引擎剖析(英文版)
    發表于 04-30 14:09 ?0次下載

    如何向大規模訓練語言模型中融入知識?

    本文關注于向大規模訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發表于 06-23 15:07 ?4038次閱讀
    如何向<b class='flag-5'>大規模</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>語言模型中融入知識?

    用于弱監督大規模語義分割的混合對比正則化框架

    為了解決大規模語義分割中的巨大標記成本,我們提出了種新的弱監督環境下的混合對比正則化(HybridCR)框架,該框架與全
    的頭像 發表于 09-05 14:38 ?1218次閱讀

    MAE再發力,跨模態交互式自編碼器PiMAE席卷3D目標檢測領域

    MAE以其簡單的實現方式、強大的視覺表示能力,可以在很多基礎視覺任務中展現出良好的性能。但是目前的工作大多是在單視覺模態中進行,那MAE在多模態數據融合方面表現如何呢?本文
    的頭像 發表于 04-21 09:36 ?811次閱讀

    PyTorch教程11.9之使用Transformer進行大規模訓練

    電子發燒友網站提供《PyTorch教程11.9之使用Transformer進行大規模訓練.pdf》資料免費下載
    發表于 06-05 15:07 ?0次下載
    PyTorch教程11.9之使用Transformer進行<b class='flag-5'>大規模</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>

    基礎模型監督訓練的數據之謎:大量數據究竟是福還是禍?

    。然而,在監督訓練中,是否數據越多越好?數據增廣是否始終有效?華為諾亞方舟實驗室與香港科技大學的研究團隊近期發現: 主流
    的頭像 發表于 07-24 16:55 ?432次閱讀
    基礎模型<b class='flag-5'>自</b><b class='flag-5'>監督</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>的數據之謎:大量數據究竟是福還是禍?

    在各種檢測器的所有模塊實現無監督訓練

    近年來,大規模訓練后微調優化方法在計算機視覺中取得了重大進展。系列訓練
    的頭像 發表于 08-01 11:42 ?730次閱讀
    在各種檢測器的所有模塊實現無<b class='flag-5'>監督</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>

    NeurIPS 2023 | 全新的監督視覺訓練代理任務:DropPos

    ://arxiv.org/pdf/2309.03576 代碼鏈接:? https://github.com/Haochen-Wang409/DropPos 今天介紹我們在 監督視覺訓練
    的頭像 發表于 10-15 20:25 ?429次閱讀
    NeurIPS 2023 | 全新的<b class='flag-5'>自</b><b class='flag-5'>監督</b>視覺<b class='flag-5'>預</b><b class='flag-5'>訓練</b>代理任務:DropPos

    神經網絡如何用無監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監督學習是種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模
    的頭像 發表于 07-09 18:06 ?573次閱讀