国产成+人+综合+亚洲专_日韩一级a不卡久久久久久_最近免费高清版在线观看_99人妻在线视频这里有精品_亚洲午夜电影av_国产黄网站色视频免费在线观看_久久免费观看一级毛片下载_亚洲AⅤ国产成人AV片妓女熟女_无码无需播放器在线观看

作者：Chen Min， Xinli Xu， Dawei Zhao， Liang Xiao， Yiming Nie， Bin Dai

基于掩碼的自監督預訓練方法在圖像和文本領域得到了成功的應用。但是，對于同樣信息冗余的大規模點云，基于掩碼的自監督預訓練學習的研究還沒有展開。在這篇文章中，我們提出了第一個將掩碼自編碼器引入大規模點云自監督預訓練學習的方法：Voxel-MAE。不同于2D MAE采用RGB像素回歸，3D點云數量巨大，無法直接學習每個點云的數據分布，因此Voxel-MAE將點云轉成體素形式，然后進行體素內是否包含點云的二分類任務學習。這種簡單但是有效的分類學習策略能使模型在體素級別上對物體形狀敏感，進而提高下游任務的精度。即使掩蔽率高達90%，Voxel-MAE依然可以學習有代表性的特征，這是因為大規模點云的冗余度非常高。另外考慮點云隨著距離增大變稀疏，設計了距離感知的掩碼策略。2D MAE的Transformer結構無法處理大規模點云，因此Voxel-MAE利用3D稀疏卷積來構建encoder，其中position encoding同樣可以只處理unmasked的體素。我們同時在無監督領域自適應任務上驗證了Voxel-MAE的遷移性能。Voxel-MAE證明了對大規模點云進行基于掩碼的自監督預訓練學習，來提高無人車的感知性能是可行的。KITTI、nuScenes、Waymo數據集上，SECOND、CenterPoint和PV-RCNN上的充分的實驗證明Voxel-MAE在大規模點云上的自監督預訓練性能。

Voxel-MAE是第一個大規模點云的自監督掩碼自編碼器預訓練方法。

不同于MAE中，Voxel-MAE為大規模點云設計了適合的體素二分類任務、距離感知的掩碼策略和3D稀疏卷積構建的encoder等。

Voxel-MAE的自監督掩碼自編碼器預訓練模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo數據集上的性能。

Voxel-MAE同時在無監督領域自適應3D目標檢測任務上驗證了遷移性能。

算法流程

圖1 Voxel-MAE的整體框圖：首先將大規模點云轉成體素表示，然后采用距離感知的掩碼策略對體素進行mask，再將unmasked的體素送入不對稱的encoder-decoder網絡，重建體素。最后，采用判斷體素內是否包含點云的二分類交叉熵損失函數端到端訓練整個網絡。Encoder采用三維稀疏卷積網絡構建，Decoder采用三維反卷積實現。

Range-aware Masking

遵循常見的3D點云目標檢測的設置，我們將WXHXD范圍內的大規模點云沿著XYZ方向分成大小為VWXVHXVD的體素。所有體素的個數為nl，包含點云的體素個數為nv。

不同于2D圖像，3D點云的分布隨著離激光雷達的距離增加越來越稀疏。因此不能對不同位置的點云采用相同的掩碼策略。

對此我們設計了距離感知的掩碼策略。即對近處稠密的點云masking多，對遠處稀疏的點云masking少。具體我們將點云分成30米以內，30-50米，50米以外，然后分別采用r1，r2和r3三種掩碼率來對點云體素進行隨機掩蔽，其中r1》r2》r3。剩余的unmasked的體素個數為nun。對于所有包含點云的體素nl，我們將其點云體素分類目標設為1，其他設為0。

3D Sparse Convolutional Encoder

MAE論文中采用Transformer網絡架構對訓練集中的unmasked部分進行自注意力機制學習，不會被masked部分影響。但是由于unmasked的點云數量仍然很大，幾十萬級別，Transformer網絡無法處理如此大規模unmasked的點云數據。研究者通常采用3D SparseConvolutions來處理大規模稀疏3D點云。因此不同于2D MAE，Voxel-MAE采用3D SparseConvolutions來構建MAE中的encoder，其采用positional encoding來只對unmasked的體素聚合信息，從而類似MAE中的Transformer結構，可以降低訓練模型的計算復雜度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷積構建decoder。最后一層輸出每個體素包含點云的概率。decoder網絡簡單，只用于訓練過程。

Voxel-MAE的encoder和decoder的結構如下：