精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LargeKernel3D:在3D稀疏CNN中使用大卷積核

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-04-06 09:54 ? 次閱讀

導讀

2D CNN 使用大卷積代替小卷積,增大了卷積核的感受野,捕獲到的特征更偏向于全局,效果也得到了提升,這表明較大的 kernel size 很重要。但是,當直接在 3D CNN 中應用大卷積核時,那些在 2D 中成功的模塊設計在 3D 網絡效果不好,例如深度卷積。為了應對這一重要挑戰,本文提出了空間分區卷積及其大的 kernel size 模塊,它避免了原始 3D 大卷積核的優化和效率問題。

本文的大卷核 3D CNN 網絡 LargeKernel3D 在語義分割和對象檢測的 3D 任務中取得了顯著改進。它在 ScanNetv2 語義分割任務上實現了 72.8%的mIOU,在 NDS nuScenes 目標檢測基準上達到了 73.9% 的 mIoU,在 nuScenes LIDAR 排行榜上排名第一。通過簡單的多模式融合,性能進一步提升至 74.2% NDS。此外,LargeKernel3D 在 Waymo 3D 對象檢測上可以將卷積核擴大到 17×17×17 大小。首次證明大卷積核對于 3D 視覺任務是可行且必不可少的。

簡介

3D任務中普遍使用3D稀疏卷積網絡進行特征提取,一些方法使用 Transformer進行編-解碼。由于后者的全局和局部自我注意機制能夠從大空間范圍內捕獲上下文信息,這對前者的有效感受野提出了挑戰。相比之下,常見的 3D 稀疏 CNN 受到了限制。2D CNN中,有一系列結合大卷積核提高有效感受野范圍的方法,例如,ConvNeXt 采用 7×7 深度卷積,RepLKNet 使用 31×31 的超大卷積核。但是由于3D 和 2D 任務之間的差異,這些方法并不能直接用于3D 稀疏 CNN 。

因此,3D 大核 CNN 設計難點主要分為兩個方面

(1)效率問題

增大3維立方卷積核時,參數量和計算負擔的增長速度比 2D CNN 快得多。比如,卷積核從 3x3x3 變為 7×7×7 時,模型大小增加了不止 10 倍;

(2)優化問題

相比2D數據集,3D數據基準規模沒那么大,通常只包含不超過一千個場景。同時,3D 點云是稀疏的,而不是密集的,這導致優化大卷積核的參數比較困難而造成過擬合問題。

作者提出空間分區卷積作為 3D 大核設計。通過在空間相鄰位置之間共享權重,代替通道級組的深度卷積。如圖 1 所示,空間分區卷積通過對鄰近空間進行分組將大內核(例如 7×7)重新映射為小內核(例如 3×3),而整個空間大小保持不變。具體說來,就是將內核分成不同的部分,由于每個部分的權重共享,位置信息可能會變得模糊,因此,使用相對位置編碼作為偏差來補充丟失的位置信息。關于效率問題,它占用很少的模型尺寸來保持參數與小內核的參數相同。此外,與普通的大型內核對應物相比,所需延遲更低。至于優化挑戰,空間維度之間的權重共享為參數提供了更多更新和克服過度擬合問題的機會。

1dc0ddc0-d40b-11ed-bfe3-dac502259ad0.png

不同核大小的稀疏卷積。小核稀疏卷積在局部區域收集特征,效率高,但由于特征斷開和范圍小而丟棄了足夠的信息流。大核稀疏卷積能夠以大量的參數和計算為代價捕獲遠程信息。本文提出的空間分區卷積使用大卷積核,并在局部鄰居之間共享權重以提高效率。

貢獻

本文的貢獻主要有以下幾點:

(1) 提出了 LargeKernel3D 神經網絡結構,通過組合多個較小的卷積核構成的一個較大的卷積核,從而顯著提高了網絡的精度,同時保持相對較小的參數量;

(2) 在幾個常見的3D數據集上,LargeKernel3D 都表現出了優于其他最先進的3D稀疏卷積神經網絡的表現;

(3) 提出了相對位置編碼作為偏差來補充丟失的位置信息,解決權重共享導致的模糊問題。

通過這些貢獻,這篇論文在3D卷積神經網絡領域提供了一種高效而準確的解決方案,為3D圖像分析和視覺任務提供了有用的工具。

3D Sparse CNNs

3D 稀疏卷積神經網絡是一種針對三維圖像數據的神經網絡,專門用于處理稀疏(或稱為稀有)的三維數據,例如醫學圖像、點云數據等。與傳統的全連接卷積神經網絡不同,稀疏卷積神經網絡僅對稀疏空間進行計算。這種方法將必要的信息與無關的信息分離開來,避免處理輸入數據中多余的零值點,從而可以顯著減少計算成本,更有效地利用計算資源,并提高對不均勻或無規則的空間數據的識別能力。

3D 稀疏CNN的構建與傳統的3D卷積神經網絡相似,在其基礎上引入了稀疏輸入和輸出,以及乘法卷積(或稱為空間卷積)操作。稀疏卷積同時考慮了空間和特征通道之間的關系,這允許它更好地處理具有復雜空間結構的數據。與稠密數據相比,空間中的稀疏數據包含較少可處理的有效數據點,3D稀疏CNN在前向計算過程中會自動選取非零節點作為計算節點,采用特殊的卷積操作(如空間卷積、乘法卷積等)更好的利用稀疏數據中的特征。

方法 Method

Spatial-wise Partition Convolution

pYYBAGQuJySAF3DkAACvCtes6Dw445.jpg

本文所提的3D 大卷積 CNN 的空間分區卷積。它在卷積核上的空間維度 K 之間共享權重,而不是在通道維度之間共享權重。也不同于 SGC,后者根據輸入特征劃分空間組。這里通過在鄰近空間之間共享權重,將原始的大卷積核從 7×7 分組為 3×3。由于輸入特征是稀疏的,為了避免卷積核擴大帶來的額外開銷,在推理過程中直接使用小核層,并將其特征分配區域擴大到大核范圍(如圖 3 所示),由于權重共享操作,它大大節省了乘法,從 343 次減少到 27 次。

1e0f4ece-d40b-11ed-bfe3-dac502259ad0.png空間分區卷積

Kernel-wise Position Encoding

鄰近空間之間共享權重,會導致局部細節模糊。隨著核大小增加,這個問題越來越嚴重。為了解決該問題,首先初始化位置權重,讓輸入的特征查詢對應位置的位置權重,最后進行相加:

1e36560e-d40b-11ed-bfe3-dac502259ad0.png

這步的本質是將具有相對位置信息的偏差添加到輸入特征中。如下圖,SW-LK Conv由一個大核空間分區卷積和一個可學習的 Position Encodings 組成。Position Encodings 用于彌補大卷積核的細節捕獲能力。

1e595c4e-d40b-11ed-bfe3-dac502259ad0.png

空間大核卷積 (SW-LK Conv) 的結構

實驗

首先比較了普通 3D 子流形稀疏卷積與本文卷積之間的效率,隨著卷積核增大,普通3D卷積的參數量和延遲都急劇上升,而本文的方法效率要高得多。

1e8c5c66-d40b-11ed-bfe3-dac502259ad0.png

普通 3D 稀疏卷積與本文的 SW-LK Conv 之間的效率比較

作者在 3D 分割和檢測兩個下游任務上,進行了驗證。檢測任務使用的是 nuScenes(左), Waym (右)兩個數據集,對比情況如下,可以看到使用LargeKernel3D ,精度最高。其中,LargeKernel3D 將 CenterPoint 提高到 70.6% 和 72.8% NDS,無論有沒有進行測試增強,兩者都優于其他的 LIDAR 方法。多模態模態 LargeKernel3DF 進一步提高到 74.2% NDS 和 71.2% mAP。

1eb1ec10-d40b-11ed-bfe3-dac502259ad0.png

檢測任務對比情況

下面是分割任務上的對比情況,在測試集上,本文方法達到SOTA。MinkowskiNet 是 ScanNetv2 中最先進的方法, SW-LK Conv(本文方法) 進一步提高了它的性能。

1f1263f6-d40b-11ed-bfe3-dac502259ad0.png

ScanNetv2 mIoU 在 3D 語義分割上的比較。

然后是消融實驗,作者對MinkowskiNet-34 和 ScanNetv2 上各種技術和核大小等進行了實驗,LargeKernel3D 是有效的。

1f504388-d40b-11ed-bfe3-dac502259ad0.png

消融實驗

結論 Conclusion

這篇論文與 2D CNN 中的大卷積核有本質區別,深入研究了 3D 卷積網絡的大卷積的設計。所提的專為 3D 大內核設計的空間分區卷積 (SW Conv),有效地解決了普通 3D 大核 CNN 中的效率和優化問題?;谶@種設計,進一步提出了用于 3D 語義分割和對象檢測的 SW-LK Conv 和相應的 LargeKernel3D。

這種3D 大核網絡在語義分割和目標檢測任務上都取得了不錯的改進,并首次展示了可以高效且有效地實現 3D 大內核。但是本文方法也存在局限性,例如 LargeKernel3D 在 3D 語義分割和對象檢測基準測試中主要依賴于手工設計的空間內核大小。這些大小對于其他數據集或任務可能不是最優的,具體取決于整體場景大小和數據稀疏性。其他基于ENAS等搜索技術可能會有幫助,可以嘗試一下。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SGC
    SGC
    +關注

    關注

    0

    文章

    2

    瀏覽量

    6052
  • LiDAR芯片
    +關注

    關注

    1

    文章

    17

    瀏覽量

    3206
  • 卷積網絡
    +關注

    關注

    0

    文章

    42

    瀏覽量

    2158

原文標題:CVPR 2023 | LargeKernel3D:在3D稀疏CNN中使用大卷積核

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于3D數據卷積神經網絡的物體識別

    FusionNet的核心是全新的、應用于3D物體的三維卷積神經網絡(Convolutional Neural Networks, CNN)。我們必須在多個方面調整傳統的CNN以使其有效
    發表于 01-16 16:36 ?3699次閱讀
    基于<b class='flag-5'>3D</b>數據<b class='flag-5'>卷積</b>神經網絡的物體識別

    3D打印技術及應用: 3D打印工藝的分類#3d打印

    3D打印
    學習硬聲知識
    發布于 :2022年11月10日 22:04:40

    LabVIEW中使3D控件

    LabVIEW中使3D控件是可以使用自帶的繪圖vi,也可以從CAD軟件中導入,LabVIEW支持導入的外部格式有ASE格式,WRL格式和STL格式(附件圖1),ASE格式
    發表于 10-27 15:17

    浩辰3D軟件中如何創建槽特征?3D模型設計教程!

    。浩辰3D軟件中使用槽命令時:1、使用轉到快速命令將順序建模槽特征轉換為快速建模模式。移動順序建模槽特征之后,仍然可以快速建模模式下編輯該特征。2、使用槽選項對話框指定槽的定義???/div>
    發表于 09-28 16:16

    浩辰3D的「3D打印」你會用嗎?3D打印教程

    ,從而幫助設計工程師快速設計、試制復雜曲面、異形結構以及非標零部件,高效推進新產品的設計研發與設計驗證。1、模型處理浩辰3D中打開模型文件,選擇「3D打印」選項卡,將模型上的裝飾螺紋換成物理螺紋。2
    發表于 05-27 19:05

    TCL 3D電視閃亮CEF 3D電視2010真的“火”了

    TCL 3D電視閃亮CEF 3D電視2010真的“火”了   3D電視機去年已經嶄露頭角,它能否借《阿凡達》之勢今年大行其道呢?
    發表于 04-12 16:59 ?1024次閱讀

    3D打印巨頭現身CES 2013,力推家用3D打印機

    傳統的3D打印技術,都是應用于工業。但是近兩年來不斷升溫的家庭、個人用3D打印,也吸引了3D打印巨頭3D Systems(股票代碼NYSE:DDD)的注意,
    發表于 01-11 09:39 ?1451次閱讀

    卷積神經網絡(CNN無人駕駛中應用的3D感知與物體檢測

    無人駕駛的感知部分作為計算機視覺的領域范圍,也不可避免地成為CNN發揮作用的舞臺。本文是無人駕駛技術系列的第八篇,深入介紹CNN卷積神經網絡)無人駕駛
    發表于 11-16 12:53 ?1.7w次閱讀
    <b class='flag-5'>卷積</b>神經網絡(<b class='flag-5'>CNN</b>)<b class='flag-5'>在</b>無人駕駛中應用的<b class='flag-5'>3D</b>感知與物體檢測

    基于3D-CNN的無參考視頻質量評價方法

    無參考視頻質量評價(NR-VQA)無法獲得原始高質量視頻參照的前提下,對失真視頻的視覺質量進行定量度量.常規NR-VQA方法通常針對特定失真類型設計,或者與人的主觀感受存在偏差.首次將3D深度卷積
    發表于 01-03 10:18 ?2次下載

    3D卷積神經網絡的手勢識別

    傳統2D卷積神經網絡對于視頻連續幀圖像的特征提取容易丟失目標時間軸上的運動信息,導致識別準確度較低。為此,提出一種基于多列深度3D卷積神經網絡(3D
    發表于 01-30 13:59 ?2次下載
    <b class='flag-5'>3D</b><b class='flag-5'>卷積</b>神經網絡的手勢識別

    MIT:使用深度卷積神經網絡提高稀疏3D激光雷達的分分辨率

    為了提高稀疏3D激光雷達捕獲點云的分辨率,MIT的研究人員通過研究,將這個問題從3D問題轉換為2D圖像空間中的圖像超分辨率問題,使用深度卷積
    發表于 05-17 09:47 ?1974次閱讀

    3D的感知技術及實踐

    測量表面法向量估計 幾何測量平面提取 3D重建從離散點云得到光滑曲面 3D重建ICP點云配準 3D重建SDF表面重建 應用例子:從稀疏的點云中,構造出可以
    的頭像 發表于 10-23 09:40 ?3175次閱讀
    <b class='flag-5'>3D</b>的感知技術及實踐

    基于圖卷積的層級圖網絡用于基于點云的3D目標檢測

    (例如稀疏性),所以一些關鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基于層級圖網絡(HGNet)的 圖卷積 (GConv),可以直接將點云作為輸入來預測 3D 的邊界框。形狀注意圖
    的頭像 發表于 06-21 12:15 ?6182次閱讀
    基于圖<b class='flag-5'>卷積</b>的層級圖網絡用于基于點云的<b class='flag-5'>3D</b>目標檢測

    3D姿態估計 時序卷積+半監督訓練

    在這項工作中,視頻中的3D姿態可以通過全卷積模型來估計,具體是二維關鍵點上通過空洞時間卷積的模型得到3D姿態。我們還介紹了一種不...
    的頭像 發表于 12-08 22:54 ?928次閱讀

    CCV 2023 | SparseBEV:高性能、全稀疏的純視覺3D目標檢測器

    本文介紹3D 目標檢測領域的新工作:SparseBEV。我們所處的 3D 世界是稀疏的,因此稀疏 3D
    的頭像 發表于 09-19 10:00 ?944次閱讀
    CCV 2023 | SparseBEV:高性能、全<b class='flag-5'>稀疏</b>的純視覺<b class='flag-5'>3D</b>目標檢測器