精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用Transformer和CNN 各自的優勢以獲得更好的分割性能

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:GiantPandaCV ? 2022-11-05 11:38 ? 次閱讀

概述

在這篇論文中,提出了一種新的醫學圖像分割混合架構:PHTrans,它在主要構建塊中并行混合 Transformer 和 CNN,分別從全局和局部特征中生成層次表示并自適應聚合它們,旨在充分利用 Transformer 和 CNN 各自的優勢以獲得更好的分割性能。

具體來說,PHTrans 沿用 U 形設計,在深層引入并行混合模塊,其中卷積塊和修改后的 3D Swin Transformer 塊分別學習局部特征和全局依賴關系,然后使用 sequence-to-volume 操作統一輸出維度以實現特征聚合,操作的具體細節在這篇閱讀筆記的后面詳細介紹。最后在 BCV 和 ACDC 數據集上驗證了其有效性,并用 nnUNet 包預處理 BCV 和 ACDC 數據集。

為什么要并行

下圖的 (a)~(d) 是幾種流行的基于 Transformer 和 CNN 的混合架構,既將 Transformer 添加到以 CNN 為 backbone 的模型中,或替換部分組件。其中 (c) 與 (b) 的區別是通過 Transformer 橋接從編碼器到解碼器的所有階段,而不僅僅是相鄰的階段,這就捕獲了多尺度全局依賴。(d) 表示將 Transformer 和 CNN 交織成一個混合模型,其中卷積編碼精確的空間信息,而自注意力機制捕獲全局上下文信息。

圖 (e) 表示二者的并行。在串行組合中,卷積和自注意力機制無法貫穿整個網絡架構,難以連續建模局部和全局表示,因此這篇論文里認為并行可以充分發揮它們的潛力。

9e278bca-5c48-11ed-a3b6-dac502259ad0.png

PHTrans 架構 overview

首先,我們從總體上分析一下 PHTrans 架構,然后在下一部分看它的細節。如下圖 (b),其主要構建塊由 CNN 和 Swin Transformer 組成,以同時聚合全局和局部表示。圖 (a) 依舊遵循的 U 形架構設計,在淺層只是普通的卷積塊,在深層引入了 sequence-to-volume 操作來實現 Swin Transformer 和 CNN 在一個塊中的并行組合。

我們上一篇解析的 UNeXT 也是只在深層使用 TokMLP 的,看來淺層的卷積還是必要的。也就是說,與串行混合架構相比,PHTrans 可以獨立并行構建分層的局部和全局表示,并在每個階段融合它們。

進一步解釋下為什么輸入的第一層也就是 U 型架構的淺層沒有用 Trans&Conv Block?因為自注意力機制的計算復雜度高,Transformer 無法直接接收以像素為標記的輸入。在論文的實現中,使用了級聯卷積塊和下采樣操作來減小空間大小,逐步提取高分辨率的低級特征以獲得精細的空間信息。類似地,這些純卷積模塊也部署在解碼器的對應層,并通過上采樣恢復原始維度。

9e4cd718-5c48-11ed-a3b6-dac502259ad0.png

我們仔細看下 PHTrans 的編碼器,對于 H×W×D 的輸入 volume(3D 醫學圖像),其中 H、W 和 D 分別表示高度、寬度和深度,首先使用幾個純卷積模塊得到的 volume,其中 N1 和 C 表示卷積塊和通道的數量。然后輸入到 Trans&Conv Block 重復 N2 次。對于解碼器同樣基于純卷積模塊和并行混合模塊構建,并通過跳躍連接和加法操作融合來自編碼器的語義信息。此外,在訓練期間在解碼器的每個階段都使用深度監督機制,產生總共 N1 + N2 個輸出,其中應用了由交叉熵和 DICE 的聯合損失。

深度監督(deep supervision)又稱為中繼監督(intermediate supervision),其實就是網絡的中間部分新添加了額外的 Loss,跟多任務是有區別的,多任務有不同的 GT 計算不同的 Loss,而深度監督的 GT 都是同一個 GT,不同位置的 Loss 按系數求和。深度監督的目的是為了淺層能夠得到更加充分的訓練,避免梯度消失(有待研究)。在提供的 Github 代碼里,提到的超參數有 N1、N2、M1 和 M2,M1 和M2 是并行混合模塊中 Swin Transformer 塊和卷積塊的數量。

Trans&Conv block

Trans&Conv block 的設計是我們最感興趣的地方。縮小比例的特征圖分別輸入 Swin Transformer (ST) 塊和卷積 (Conv) 塊,分別在 ST 塊的開頭和結尾引入 Volume-to-Sequence (V2S) 和 Sequence-to-Volume (S2V) 操作來實現 volume 和 sequence 的變換,使其與 Conv 塊產生的輸出兼容。具體來說,V2S 用于將整個 3D 圖像重塑為具有窗口大小的 3D patches 序列。S2V 是相反的操作。

如上一節的圖 (b) 所示,一個 ST 塊由一個基于移位窗口的多頭自注意力 (MSA) 模塊組成,然后是一個 2 層 MLP。在每個 MSA 模塊和每個 MLP 之前應用一個 LayerNorm (LN) 層,在每個模塊之后應用一個殘差連接。在 M1 個連續的 ST 塊中,W-MSA 和 SW-MSA 交替嵌入到 ST 塊中,W-MSA能夠降低計算復雜度,但是不重合的窗口之間缺乏信息交流,這樣其實就失去了 Transformer 利用 Self-Attention 從全局構建關系的能力,于是用 SW-MSA 來跨窗口進行信息交流(跨窗口連接),同時保持非重疊窗口的高效計算。

對于醫學圖像分割,需要將標準 ST 塊修改為 3D 版本,該版本在局部 3D 窗口內計算自注意力,這些窗口被安排為以非重疊方式均勻劃分體積。計算方法是下面這樣的:假設 x ∈ H×W×S×C 是 ST 塊的輸入,首先將其 reshape 為 N×L×C,其中 N 和 L = Wh × Ww × Ws 分別表示 3D 窗口的數量和維度。每個 head 中的 self-attention 計算如下:

9e6be52c-5c48-11ed-a3b6-dac502259ad0.png

Q, K, V ∈ L×d 是查詢、鍵和值矩陣,d 是查詢/鍵維度,B ∈ L×L 是相對位置偏差。B 的取值在論文和代碼里都可以找到,這里我們就不仔細探究了。(b) 中的卷積塊以 3 × 3 × 3 卷積層、GELU 非線性和實例歸一化層為單位重復 M2 次。最后,通過加法運算融合 ST 塊和 Conv 塊的輸出。編碼器中 Trans&Conv 塊的計算過程(抽象成并行)可以總結如下:

9e7bb790-5c48-11ed-a3b6-dac502259ad0.png

xi?1 是編碼器第 i?1 階段的下采樣結果。值得注意的是,在解碼器中,除了跳躍連接之外,還通過加法操作來補充來自編碼器的上下文信息(圖 (a) 中的圈 C 和 圈 +)。因此,解碼器中的 Trans&Conv 塊計算(抽象成并行)可以表示為:

9e8a4850-5c48-11ed-a3b6-dac502259ad0.png

實驗

實驗在 BCV 和 ACDC 數據集上,BCV 分割腹部 CT 多個目標,ACDC 是 MRI 心臟分割,標記了左心室 (LV)、右心室 (RV) 和心肌 (MYO)。在 BCV 上和其他 SOTA 方法的比較如下表:

9f024b8e-5c48-11ed-a3b6-dac502259ad0.png

在 ACDC 上和其他 SOTA 方法的比較如 Table 2 所示,Table 3 中的參數量和 FLOPS 和其他方法比也沒有很夸張,參數量甚至和 nnU-Net 相近。

9f1e4f3c-5c48-11ed-a3b6-dac502259ad0.png

可視化分割結果如下圖,我們只定位藍色肝臟的分割效果,箭頭位置表明分割的效果 PHTrans 是更優秀的。

9f380dd2-5c48-11ed-a3b6-dac502259ad0.png

總結

PHTrans 也許為更多下游醫學圖像任務開發了新的可能性。在 PHTrans 中,都是普通的 Swin Transformer 和簡單的 CNN 塊,這表明性能提升源于并行混合架構設計,而不是 Transformer 和 CNN 塊。此外,PHTrans 沒有經過預訓練,因為到目前為止還沒有足夠大的通用 3D 醫學圖像數據集。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24649
  • cnn
    cnn
    +關注

    關注

    3

    文章

    351

    瀏覽量

    22178
  • Transformer
    +關注

    關注

    0

    文章

    141

    瀏覽量

    5982

原文標題:PHTrans 并行聚合全局和局部表示來進行醫學圖像分割

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    手把手教你使用LabVIEW實現Mask R-CNN圖像實例分割(含源碼)

    使用LabVIEW實現Mask R-CNN圖像實例分割
    的頭像 發表于 03-21 13:39 ?2230次閱讀
    手把手教你使用LabVIEW實現Mask R-<b class='flag-5'>CNN</b>圖像實例<b class='flag-5'>分割</b>(含源碼)

    如何利用PyTorch API構建CNN?

    重要組成部分稱為最大池層。這有助于我們減少功能部件的數量,即使功能銳化以使我們的CNN性能更好。  對于所有卷積層,我們都應用RELU激活函數。  在將卷積層映射到輸出時,我們需要使用線性層。因此
    發表于 07-16 18:13

    如何利用卷積神經網絡去更好地控制巡線智能車呢

    巡線智能車控制中的CNN網絡有何應用?嵌入式單片機中的神經網絡該怎樣去使用?如何利用卷積神經網絡去更好地控制巡線智能車呢?
    發表于 12-21 07:47

    基于MLP的快速醫學圖像分割網絡UNeXt相關資料分享

    主要關注的地方。最終,UNeXt 將參數數量減少了 72倍,計算復雜度降低了 68 倍,推理速度提高了 10 倍,同時還獲得更好分割性能,如下圖所示。  UNeXt 架構  UNe
    發表于 09-23 14:53

    有沒有人可以解釋如何設置RFO寄存器獲得更好的范圍?

    你好!有沒有人可以解釋我們如何設置這個RFO正常電平定義寄存器獲得更好的范圍?謝謝你。
    發表于 12-07 09:03

    介紹一種用于密集預測的mlp架構CycleMLP

    ,CycleMLP的性能明顯優于ResNet和PVT。與Swin Transformer相比,CycleMLP可以獲得與Swin Transformer相當甚至
    發表于 02-09 16:28

    一種新的彩色圖像分割算法

    顏色空間的像素與其領域的顏色差異及相對歐式距離自動選出一些區域作為種子區域進行自動種子生長算法。為了克服過分割的不良效果,該方法充分利用了分水嶺算法和區域合并算法的各自優勢
    發表于 12-14 14:41 ?1次下載
    一種新的彩色圖像<b class='flag-5'>分割</b>算法

    局部聚類分析的FCN-CNN云圖分割方法

    空氣中的塵埃、污染物及氣溶膠粒子的存在嚴重影響了大氣預測的有效性,毫米波雷達云圖的有效分割成為了解決這一問題的關鍵,本文提出了一種基于超像素分析的全卷積神經網路FCN和深度卷積神經網絡CNN
    發表于 12-15 16:44 ?0次下載

    如何在Vivado中應用物理優化獲得更好的設計性能

    物理優化是Vivado實現流程中更快時序收斂的重要組成部分。 了解如何在Vivado中應用此功能以交換運行時獲得更好的設計性能
    的頭像 發表于 11-23 06:06 ?4033次閱讀

    用于實例分割的Mask R-CNN框架

    是應用于每個 RoI 的小型 FCN,像素到像素的方式預測分割掩碼。鑒于 Faster R-CNN 框架,Mask R-CNN 易于實現和訓練,這有助于廣泛的靈活架構設計。此外,掩碼
    的頭像 發表于 04-13 10:40 ?2595次閱讀

    普通視覺Transformer(ViT)用于語義分割的能力

    本文探討了普通視覺Transformer(ViT)用于語義分割的能力,并提出了SegViT。以前基于ViT的分割網絡通常從ViT的輸出中學習像素級表示。不同的是,本文利用基本的組件注意
    的頭像 發表于 10-31 09:57 ?4985次閱讀

    基于 Transformer分割與檢測方法

    關于 ?Transformer-Based 的 Segmentation 的綜述,系統地回顧了近些年來基于 Transformer? 的分割與檢測模型,調研的最新模型
    的頭像 發表于 07-05 10:18 ?929次閱讀
    基于 <b class='flag-5'>Transformer</b> 的<b class='flag-5'>分割</b>與檢測方法

    如何利用CNN實現圖像識別

    卷積神經網絡(CNN)是深度學習領域中一種特別適用于圖像識別任務的神經網絡結構。它通過模擬人類視覺系統的處理方式,利用卷積、池化等操作,自動提取圖像中的特征,進而實現高效的圖像識別。本文將從CNN的基本原理、構建過程、訓練策略以
    的頭像 發表于 07-03 16:16 ?1172次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型,在圖像分割與語義
    的頭像 發表于 07-09 11:51 ?697次閱讀

    利用TPS61299在智能手表應用中獲得快速瞬態性能優勢

    電子發燒友網站提供《利用TPS61299在智能手表應用中獲得快速瞬態性能優勢.pdf》資料免費下載
    發表于 09-03 11:44 ?0次下載
    <b class='flag-5'>利用</b>TPS61299在智能手表應用中<b class='flag-5'>獲得</b>快速瞬態<b class='flag-5'>性能</b><b class='flag-5'>優勢</b>