精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Apple提出FastViT:快速卷積和Transformer混合架構

CVer ? 來源:極市平臺 ? 2023-09-20 17:12 ? 次閱讀

導讀

本文提出了一種通用的 CNN 和 Transformer 混合的視覺基礎模型,移動設備和 ImageNet 數據集上的精度相同的前提下,FastViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍

太長不看版

本文是 MobileOne 原班人馬打造,可以看做是 MobileOne 的方法在 Transformer 上的一個改進型的應用。作者取名 FastViT,是一種 CNN,Transformer 混合架構的低延時模型。作者引入了一種新的 token mixer,叫做 RepMixer,它使用結構重新參數化技術,通過刪除網絡中的 Shortcut 來降低內存訪問成本。

進一步使用大核卷積使得 FastViT 精度得到提升,而且不怎么影響延時。在移動設備和 ImageNet 數據集上的精度相同的前提下,FastViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍。在類似的延遲下,FastViT 在 ImageNet 上獲得的 Top-1 準確率比 MobileOne 高 4.2%,是一種極具競爭力的混合架構模型。

1 FastViT:快速卷積 Transformer 的混合視覺架構

論文名稱:FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

f9052922-5773-11ee-939d-92fbcf53809c.png

在CVer微信公眾號后臺回復:FastViT,可以下載本論文pdf、代碼

論文:https://arxiv.org/pdf/2303.14189

代碼:https://github.com/apple/ml-fastvit

1.1 背景和動機

本文的目標是做一個卷積,Attention 的低延時混合架構,因為這種架構有效地結合了 CNN 和 Transformer 的優勢,在多個視覺任務上有競爭力。本文的目標是建立一個模型,實現 SOTA 的精度-延時 Trade-off。

本文的出發點是最近的像 CMT[1],LIT[2]等 CNN 和 Transformer 混合架構的模型都遵循 MetaFormer[3] 的架構,它由帶有 skip-connection 的 token mixer 和帶有 skip-connection 的前饋網絡 (Feed Forward Network) 組成。由于增加了內存訪問成本 (memory access cost),這些跳過連接在延遲方面占了很大的開銷。為了解決這個延遲開銷,本文提出 RepMixer,這是一個完全可以重參數化的令牌混合器,它的特點1是使用結構重參數化來刪除 skip-connection。

RepMixer 的特點2是在訓練期間為主要的層添加一些過參數化的額外的分支,以在訓練時提升模型的精度,在推理時全部消除。RepMixer 的特點3是在網絡中使用了大核卷積在前幾個階段替換掉 Self-Attention。具體是在前饋網絡 (FFN) 層和 Patch Embedding 層中加入了大核卷積。這些更改對模型的總體延遲影響很小,同時提高了性能。

對于性能這塊作者在 iPhone 12 Pro 設備和 NVIDIA RTX-2080Ti desktop GPU 上進行了詳盡的分析,實驗結果如下圖1所示。可以看到在兩種設備上,FastViT 都實現了最佳的精度-延時的權衡。

f915a748-5773-11ee-939d-92fbcf53809c.png

圖1:iPhone 12 Pro 設備和 NVIDIA RTX-2080Ti desktop GPU 上的精度-延時比較

1.2 FastViT 模型架構

FastViT 整體架構如下圖2所示。

Stage 的內部架構

FastViT 采用了4個 stage 的架構,每個 stage 相對于前一個的分辨率減半,通道數加倍。前3個 stage 的內部架構是一樣的,都是訓練的時候采用下式:

f92b6894-5773-11ee-939d-92fbcf53809c.png

推理的時候采用結構重參數化得到下式:

f934fe9a-5773-11ee-939d-92fbcf53809c.png

第4個 stage 的內部架構如圖2 (a) 所示,采用 Attention 來作為 token mixer,可能是為了性能考慮,寧愿不采用結構重參數化,犧牲延時成本,以換取更好的性能。

值得注意的是,每個 Stage 中的 FFN 使用的并不是傳統的 FFN 架構,而是如圖2 (c) 所示的,帶有大核 7×7 卷積的 ConvFFN 架構。

f9416464-5773-11ee-939d-92fbcf53809c.png

圖2:FastViT 模型架構

Stem 的結構

Stem 是整個模型的起點,如圖2 (b) 所示,FastViT 的 Stem 在推理時的結構是 3×3 卷積 + 3×3 Depth-wise 卷積 + 1×1 卷積。在訓練時分別加上 1×1 分支或者 Identity 分支做結構重參數化。

Patch Embedding 的架構

Patch Embedding 是模型在 Stage 之間過渡的部分,FastViT 的 Patch Embedding 如圖2 (a) 所示,在推理時的結構是 7×7 大 Kernel 的 Depth-wise 卷積 + 1×1 卷積。在訓練時分別加上 3×3 分支做結構重參數化。

位置編碼

位置編碼使用條件位置編碼,它是動態生成的,并以輸入 token 的局部鄰域為條件。這些編碼是由 depth-wise 運算符生成的,并添加到 Patch Embedding 中。

1.3 RepMixer 的延時優勢

如下圖3所示,作者對比了 RepMixer 和高效的 Pooling 操作的延時情況。架構使用的是 MetaFormer S12,大概有 1.8 GFLOPs。作者在 iPhone 12 Pro 移動設備上為從 224×224 到 1024×1024 的各種輸入分辨率的模型計時。可以看到 RepMixer 明顯優于 Pooling,尤其是在較高分辨率的時候。在分辨率為 384×384 時,使用 RepMixer 可以降低 25.1% 的延遲,而在分辨率為 1024×1024 時,使用 RepMixer 可以降低 43.9% 的延遲。

f95a3318-5773-11ee-939d-92fbcf53809c.png

圖3:RepMixer 的延時優勢

1.4 FastViT 的大核卷積

RepMixer 的感受野是局部的。我們知道 Self-Attention 操作的感受野是全局的,但是 Self-Attention 操作計算量昂貴,因此之前有工作說使用大核卷積可以在計算量得到控制的情況下有效增加感受野的大小。FastViT 在兩個位置引入了大核卷積,分別是 Patch Embedding 層和 FFN。對比實驗的結果如下圖4所示。將 V5 與 V3 進行比較,模型大小增加了 11.2%,延遲增加了 2.3 倍,而 Top-1 精度的增益相對較小,只有 0.4%,說明使用大核卷積來替換 Self-Attention 是一種高效,節約延時的方式。V2 比 V4 大 20%,延時比 V4 高 7.1%,同時在 ImageNet 上獲得相似的 Top-1 精度。

f9698dcc-5773-11ee-939d-92fbcf53809c.png

圖4:大核卷積的消融實驗

隨著感受野的增加,大核卷積也有助于提高模型的魯棒性。FastViT 各種模型的超參數配置如下圖5所示。

f97a1afc-5773-11ee-939d-92fbcf53809c.png

圖5:FastViT 的超參數配置

1.5 實驗結果

ImageNet-1K 圖像分類實驗結果

如下圖6所示是 ImageNet-1K 圖像分類實驗結果。對于 iPhone 設備延時的測量,作者使用 Core ML Tools (v6.0) 導出模型,并在帶有 iOS 16 的 iPhone12 Pro Max 上運行,并將所有模型的 Batch Size 大小設置為1。對于 GPU延時的測量,作者把模型導出為 TensorRT (v8.0.1.6) 格式,并在 NVIDIA RTX-2080Ti 上運行,Batch Size 大小為8,報告100次運行的中位數。

與 SOTA 模型的性能比較如下圖6所示。本文的 FastViT 實現了最佳的精度-延時均衡,比如 FastViT-S12 在 iPhone 12 Pro 上比 MobileOne-S4 快 26.3%,GPU 上快 26.9%。在 83.9% 的 Top-1 精度下,FastViT-MA36 比 iPhone 12 Pro 上優化的 ConvNeXt-B 模型快 1.9倍, GPU上快2.0倍。

f9901fa0-5773-11ee-939d-92fbcf53809c.png

圖6:ImageNet-1K 圖像分類實驗結果

知識蒸餾實驗結果

如下圖7所示是 FastViT 作為學生模型的知識蒸餾實驗結果。作者遵循 DeiT 中的實驗設置,RegNet16GF 作為教師模型,使用 Hard Distillation,其中教師的輸出設置為 true label,一共訓練300個 Epochs。FastViT 優于最近最先進的模型 EfficientFormer。FastViT-SA24 的性能與 EfficientFormer-L7 相似,但參數少3.8倍,FLOPs 少2.7倍,延遲低2.7倍。

f9a66594-5773-11ee-939d-92fbcf53809c.png

圖7:知識蒸餾實驗結果

目標檢測和語義分割實驗結果

對于語義分割,作者在 ADE20k 上驗證了模型的性能語義分割模型頭使用的是 Semantic FPN,所有的模型都是用預先訓練好的對應圖像分類模型的權重進行初始化。在 512×512 的設置上估計 FLOPs 和延遲。由于輸入圖像的分辨率較高,在表9和表10中,GPU 延遲在測量時使用了大小為2的 Batch Size。在圖8中,作者將 FastViT 與最近的工作進行了比較。FastViT-MA36 的 mIoU 比 PoolFormer-M36 高 5.2%,但是 PoolFormer 具有更高的 FLOPs、參數量和延遲。

f9bfcffc-5773-11ee-939d-92fbcf53809c.png

圖8:語義分割實驗結果

目標檢測和實例分割實驗實驗 MS-COCO 數據集,實驗結果如下圖9所示。所有模型都使用 Mask-RCNN 目標檢測和實例分割頭按照 1x schedule 進行訓練。所有的模型都是用預先訓練好的對應圖像分類模型的權重進行初始化。結果顯示出 FastViT 在多種延遲機制下實現了最先進的性能。FastViT-MA36 模型的性能與 CMT-S 相似,但在桌面GPU 和移動設備上分別快2.4倍和4.3倍。

f9d58ee6-5773-11ee-939d-92fbcf53809c.png

圖9:目標檢測和實例分割實驗結果

總結

本文提出了一種通用的 CNN 和 Transformer 混合的視覺基礎模型,是由 MobileOne 原班人馬打造,可以看做是 MobileOne 的方法在 Transformer 上的一個改進型的應用。作者引入了一種新的 token mixer,叫做 RepMixer,它使用結構重新參數化技術,通過刪除網絡中的 Shortcut 來降低內存訪問成本,尤其是在較高分辨率時。作者還提出了進一步的架構更改,以提高 ImageNet 分類任務和其他下游任務的性能。在移動設備和 ImageNet 數據集上的精度相同的前提下,FastViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍。在類似的延遲下,FastViT 在 ImageNet 上獲得的 Top-1 準確率比 MobileOne 高 4.2%,是一種極具競爭力的混合架構模型。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 架構
    +關注

    關注

    1

    文章

    510

    瀏覽量

    25447
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24644
  • cnn
    cnn
    +關注

    關注

    3

    文章

    351

    瀏覽量

    22170

原文標題:ICCV 2023 | Apple提出FastViT:快速卷積和Transformer混合架構

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于卷積的基礎模型InternImage網絡技術分析

    近年來大規模視覺 Transformer 的蓬勃發展推動了計算機視覺領域的性能邊界。視覺 Transformer 模型通過擴大模型參數量和訓練數據從而擊敗了卷積神經網絡。
    發表于 11-18 10:49 ?690次閱讀
    基于<b class='flag-5'>卷積</b>的基礎模型InternImage網絡技術分析

    基于MLP的快速醫學圖像分割網絡UNeXt相關資料分享

    緩慢。這篇文章提出了基于卷積多層感知器(MLP)改進 U型架構的方法,可以用于圖像分割。設計了一個 tokenized MLP 塊有效地標記和投影卷積特征,使用 MLPs 來建模表示。
    發表于 09-23 14:53

    利用卷積調制構建一種新的ConvNet架構Conv2Former

    構建了一種新的ConvNet架構Conv2Former。ImageNet分類、COCO檢測以及ADE20K分割任務上的實驗結果表明:所提Conv2Former取得了優于主流ConvNet(如ConvNeXt)、ViT(如Swin Transformer)的性能。  本文方
    發表于 12-19 17:37

    一層卷積能做啥?一層卷積可以做超分嗎?

    深度學習超分之間的空白。作為從經典到深度學習上采樣之間的過渡,我們提出了edge-SR(eSR):一層架構,它采用可解釋機制進行圖像上采樣。當然,一層架構無法達到與深度學習方法的性能,但是,對于高速度
    發表于 03-06 14:05

    簡談卷積—幽默笑話談卷積

    的物理意義呢?那下面咱們就來看一看詳細的卷積本質以及物理意義的介紹。 一、來源 卷積其實就是為沖擊函數誕生的。“沖擊函數”是狄拉克為了解決一些瞬間作用的物理現象而提出的符號。古人曰:“說一堆
    發表于 05-25 18:08

    基于多步分解算法的解卷積混合盲源分離新方法

    基于多步分解算法的解卷積混合盲源分離新方法:該文提出一種基于二階統計量的時域多步分解算法求解卷積混合盲源分離問題。引入白化處理,將混迭矩陣轉
    發表于 10-29 13:08 ?26次下載

    一種混合卷積窗及其在諧波分析中的應用

    電力系統穩態信號非同步采樣時,利用離散傅里葉變換分析諧波會使各頻率成分產生頻譜泄漏,增大了諧波參數的測量誤差。為進一步抑制頻譜泄漏,提高諧波測量的準確度,提出一種由矩形窗和余弦窗經過卷積運算
    發表于 03-28 10:22 ?1次下載

    谷歌將AutoML應用于Transformer架構,翻譯結果飆升!

    為了探索AutoML在序列域中的應用是否能夠取得的成功,谷歌的研究團隊在進行基于進化的神經架構搜索(NAS)之后,使用了翻譯作為一般的序列任務的代理,并找到了Evolved Transformer這一新的Transformer
    的頭像 發表于 06-16 11:29 ?3001次閱讀

    基于卷積的框架有效實現及視覺Transformer背后的關鍵成分

    來自清華大學和 Meta AI 的研究者證明了視覺 Transformer 的關鍵,即輸入自適應、長程和高階空間交互,也可以通過基于卷積的框架有效實現。
    的頭像 發表于 09-09 15:44 ?1127次閱讀

    利用Transformer和CNN 各自的優勢以獲得更好的分割性能

    概述 在這篇論文中,提出了一種新的醫學圖像分割混合架構:PHTrans,它在主要構建塊中并行混合 Transformer 和 CNN,分別從
    的頭像 發表于 11-05 11:38 ?6461次閱讀

    PyTorch教程8.8之設計卷積網絡架構

    電子發燒友網站提供《PyTorch教程8.8之設計卷積網絡架構.pdf》資料免費下載
    發表于 06-05 10:02 ?0次下載
    PyTorch教程8.8之設計<b class='flag-5'>卷積</b>網絡<b class='flag-5'>架構</b>

    基于魯棒神經架構的設計

    導讀 繼卷積神經網絡之后,Transformer又推進了圖像識別的發展,成為視覺領域的又一主導。最近有人提出Transformer的這種優越性應歸功于Self-Attention的
    的頭像 發表于 07-17 14:35 ?456次閱讀
    基于魯棒神經<b class='flag-5'>架構</b>的設計

    RetNet架構Transformer架構對比分析

    微軟研究院最近提出了一個新的 LLM 自回歸基礎架構 Retentive Networks (RetNet)[1,4],該架構相對于 Transformer
    發表于 07-26 10:44 ?1190次閱讀
    RetNet<b class='flag-5'>架構</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架構</b>對比分析

    介紹一種基于卷積和VIT的混合網絡

    論文提出了一種基于卷積和VIT的混合網絡,利用Transformers捕獲遠程依賴關系,利用cnn提取局部信息。構建了一系列模型cmt,它在準確性和效率方面有更好的權衡。
    的頭像 發表于 09-08 16:42 ?1109次閱讀
    介紹一種基于<b class='flag-5'>卷積</b>和VIT的<b class='flag-5'>混合</b>網絡

    Transformer架構在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理(NLP)領域取得了顯著的進步。其中,Transformer架構提出,為NLP領域帶來了革命性的變革。本文將深入探討Transformer
    的頭像 發表于 07-09 11:42 ?694次閱讀