精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

空間稀疏推理(SSI)加速深度生成模型

3D視覺工坊 ? 來源:計算機視覺工坊 ? 作者:空港 ? 2022-11-08 09:22 ? 次閱讀

1. 個人理解

生成模型近年來發展迅猛,已經表現出極強的真實感合成能力,在三維重建、AI繪畫、音視頻創作、可控圖像生成、真實圖像編輯等領域的應用廣泛。例如,即便沒有繪畫基礎,大家也可以很容易利用生成模型繪制大師級畫作。但近年來SOTA生成模型的主要問題是需要大量的計算資源,這一方面是由于深度網絡的框架較為復雜,另一方面是因為每次針對圖像可能只是做了很小的改動,但生成模型仍然需要重新計算整張圖像。

在2022 NeurIPS論文“Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models”中,CMU、MIT、斯坦福聯合提出了空間稀疏推理(SSI),它可以利用編輯區域的空間稀疏性來加速深度生成模型,并且可以應用于各種生成模型!在Apple M1 Pro CPU上的推理速度加快了14倍!

2. 摘要

在圖像編輯期間,現有的深度生成模型傾向于從頭開始重新合成整個輸出,包括未編輯的區域。這導致了計算的顯著浪費,尤其是對于較小的編輯操作。在這項工作中,我們提出了空間稀疏推理(SSI),這是一種通用技術,它選擇性地對編輯區域執行計算,并加速各種生成模型,包括條件GAN和擴散模型。

我們的主要觀察是,用戶傾向于對輸入圖像進行漸進的改變。這促使我們緩存和重用原始圖像的特征圖。給定一個編輯過的圖像,我們稀疏地將卷積濾波器應用于編輯過的區域,同時為未編輯的區域重用緩存的特征。

基于我們的算法,我們進一步提出稀疏增量生成引擎(SIGE)來將計算減少轉換為現成硬件上的延遲減少。通過1.2%的面積編輯區域,我們的方法減少了7.5倍的DDIM和18倍的GauGAN的計算,同時保持視覺保真度。通過SIGE,我們加速了3.0倍在RTX 3090上的DDIM和6.6倍在蘋果M1 Pro CPU上的推理時間,以及4.2倍在RTX 3090上的GauGAN和14倍在Apple M1 Pro CPU上的推理時間。

3. 算法分析

3.1 效果對比

話不多說,先看效果! 如圖1(a)所示,上一次編輯的生成結果已經被計算,用戶進一步編輯其中9.4%的區域。然而,普通的DDIM需要生成整個圖像來計算新編輯的區域,在未改變的區域上浪費了80%的計算資源。解決這個問題的一個簡單方法是首先分割新編輯的片段,合成相應的輸出片段,并將輸出與先前結果進行疊加。

但這種方法很容易在新編輯和未編輯的區域之間產生明顯接縫。 為解決此問題,作者提出了空間稀疏推理(Spatially Sparse Inference,SSI)和稀疏增量生成引擎(SIGE),如圖2(b)所示。作者的關鍵思想是重用之前編輯的緩存特征圖并稀疏更新新編輯的區域。

0a3a3d2e-5ef3-11ed-8abf-dac502259ad0.png

圖1 在交互式編輯場景中,用戶添加了一個新的建筑,它占據了9.4%的像素 如圖2所示是作者與其他生成模型的對比結果。可以看出相較于DDIM和GauGAN,作者提出的方法計算量大幅降低。其中相較于DDIM,計算量降低了4~6倍,相較于GauGAN,計算量降低了15倍,當引入模型壓縮方法以后,計算量進一步減少了47倍。注意一下這里的MACs指標,1 MAC等于2 FLOPs。

0a6947ea-5ef3-11ed-8abf-dac502259ad0.png

圖2 作者提出方法的計算量對比 重要的是,這種方法可以很容易得推廣到其他生成模型中!進一步降低計算量!

3.2 激活稀疏性

作者的啟發靈感是,在交互式圖像編輯期間,用戶通常每次只編輯圖像中的一部分。因此,可以為未編輯區域重用原始圖像的激活。因此,可以利用編輯區域的空間稀疏性來加速深度生成模型。具體來說,給定用戶輸入,首先計算一個差異掩碼來定位新編輯的區域。

對于每一個模型中的卷積層,僅稀疏地將濾波器應用于掩蔽的區域,而對未改變的區域重復使用先前的生成模型。稀疏更新可以在不損害圖像質量的情況下顯著減少計算量。 此外,由于稀疏更新涉及聚集-分散過程,現有的深度學習框架會導致顯著的延遲開銷。

為了解決這個問題,作者進一步提出了稀疏增量生成引擎(SIGE)來將算法的理論計算減少轉化為在各種硬件上測量的延遲減少。 如圖3所示是具體的算法原理,首先預計算原始輸入圖像的所有激活。在編輯過程中,通過計算原始圖像和編輯圖像之間的差異掩模來定位編輯區域。然后,對未編輯的區域重新使用預先計算的激活,并且通過對它們應用卷積濾波器來僅更新已編輯的區域。

0abab79c-5ef3-11ed-8abf-dac502259ad0.png

圖3 稀疏卷積原理概述 具體的數學推導為:

0aed263c-5ef3-11ed-8abf-dac502259ad0.png

其中Al表示第l層卷積層F的輸入tensor,W和b分別是第l層的權重和偏置。 如圖4所示,ΔAl共享了用戶所做編輯中的結構化空間稀疏性,因此非零值主要聚集在編輯區域內。這樣就可以直接使用原始圖像和編輯后的圖像來計算一個差異掩碼,并用這個掩碼對ΔAl進行稀疏化。

0b1923f4-5ef3-11ed-8abf-dac502259ad0.png

圖4 左圖:圖像編輯示例。右圖:在不同特征圖分辨率下,DDIM第l層的?Al通道平均值

3.3 稀疏增量生成引擎SIGE

但是如何利用結構化稀疏性來加速Wl*ΔAl呢? 一種簡單的方法是為每個卷積從ΔAl中裁剪一個矩形編輯區域,并且只計算裁剪區域的特征。但作者發現這種裁剪方法對于不規則的編輯區域(圖4所示的例子)效果很差。 因此,如圖5所示,作者使用基于tiling的稀疏卷積算法。

首先將差異掩碼向下采樣到不同的比例,并擴展向下采樣的掩碼,將ΔAl在空間上劃分為多個相同大小的小塊。每個塊索引指的是具有非零元素的單個塊。然后將非零塊沿批維度進行相應的聚集,并將其饋入卷積Fl。最后,根據索引將輸出塊分散成零張量,以恢復原始空間大小,并將預先計算的殘差計算。

0b3fc338-5ef3-11ed-8abf-dac502259ad0.png

圖5 基于titling的稀疏卷積

4. 實驗

作者分別在三個模型上進行實驗,包括擴散模型和GAN模型:DDIM、Progressive Distillation (PD)、GauGAN。使用LSUN Church數據集和Cityscapes數據集進行實驗。在評價指標方面,使用PSNR、LPIPS、FID來評估圖像質量。對于Cityscapes數據集還是用了語義分割中的mIoU這一指標。

4.1 主要結果

表1所示是作者方法應用于DDIM、Progressive Distillation (PD)和GauGAN的定量結果,并在圖6中顯示了定性結果。對于PSNR和LPIPS來說,對于DDIM和Progressive Distillation (PD)來說,作者方法始終優于所有基線,并獲得與原始模型相當的結果。當由于全局上下文不足而編輯的區域很小時,補片推理失敗。

盡管作者方法僅將卷積濾波器應用于局部編輯區域,但是可以重用存儲在原始激活中的全局上下文。因此,作者的方法可以像原始模型一樣執行。對于GauGAN,作者的方法也比GAN Compression執行得更好,MACs減少更多。當應用于GAN Compression時,進一步實現了大約40倍MACs的減少,性能略有下降,同時超過了0.19 GauGAN和GAN Comp。

表1 定量質量評估

0b6ad41a-5ef3-11ed-8abf-dac502259ad0.png

0b866a04-5ef3-11ed-8abf-dac502259ad0.png

圖6 所提出方法的定性對比

在模型模型效率方面,作者測試了了圖6所示的編輯實例在4個設備上的加速比,包括RTX 3090、RTX 2080Ti、Intel Core i9-10920X CPU和Apple M1 Pro CPU,并且設置batch size為1來模式真實應用。對于GPU設備,首先執行200次預熱運行,并測量接下來200次運行的平均耗時。對于CPU設備,首先執行10次預熱運行和10次測試運行,重復此過程5次并報告平均耗時。結果如表2所示。

表2 模型效率對比

0bbacc36-5ef3-11ed-8abf-dac502259ad0.png0bf507c0-5ef3-11ed-8abf-dac502259ad0.png

4.2 消融研究

表3顯示了消融研究結果。 內存使用:原始圖像預先計算的激活需要額外的存儲量,但作者所提出的方法僅將DDIM、PD、GauGAN和GAN Compression的單次轉發的峰值內存使用量分別增加了0.1G、0.1G、0.8G和0.3G。表3(a)所示是在RTX 2080Ti上為DDIM添加的每個內核優化的有效性。

簡單地應用基于tiling的稀疏卷積可以將計算量減少7.6倍。表3(b)是在TensorRT上進行了模型部署,TensorRT進一步加快了模型的運行效率。

表3 模型消融實驗結果

0caa4040-5ef3-11ed-8abf-dac502259ad0.png

5. 結論

在2022 NeurIPS論文“Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models”中,CMU、MIT、斯坦福聯合提出了空間稀疏推理(SSI)和稀疏增量生成引擎(SIGE)。這種算法減少了現有深度生成模型的計算資源浪費問題,對于生成模型的落地和應用具有重要意義。重要的是,算法已經開源,并且可以應用于各種生成模型,包括條件GAN和擴散模型!






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10829

    瀏覽量

    211196
  • MIT
    MIT
    +關注

    關注

    3

    文章

    253

    瀏覽量

    23365
  • GaN
    GaN
    +關注

    關注

    19

    文章

    1922

    瀏覽量

    73053
  • SSI
    SSI
    +關注

    關注

    0

    文章

    38

    瀏覽量

    19212

原文標題:加速各種生成模型!NeurIPS開源!CMU、MIT、斯坦福提出高效空間稀疏推理!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰。
    的頭像 發表于 11-15 14:20 ?257次閱讀
    使用vLLM+OpenVINO<b class='flag-5'>加速</b>大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理綜述

    模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型
    的頭像 發表于 11-15 11:45 ?246次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型
    的頭像 發表于 10-29 14:12 ?217次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    FPGA加速深度學習模型的案例

    FPGA(現場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速
    的頭像 發表于 10-25 09:22 ?150次閱讀

    AI大模型深度學習的關系

    人類的學習過程,實現對復雜數據的學習和識別。AI大模型則是指模型的參數數量巨大,需要龐大的計算資源來進行訓練和推理深度學習算法為AI大模型
    的頭像 發表于 10-23 15:25 ?388次閱讀

    使用OpenVINO C++在哪吒開發板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習
    的頭像 發表于 10-12 09:55 ?284次閱讀
    使用OpenVINO C++在哪吒開發板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    與匹配 模型可能結合高效檢索技術來快速定位與問題相關的信息源。通過匹配算法和索引技術,模型可以從海量數據中篩選出最相關的文本片段作為候選答案。 3. 推理生成 在獲得候選答案后,
    發表于 08-02 11:03

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大
    的頭像 發表于 07-24 11:38 ?784次閱讀

    深度神經網絡模型量化的基本方法

    盡量保持模型的性能。這一技術通過降低模型參數的位數來顯著減小模型的大小,加速推理過程,并降低能耗,從而有助于將
    的頭像 發表于 07-15 11:26 ?610次閱讀

    深度學習模型量化方法

    深度學習模型量化是一種重要的模型輕量化技術,旨在通過減少網絡參數的比特寬度來減小模型大小和加速推理
    的頭像 發表于 07-15 11:01 ?459次閱讀
    <b class='flag-5'>深度</b>學習<b class='flag-5'>模型</b>量化方法

    如何加速大語言模型推理

    的主要挑戰。本文將從多個維度深入探討如何加速大語言模型推理過程,以期為相關領域的研究者和開發者提供參考。
    的頭像 發表于 07-04 17:32 ?470次閱讀

    昆侖萬維開源2千億稀疏模型Skywork-MoE

    近日,昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏模型,該模型擁有高達2千億參數,不僅性能強勁,而且推理成本更低,為人工智能領域帶來了新的突破。
    的頭像 發表于 06-04 14:44 ?547次閱讀

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈
    的頭像 發表于 05-27 11:50 ?508次閱讀
    英特爾助力京東云用CPU<b class='flag-5'>加速</b>AI<b class='flag-5'>推理</b>,以大<b class='flag-5'>模型</b>構建數智化供應鏈

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    大語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然語言文本。這些模型通過訓練海量的文本數
    發表于 05-04 23:55

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    如下圖所示。**圖 1 **使用 MindSpore Lite 進行模型推理的開發流程 進入主要流程之前需要先引用相關的頭文件,并編寫函數生成隨機的輸入,具體如下: #include <
    發表于 12-14 11:41