精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新晉圖像生成王者擴散模型

OpenCV學(xué)堂 ? 來源:StyleGAN ? 作者:StyleGAN ? 2022-06-06 10:54 ? 次閱讀

新晉圖像生成王者擴散模型,剛剛誕生沒多久。

有關(guān)它的理論和實踐都還在“野蠻生長”。

來自英偉達StyleGAN的原班作者們站了出來,嘗試給出了一些設(shè)計擴散模型的竅門和準則,結(jié)果模型的質(zhì)量和效率都有所改進,比如將現(xiàn)有ImageNet-64模型的FID分數(shù)從2.07提高到接近SOTA的1.55分。

c89fd514-e4df-11ec-ba43-dac502259ad0.png

他們這一工作成果迅速得到了業(yè)界大佬的認同。

DeepMind研究員就稱贊道:這篇論文簡直就是訓(xùn)練擴散模型的人必看,妥妥的一座金礦。

c8eb9008-e4df-11ec-ba43-dac502259ad0.png

三大貢獻顯著提高模型質(zhì)量和效率

我們從以下幾個方面來看StyleGAN作者們對擴散模型所做的三大貢獻:

用通用框架表示擴散模型

在這部分,作者的貢獻主要為從實踐的角度觀察模型背后的理論,重點關(guān)注出現(xiàn)在訓(xùn)練和采樣階段的“有形”對象和算法,更好地了解了組件是如何連接在一起的,以及它們在整個系統(tǒng)的設(shè)計中可以使用的自由度(degrees of freedom)。

精華就是下面這張表:

c9384056-e4df-11ec-ba43-dac502259ad0.png

該表給出了在他們的框架中復(fù)現(xiàn)三種模型的確定變體的公式。

(這三種方法(VP、VE、iDDPM+ DDIM)不僅被廣泛使用且實現(xiàn)了SOTA性能,還來自不同的理論基礎(chǔ)。)

這些公式讓組件之間原則上沒有隱含的依賴關(guān)系,在合理范圍內(nèi)選擇任意單個公示都可以得出一個功能模型。

隨機采樣和確定性采樣的改進

作者的第二組貢獻涉及擴散模型合成圖像的采樣過程。

他們確定了最佳的時間離散化(time discretization),對采樣過程應(yīng)用了更高階的Runge–Kutta方法,并在三個預(yù)訓(xùn)練模型上評估不同的方法,分析了隨機性在采樣過程中的有用性。

結(jié)果在合成過程中所需的采樣步驟數(shù)量顯著減少,改進的采樣器可以用作幾個廣泛使用的擴散模型的直接替代品。

先看確定性采樣。用到的三個測試模型還是上面的那三個,來自不同的理論框架和模型族。

作者首先使用原始的采樣器(sampler)實現(xiàn)測量這些模型的基線結(jié)果,然后使用表1中的公式將這些采樣方法引入他們的統(tǒng)一框架,再進行改進。

接著根據(jù)在50000張生成圖像和所有可用真實圖像之間計算的FID分數(shù)來評估質(zhì)量。

c9765d6e-e4df-11ec-ba43-dac502259ad0.png

可以看到,原始的的確定性采樣器以藍色顯示,在他們的統(tǒng)一框架(橙色)中重新實現(xiàn)這些方法會產(chǎn)生類似或更好的結(jié)果。

作者解釋,這些差異是由于原始實現(xiàn)中的某些疏忽,加上作者對離散噪聲級的處理更仔細造成的。

確定性采樣好處雖然多,但與每一步都向圖像中注入新噪聲的隨機采樣相比,它輸出的圖像質(zhì)量確實更差。

不過作者很好奇,假設(shè)ODE(常微分方程)和SDE(隨機微分方程)在理論上恢復(fù)相同的分布,隨機性的作用到底是什么?

在此他們提出了一種新的隨機采樣器,它將現(xiàn)有的高階ODE積分器與添加和去除噪聲的顯式“Langevin-like ‘churn’”相結(jié)合。

最終模型性能提升顯著,而且僅通過對采樣器的改進,就能夠讓ImageNet-64模型原來的FID分數(shù)從2.07提高到1.55,接近SOTA水平。

c9a2bbd4-e4df-11ec-ba43-dac502259ad0.png

預(yù)處理和訓(xùn)練

作者的第三組貢獻主要為分數(shù)建模(score-modeling)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

這部分繼續(xù)依賴常用的網(wǎng)絡(luò)體系結(jié)構(gòu)(DDPM、NCSN),作者通過對擴散模型設(shè)置中網(wǎng)絡(luò)的輸入、輸出和損失函數(shù)的預(yù)處理進行了原則性分析,得出了改進訓(xùn)練動態(tài)的最佳實踐。

比如使用依賴于σ(noise level)的跳躍連接對神經(jīng)網(wǎng)絡(luò)進行預(yù)處理,使其能夠估計y(signal)或n(noise),或介于兩者之間的東西。

下表具體展示了模型彩英不同訓(xùn)練配置得到的FID分數(shù)。

c9fe22bc-e4df-11ec-ba43-dac502259ad0.png

作者從基線訓(xùn)練配置開始,使用確定性采樣器(稱為配置A),重新調(diào)整了基本超參數(shù)(配置B),并通過移除最低分辨率層,并將最高分辨率層的容量加倍來提高模型的表達能力(配置C)。

然后用預(yù)處理(配置D)替換原來的{cin,cout,cnoise,cskip}選項。這使結(jié)果基本保持不變,但VE在64×64分辨率下有很大改善。該預(yù)處理方法的主要好處不是改善FID本身,而是使訓(xùn)練更加穩(wěn)健,從而將重點轉(zhuǎn)向重新設(shè)計損失函數(shù)又不會產(chǎn)生不利影響。

VP和VE只在Fθ的架構(gòu)上有所不同(配置E和F)。

除此之外,作者還建議改進訓(xùn)練期間的噪聲級分布,并發(fā)現(xiàn)通常與GANs一起使用的無泄漏風險增強(non-leaking augmentation)操作也有利于擴散模型。

比如從上表中,我們可以看到:有條件和無條件CIFAR-10的最新FID分別達到了1.79和1.97,打破了之前的記錄(1.85和2.1046)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4600

    瀏覽量

    92646
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3174

    瀏覽量

    48716

原文標題:DeepMind谷歌研究員力薦:擴散模型效率&生成質(zhì)量提升竅門,來自StyleGAN原作者

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    擴散模型的理論基礎(chǔ)

    擴散模型的迅速崛起是過去幾年機器學(xué)習領(lǐng)域最大的發(fā)展之一。在這本簡單易懂的指南中,學(xué)習你需要知道的關(guān)于擴散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?170次閱讀
    <b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    Meta發(fā)布Imagine Yourself AI模型,重塑個性化圖像生成未來

    Meta公司近日在人工智能領(lǐng)域邁出了重要一步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這一突破性技術(shù)為個性化圖像生成領(lǐng)域帶來了前所未有的變革。在社交媒體與虛擬現(xiàn)實技術(shù)
    的頭像 發(fā)表于 08-26 10:59 ?459次閱讀

    如何用C++創(chuàng)建簡單的生成式AI模型

    生成式AI(Generative AI)是一種人工智能技術(shù),它通過機器學(xué)習模型和深度學(xué)習技術(shù),從大量歷史數(shù)據(jù)中學(xué)習對象的特征和規(guī)律,從而能夠生成全新的、完全原創(chuàng)的內(nèi)容,包括文本、圖像
    的頭像 發(fā)表于 07-05 17:53 ?748次閱讀

    Runway發(fā)布Gen-3 Alpha視頻生成模型

    專為電影和圖像內(nèi)容創(chuàng)作者提供生成式AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經(jīng)正式問世。這款模型在多方
    的頭像 發(fā)表于 06-19 09:25 ?536次閱讀

    南開大學(xué)和字節(jié)跳動聯(lián)合開發(fā)一款StoryDiffusion模型

    近日,南開大學(xué)和字節(jié)跳動聯(lián)合開發(fā)的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。
    的頭像 發(fā)表于 05-07 14:46 ?1193次閱讀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學(xué)團隊宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成
    的頭像 發(fā)表于 03-05 10:46 ?736次閱讀

    韓國科研團隊發(fā)布新型AI圖像生成模型KOALA,大幅優(yōu)化硬件需求

    由此模型的核心在于其運用了“知識蒸餾”(knowledge distillation)技術(shù),這使得開源圖像生成工具Stable Diffusion XL可大幅縮小其規(guī)模。原Stable Diffusion XL擁有25.6億個參
    的頭像 發(fā)表于 03-01 14:10 ?587次閱讀

    谷歌Gemini AI模型因人物圖像生成問題暫停運行

    據(jù)報道,部分用戶發(fā)現(xiàn)Gemini生成的圖片存在明顯錯誤,如特斯拉創(chuàng)始人和其他名人變成了黑人模樣。谷歌已決定暫停該模型的人物圖像生成功能以待改善。
    的頭像 發(fā)表于 02-25 09:59 ?555次閱讀

    openai發(fā)布首個視頻生成模型sora

    美國當?shù)貢r間2024年2月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個文生視頻案例和技術(shù)報告 ,正式入局視頻生成領(lǐng)域 。Sora能夠根據(jù)提示詞生成60s的連貫視頻,“碾壓”了
    的頭像 發(fā)表于 02-21 16:45 ?1177次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強大,而Stable Diffusion是許多其他文本到圖像
    的頭像 發(fā)表于 02-19 16:03 ?895次閱讀
    Stability AI試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持領(lǐng)先地位

    谷歌推出AI擴散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴散模型Lumiere,這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu),旨在實現(xiàn)視頻生成的一次性完成,同時保證視頻的真實性和動作
    的頭像 發(fā)表于 02-04 13:49 ?987次閱讀

    Adobe提出DMV3D:3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標是實現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴散模型,能直接根據(jù)模型文字或單張圖片的輸入,
    的頭像 發(fā)表于 01-30 16:20 ?812次閱讀
    Adobe提出DMV3D:3D<b class='flag-5'>生成</b>只需30秒!讓文本、<b class='flag-5'>圖像</b>都動起來的新方法!

    谷歌推出能一次生成完整視頻的擴散模型

    該公司指出,當前眾多文生視頻模型普遍存在無法生成長時、高品質(zhì)及動作連貫的問題。這些模型往往采用“分段生成視頻”策略,即先生成少量關(guān)鍵幀,再借
    的頭像 發(fā)表于 01-29 11:14 ?494次閱讀

    基于DiAD擴散模型的多類異常檢測工作

    現(xiàn)有的基于計算機視覺的工業(yè)異常檢測技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近,擴散模型因其強大的生成能力而聞名,因此本文作者希望通過擴散
    的頭像 發(fā)表于 01-08 14:55 ?1278次閱讀
    基于DiAD<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的多類異常檢測工作

    放下你的PhotoShop!無限圖像編輯已開源!

    我們知道擴散模型生成圖像是通過反轉(zhuǎn)采樣來進行的,重點是識別噪聲。LEDITS++從DDPM反演中提取特征,并提出一種有效的反演方法,大大減少所需的步驟,同時降低重建誤差。當將反向
    的頭像 發(fā)表于 12-10 10:09 ?845次閱讀
    放下你的PhotoShop!無限<b class='flag-5'>圖像</b>編輯已開源!