精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AIGC可編輯的圖像生成方案

深度學習自然語言處理 ? 來源:Smarter ? 2023-03-03 09:25 ? 次閱讀

ControlNet給出的實驗結果實在是過于驚艷了,近期視覺領域最讓人興奮的工作。可編輯圖像生成領域異常火熱,看了一些相關文章,選出幾篇感興趣的文章記錄一下。

9740c672-b91e-11ed-bfe3-dac502259ad0.png

從CLIP模型開始,OpenAI走通了大規模圖文對預訓練模型的技術路徑,這代表著文字域和圖片域是可以很好的對齊;緊隨其后,OpenAI在CLIP的技術基礎上,發布了DALLE文字生成圖片的模型,生成圖片的質量遠超之前的模型,這主要得益于大規模圖文對預訓練的CLIP模型;

與此同時,Diffusion Models的圖像生成方法的圖像生成質量也超越了以往的GAN、VAE等模型,并且隨著算法的精進,推理速度不斷加快,預示著Diffusion Models即將全面替代GAN、VAE等生成模型;果不其然,OpenAI將DALLE模型和Diffusion Models結合發布了DALLE2模型,生成圖片的質量進一步提高。

在DALLE2這個階段,雖然圖像生成質量相比以往有了質變,但是圖像生成的過程是不可控,這導致各種繪畫設計行業無法在工作中使用,況且DALLE2還沒有開源。隨著Stable Diffusion模型的發布和開源,可編輯圖像生成領域變得空前火熱,出現了各種各樣DIY的產物,Stable Diffusion模型算是一個關鍵的時間節點。

而在2023年2月份大概1周之內同時涌現出了ControlNet、T2I-Adapter和Composer三個基于Stable Diffusion的可編輯圖像生成模型,其中ControlNet再一次帶熱了AI繪畫設計。

下面主要介紹一下Stable Diffusion、ControlNet、T2I-Adapter和Composer四篇文章,最后談談圖像結構化和圖像生成之間的關系。

Stable Diffusion

975d2344-b91e-11ed-bfe3-dac502259ad0.png

Stable Diffusion模型在Diffusion Models(DM)的基礎上,增加了conditioning機制。

通過conditioning機制,可以將semantic map、text、representations和images等信息傳遞到DM模型中,通過cross-attention機制進行信息的融合,通過多個step進行擴散生成圖片。

978088fc-b91e-11ed-bfe3-dac502259ad0.png

981dbdac-b91e-11ed-bfe3-dac502259ad0.png

如上面兩個結果圖所示,Stable Diffusion可以通過版面結構圖或者語義分割圖來控制圖像的生成。

ControlNet

985ae10a-b91e-11ed-bfe3-dac502259ad0.png

ControlNet在Stable Diffusion(SD)的基礎上,鎖住SD的參數,并且增加了一個可學習的分支,該分支的開頭和結尾都增加zero convolution(初始化參數為0),保證訓練的穩定性,并且Condition的特征會疊加回SD的Decoder特征上,進而達到控制圖像生成的目的。

相比于SD模型,ControlNet有兩點區別:

ControlNet相比于SD,豐富了Condition的種類,總共9大類,包括Canny Edge、Canny Edge(Alter)、Hough Line、HED Boundary、User Sketching、Human Pose(Openpifpaf)、Human Pose(Openpose)、Semantic Segmentation(COCO)、Semantic Segmentation(ADE20K)、Depth(large-scale)、Depth(small-scale)、Normal Maps、Normal Maps(extended)和Cartoon Line Drawing。

ControlNet不需要重新訓練SD模型,這極大的降低了可編輯圖像生成領域的門檻,減少二次開發的成本。

9885a78c-b91e-11ed-bfe3-dac502259ad0.png

從上圖可以看到,ControlNet可以先提取出動物的Canny edge,然后再在Canny edge的基礎上渲染出不同風格環境色彩的動物圖片,amazing!

98a90326-b91e-11ed-bfe3-dac502259ad0.png

98cfac56-b91e-11ed-bfe3-dac502259ad0.png

990130f0-b91e-11ed-bfe3-dac502259ad0.png

9928ce3a-b91e-11ed-bfe3-dac502259ad0.png

9956bc96-b91e-11ed-bfe3-dac502259ad0.png

上圖是一些ControlNet圖像生成的例子,更多的例子可以閱讀原文。

T2I-Adapter

9973ea00-b91e-11ed-bfe3-dac502259ad0.png

T2I-Adapter跟ControlNet非常類似,主要不同有以下幾點區別:

T2I-Adapter可以同時組合輸入多種類型的Condition

T2I-Adapter是從SD的Encoder部分傳入Condition的

9988388e-b91e-11ed-bfe3-dac502259ad0.png

可以看到T2I-Adapter生成的圖像有著類似ControlNe的可編輯效果。

Composer

9a4ee7f4-b91e-11ed-bfe3-dac502259ad0.png

Composer跟ControlNet和T2I-Adapter的思路也是類似的,但是Composer提出了一個有意思的點,就是可編輯圖像生成其實就是對圖像各種元素的組合,Composer先用各種不同的模型將各種不同的圖片分解成各種元素,然后將不同圖片的元素進行重組。比如上圖的戴珍珠耳環的少女,可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素,然后跟其他不同圖片的元素進行想要的重組。

9a75adee-b91e-11ed-bfe3-dac502259ad0.png

Composer將各種元素區分成兩類,一類是Global Conditions,另一類是Localized Conditions。其中Global Conditions包括sentence embeddings, image embeddings, and color histograms,并且需要添加到Timestep中;Localized Conditions包括segmentation maps, depthmaps, sketches, grayscale images, and masked images,并且需要添加到Noisy Image中。

9a909b4a-b91e-11ed-bfe3-dac502259ad0.png

9b23f462-b91e-11ed-bfe3-dac502259ad0.png

上面圖像生成的結果,充分表現出了Composer模型可編輯的多樣性和豐富性。

圖像結構化和圖像生成

我在這里將圖像檢測、圖像分割、深度估計等任務統稱為圖像結構化。從某種意義上來說,圖像結構化其實可以認為是一種特殊的圖像生成,只不過生成的圖片是某個單一維度的特征,比如是深度圖、mask圖、關鍵點圖等等。ControlNet和Composer某種意義上就是將結構化圖片通過文字控制來豐富細節進而生成想要的圖片;而圖像結構化其實就是把維度復雜、細節豐富的圖片生成維度單一、細節簡單的結構化圖片。

圖像結構化和圖像生成其實也就是對應著Composer文章里面提到的分解和合成兩個過程。我對于可編輯圖像生成領域未來的想法是,盡可能準確豐富的提取圖像中各個維度的結構化信息(包括文字信息),然后通過Stable Diffusion模型組合融入想要的結構化信息,進而達到完全自主可控的圖像生成。

總結

可編輯的圖像生成其實蘊含著人機交互的思想,人的意志通過輸入的文字提示和圖片提示傳遞給模型,而模型(或者說是機器)生成的圖片恰好反映出了人的思想。可編輯圖像生成會改變繪畫設計等領域的創作模式(比如公仔服裝周邊等等,可以無限壓縮設計繪畫的時間),進而孕育出新的更有活力的創業公司,互聯網行業可能會迎來第二增長曲線。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Clip
    +關注

    關注

    0

    文章

    31

    瀏覽量

    6652
  • GaN器件
    +關注

    關注

    1

    文章

    36

    瀏覽量

    7883
  • OpenAI
    +關注

    關注

    9

    文章

    1045

    瀏覽量

    6411
  • AIGC
    +關注

    關注

    1

    文章

    357

    瀏覽量

    1512

原文標題:AIGC—可編輯的圖像生成

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于擴散模型的圖像生成過程

    近年來,擴散模型在文本到圖像生成方面取得了巨大的成功,實現了更高圖像生成質量,提高了推理性能,也可以激發擴展創作靈感。 不過僅憑文本來控制圖像
    的頭像 發表于 07-17 11:00 ?2660次閱讀
    基于擴散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    請問如何生成方波?

    我是VHDL編程和FPGA的新手。我的任務是使用xilinx FPGA頂點4來生成方波。問題是我將不得不以模擬格式生成方波。我知道以數字形式生成數字方波。但我必須將數字波轉換為模擬形式并驅動電機
    發表于 06-01 16:58

    四種主要的負電源軌生成方案如何選擇

    四種主要的負電源軌生成方案如何選擇
    發表于 03-11 06:00

    RTthread移植代碼自動生成方案

    RTthread再學習記錄前言一、RTthread移植代碼自動生成方案二、使用CUBEMX在STM32F4上移植RTT1.官方提供的教程2.解決RTT移植的一些細節問題總結提示:文章寫完后,目錄可以
    發表于 02-11 06:29

    一種全新的遙感圖像描述生成方

    遙感圖像描述生成是同時涉及計算機視覺和自然語言處理領域的熱門研究話題,其主要工作是對于給定的圖像自動地生成一個對該圖像的描述語句。文中提岀了
    發表于 04-20 11:21 ?2次下載
    一種全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法

    基于模板、檢索和深度學習的圖像描述生成方

    描述技術的發展歷程為主線,對圖像描述任務的方法、評價指標和常用數據集進行了詳細的綜述。針對圖像描述任務的技術方法,總結了基于模板、檢索和深度學習的圖像描述生成方法,重點介紹了基于深度學
    發表于 04-23 14:07 ?12次下載
    基于模板、檢索和深度學習的<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法

    GAN圖像對抗樣本生成方法研究綜述

    為了提高生成對抗網絡模型對抗樣本的多樣性和攻擊成功率,提出了一種GAN圖像對抗樣本生成方法。首先,利用原始樣本集整體訓練一個深度卷積對抗生成網絡G1,模擬原始樣本集分布;其次,在黑盒攻
    發表于 04-28 16:39 ?72次下載
    GAN<b class='flag-5'>圖像</b>對抗樣本<b class='flag-5'>生成方</b>法研究綜述

    基于圖像驅動的三維人臉自動生成編輯算法

    基于圖像驅動的三維人臉自動生成編輯算法
    發表于 06-25 17:09 ?27次下載

    AIGC最新綜述:從GAN到ChatGPT的AI生成歷史

    本調查全面回顧了生成模型的歷史、基本組件、AIGC 從單模態交互和多模態交互的最新進展。我們從單峰性的角度介紹了文本和圖像生成任務和相關模型。我們從多模態的角度來介紹上述模態之間的交
    的頭像 發表于 03-13 10:13 ?2731次閱讀

    伯克利AI實驗室開源圖像編輯模型InstructPix2Pix,簡化生成圖像編輯并提供一致結果

    之前的 AI 圖像編輯能力通常是進行風格轉換,流行的文本到圖像生成模型(如 DALL-E 和 Stable Diffusion)也支持圖像圖像
    的頭像 發表于 08-28 15:45 ?810次閱讀
    伯克利AI實驗室開源<b class='flag-5'>圖像編輯</b>模型InstructPix2Pix,簡化<b class='flag-5'>生成</b><b class='flag-5'>圖像編輯</b>并提供一致結果

    微軟AI新成果:將不可編輯PDF轉化為可編輯文檔

    市面現有相關軟件雖能將PDF轉為可編輯版,但易喪失原始布局。微軟研究論文名為《從不可編輯文檔生成可編輯文檔的方法和系統》,其獨特之處在于運用AI技術保持了字體、色彩、布局及
    的頭像 發表于 05-30 10:11 ?623次閱讀

    AIGC與傳統內容生成的區別

    AIGC : 主要面向非結構化數據的生成,如自然語言文本、圖像、音頻、視頻等。 這類數據規模更大,內在結構更復雜,對處理技術提出了更高要求。 傳統內容生成 : 主要處理結構化數據,如
    的頭像 發表于 10-25 15:13 ?284次閱讀

    AIGC生成內容的優勢與挑戰

    人工智能生成內容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術自動生成文本、圖像、音頻和視頻等內容的過程。隨著深度
    的頭像 發表于 10-25 15:36 ?334次閱讀

    AIGC是什么及其應用 AIGC的定義和工作原理

    AIGC的定義 AIGC是一種新興的技術領域,它結合了機器學習、自然語言處理(NLP)、計算機視覺和音頻處理等多個子領域。AIGC的目標是使計算機能夠理解、生成
    的頭像 發表于 11-22 16:00 ?205次閱讀

    AIGC與傳統內容生成的區別 AIGC的優勢和挑戰

    AIGC與傳統內容生成的區別 數據類型與處理 : AIGC主要面向非結構化數據的生成,如自然語言文本、圖像、音頻、視頻等。這類數據規模更大
    的頭像 發表于 11-22 16:04 ?144次閱讀