Stability AI 對外發(fā)布了 Stable Diffusion 的預(yù)訓(xùn)練模型權(quán)重,這是一個文本至圖像的 AI 模型。根據(jù)文本提示,Stable Diffusion 能夠生成逼真的 512x512 像素的圖像以描述提示中的場景。
在模型權(quán)重公開發(fā)布之前,它的代碼已經(jīng)發(fā)布,模型權(quán)重也有限發(fā)布給了研究社區(qū)。在最新的版本中,任何用戶都可以在消費者級別的硬件中下載并運(yùn)行 Stable Diffusion。除了文本至圖像的生成,該模型還支持圖像至圖像的風(fēng)格轉(zhuǎn)換以及圖像質(zhì)量提升。在發(fā)布該版本的同時,Stable AI 還發(fā)布了 beta 版本的 API 以及模型的 Web UI,名為 DreamStudio。Stable AI 這樣說到:
Stable Diffusion 是一個文本至圖像的模型,它能讓數(shù)十億人在幾秒鐘內(nèi)創(chuàng)建出令人贊嘆的藝術(shù)品。在速度和質(zhì)量方面,它都有所突破,這意味著它能在消費者級別的 GPU 上運(yùn)行……這能夠讓研究人員和……公眾在各種條件下運(yùn)行,使圖像生成技術(shù)走向大眾。我們期待圍繞該模型和其他模型出現(xiàn)一個開放的生態(tài)系統(tǒng),以探索潛在空間的邊界。
Stable Diffusion 基于名為潛在擴(kuò)散模型(latent diffusion models,LDMs)的圖像生成技術(shù)。與其他的流行的圖像合成方法不同,如生成對抗網(wǎng)絡(luò)(generative adversarial networks,GANs)和 DALL-E 使用的自動回歸技術(shù),LDMs 通過在一個潛在表示空間中迭代“去噪”數(shù)據(jù)來生成圖像,然后將表示結(jié)果解碼為完整的圖像。LDM 是由 Ludwig Maximilian University of Munich 的機(jī)器視覺與學(xué)習(xí)(Machine Vision and Learning)研究組開發(fā)的,并在最近的 IEEE / CVF 計算機(jī)視覺和模式識別會議(Computer Vision and Pattern Recognition Conference)上發(fā)表的一篇論文中進(jìn)行了闡述。在今年早些時候,InfoQ 曾經(jīng)報道過谷歌的 Imagen 模型,它是另一個基于擴(kuò)散的圖像生成 AI。
Stable Diffusion 模型支持多種操作。與 DALL-E 類似,它能夠根據(jù)所需圖像的文本描述,生成符合匹配該描述的高質(zhì)量圖像。它還可以根據(jù)一個簡單的草圖再加上所需圖像的文本描述,生成一個看起來更逼真的圖像。Meta AI 最近發(fā)布了名為 Make-A-Scene 的模型,具有類似的圖像至圖像的功能。
Stable Diffusion 的很多用戶已經(jīng)公開發(fā)布了生成圖像的樣例,Stability AI 的首席開發(fā)者 Katherine Crowson 在推特上分享了許多圖像。基于 AI 的圖像合成可能會對藝術(shù)家和藝術(shù)領(lǐng)域帶來一定的影響,有些評論者對此感到不安。就在 Stable Diffusion 發(fā)布的同一周,一幅由 AI 生成的藝術(shù)品在科羅拉多州博覽會的藝術(shù)比賽中獲得了一等獎。Django 框架的共同創(chuàng)建者 Simon Williamson 認(rèn)為:
我見過一種說法,認(rèn)為 AI 藝術(shù)沒有資格獲得版權(quán)保護(hù),因為“它必須歸功于全人類”——如果基于文本生成的設(shè)計尚不足以說服公眾的話,那 [圖像至圖像] 技術(shù)可能會打破這種平衡。
Stable AI 的創(chuàng)始人 Emad Mostaque 在推特上回答了一些關(guān)于該模型的問題。在回答一位試圖估算訓(xùn)練模型所需的計算資源和成本的用戶時,Mostaque 說到:
實際上,我們?yōu)檫@個模型使用了 256 個 A100 顯卡,總共 15 萬小時,所以按市場價格計算為 60 萬美元。
Mostaque 給出了 Reddit 上一篇文章的鏈接,其中給出了如何最好地使用該模型來生成圖像的技巧。
Stable Diffusion 的代碼可以在 GitHub 上找到。模型的權(quán)重以及 Colab notebook 和示例 Web UI 都可以在 HuggingFace 上找到。
審核編輯 :李倩
-
AI
+關(guān)注
關(guān)注
87文章
30162瀏覽量
268427 -
模型
+關(guān)注
關(guān)注
1文章
3174瀏覽量
48716 -
圖像生成
+關(guān)注
關(guān)注
0文章
22瀏覽量
6883
原文標(biāo)題:Stability AI 開源圖像生成模型 Stable Diffusion
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論