擴(kuò)散模型雖好,但如何保證生成的圖像準(zhǔn)確高質(zhì)量?GPT-4或許能幫上忙。
文本到圖像生成領(lǐng)域近兩年取得了很大的突破,從 GAN 到 Stable Diffusion,圖像生成的速度越來(lái)越快,生成效果越來(lái)越好。然而,AI 模型生成的圖像在細(xì)節(jié)上還有很多瑕疵,并且使用自然語(yǔ)言指定對(duì)象的確切位置、大小或形狀存在一定的困難。為了生成精準(zhǔn)、高質(zhì)量的圖像,現(xiàn)有方法通常依賴(lài)于廣泛的提 prompt 工程或手動(dòng)創(chuàng)建圖像草圖。這些方法需要大量的人工工作,因此非常低效。
最近,來(lái)自加州大學(xué)伯克利分校(UC 伯克利)和微軟研究院的研究者從編程的角度思考了這個(gè)問(wèn)題。當(dāng)前,用戶(hù)能夠使用大型語(yǔ)言模型較好地控制代碼生成,這讓該研究看到了編寫(xiě)程序來(lái)控制生成圖像細(xì)節(jié)的可能,包括物體的形狀、大小、位置等等?;诖耍撗芯刻岢隼么笮驼Z(yǔ)言模型(LLM)生成代碼的功能實(shí)現(xiàn)可控型文本到圖像生成。
Controllable Text-to-Image Generation with GPT-4
論文地址:https://arxiv.org/abs/2305.18583
該研究提出了一個(gè)簡(jiǎn)單而有效的框架 Control-GPT,它利用 LLM 的強(qiáng)大功能根據(jù)文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代碼形式的草圖。如下圖 1 (c) 所示,程序草圖(programmatic sketch)是按照準(zhǔn)確的文本說(shuō)明繪制的,隨后這些草圖被輸入 Control-GPT。Control-GPT 是 Stable Diffusion 的一種變體,它能接受額外的輸入,例如參考圖像、分割圖等等。這些草圖會(huì)充當(dāng)擴(kuò)散模型的參考點(diǎn),使擴(kuò)散模型能夠更好地理解空間關(guān)系和特殊概念,而不是僅僅依賴(lài)于文本 prompt。這種方法使得 prompt 工程和草圖創(chuàng)建過(guò)程不再需要人為干預(yù),并提高了擴(kuò)散模型的可控性。
我們來(lái)看一下 Control-GPT 方法的具體細(xì)節(jié)。
方法
對(duì)圖像生成來(lái)說(shuō),訓(xùn)練過(guò)程的一個(gè)較大挑戰(zhàn)是缺乏包含對(duì)齊文本和圖像的數(shù)據(jù)集。為了解決這個(gè)難題,該研究將現(xiàn)有實(shí)例分割數(shù)據(jù)集(例如 COCO 和 LVIS)中的實(shí)例掩碼轉(zhuǎn)換為多邊形的表示形式,這與 GPT-4 生成的草圖類(lèi)似。
然后,該研究構(gòu)建了一個(gè)包含圖像、文本描述和多邊形草圖的三元數(shù)據(jù)集,并微調(diào)了 ControlNet。該研究發(fā)現(xiàn)這種方法有助于更好地理解 GPT 生成的草圖,并且可以幫助模型更好地遵循文本 prompt 指令。
ControlNet 是擴(kuò)散模型的一種變體,它需要額外的輸入條件。該研究使用 ControlNet 作為基礎(chǔ)圖像生成模型,并通過(guò)編程草圖和 grounding token 的路徑對(duì)其進(jìn)行擴(kuò)展。
框架
如下圖 2 所示,在 Control-GPT 中,首先 GPT-4 會(huì)根據(jù)文本描述生成 TikZ 代碼形式的草圖,并輸出圖像中物體的位置。然后該研究用 LATEX 編譯 TikZ 代碼,將草圖轉(zhuǎn)換為圖像格式,再將編程草圖、文本描述和物體位置的 grounding token 提供給經(jīng)過(guò)調(diào)優(yōu)的 ControlNet 模型,最終生成符合條件的圖像。
使用 GPT-4 生成的草圖訓(xùn)練 ControlNet 是必要的,因?yàn)轭A(yù)訓(xùn)練的 ControlNet 不理解生成的草圖,不能將其轉(zhuǎn)換為現(xiàn)實(shí)圖像。為了 prompt GPT-4,該研究要求用戶(hù)遵循如下的 prompt 樣本,以讓 GPT-4 請(qǐng)求 TikZ 代碼片段的結(jié)構(gòu)化輸出,以及相關(guān)物體的名稱(chēng)和位置。然后,該研究使用 GPT-4 的輸出來(lái)編譯草圖圖像并獲得 grounding token。
LLM 繪制草圖的準(zhǔn)確性如何
Control-GPT 的精度取決于 LLM 生成草圖時(shí)的準(zhǔn)確性和可控性。因此,該研究對(duì) LLM 在草圖生成方面的性能進(jìn)行了基準(zhǔn)測(cè)試。實(shí)驗(yàn)結(jié)果表明 GPT 系列模型在草圖生成方面明顯優(yōu)于 LLaMa 等開(kāi)源模型,并且 GPT-4 在遵循文本指令方面表現(xiàn)出驚人的高準(zhǔn)確性(約 97%)。
該研究對(duì) Control-GPT 和一些經(jīng)典模型的生成結(jié)果進(jìn)行了人工評(píng)估,結(jié)果表明當(dāng)圖像中包含兩個(gè)不相關(guān)的罕見(jiàn)物體組合時(shí),一些模型的生成效果比較差,而 Control-GPT 的生成結(jié)果相對(duì)較好,如下表 2 所示:
查詢(xún) LLMs,生成一個(gè) TikZ 代碼片段來(lái)描述給定的文本,進(jìn)而檢查 LLMs 的性能。如下表 1 所示,GPT-series 模型的大多數(shù)代碼片段都可以編譯為有效的草圖,而 LLaMA 和 Alpaca 的輸出要么是空的,要么不可運(yùn)行。在 GPT-series 模型中,最新的 GPT-4 在 95 個(gè)查詢(xún)中只有 3 次失敗,這些查詢(xún)成功地生成了有效草圖,在遵循文本指令方面的成功率大約有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微調(diào)版本,其性能明顯低于原始 GPT-3.5。在調(diào)優(yōu)過(guò)程中,聊天能力和代碼生成之間可能存在著權(quán)衡。
在下圖 4 中,研究者提供了一個(gè)來(lái)自 GPT 系列模型的可視化草圖例子。雖然生成的草圖不如照片那樣逼真,但它們往往能捕捉到語(yǔ)義,并正確推理出物體的空間關(guān)系。生成的草圖經(jīng)常出人意料地通過(guò)簡(jiǎn)單的代碼片斷來(lái)正確處理物體形狀。
下圖最后一行展示了 GPT-4 的一個(gè)失敗案例,即模型無(wú)法生成物體形狀,而 GPT-3.5 卻能給出一個(gè)正確的草圖。GPT-4 在草圖生成方面的高精度帶來(lái)的啟發(fā)是:可以使用它來(lái)提高圖像生成模型的可控性。
實(shí)驗(yàn)
基于 Visor 數(shù)據(jù)集,研究者對(duì) Control-GPT 進(jìn)行了一系列實(shí)驗(yàn)設(shè)置的評(píng)估,測(cè)試其在空間關(guān)系、物體位置和大小方面的可控性。他們還將評(píng)估擴(kuò)展到多個(gè)物體和分布外的 prompt。廣泛的實(shí)驗(yàn)表明,Control-GPT 可以大大提升擴(kuò)散模型的可控性。
下表 3 中列出了定量評(píng)估結(jié)果??梢钥吹?,Control-GPT 模型可以在給定的一些規(guī)格下更好地控制物體的大小和位置。與幾乎無(wú)法控制物體位置和尺寸的 Stable Diffusion 模型(SD-v1.5)相比,Control-GPT 將總體精度從 0% 提高到 14.18%。與現(xiàn)成的 ControlNet 相比,Control-GPT 在所有指標(biāo)上也取得了更好的表現(xiàn),獲得了從 8.46% 到 4.18% 的整體改善。這些結(jié)果展示了本文的 LLM 集成框架在更細(xì)化和精確控制圖像生成過(guò)程方面的潛力。
視覺(jué)化。下圖 6 展示了定性評(píng)估結(jié)果,可以看到,ControlGPT 可以按照物體位置和尺寸的規(guī)范繪制物體。相比之下,ControlNet 也能遵循,但卻很難生成正確的物體,而 Stable Diffusion 則無(wú)法遵循規(guī)范。
對(duì)空間關(guān)系的消融實(shí)驗(yàn)。研究者還探討了模型是否對(duì)不同類(lèi)型的空間關(guān)系(如左 / 右 / 上 / 下)有偏好,作為空間關(guān)系基準(zhǔn)分析的一部分。從下表 4 中可以看出,Control-GPT 在 Visor Score 和物體準(zhǔn)確性方面一直比所有的基線(xiàn)模型工作得更好。
多個(gè)物體之間的關(guān)系。研究者對(duì) Control-GPT 生成多個(gè)物體的能力進(jìn)行了進(jìn)一步的評(píng)估,這些物體的空間關(guān)系由 prompt 指定。下圖 7 展示了一些例子,Control-GPT 能理解不同物體之間的空間關(guān)系,并在 GPT-4 的幫助下將它們放入布局中,表現(xiàn)出了更好的性能。
可控性與圖像逼真度。通常,在生成逼真圖像與遵循精確布局之間往往存在著妥協(xié),特別是對(duì)于分布外的文字 prompt。如下圖 8 所示,(a)是一個(gè)例子,生成的圖像完全遵循布局,但這導(dǎo)致了圖像中的一些偽影;而在(b)中,照片往往看起來(lái)很逼真,但沒(méi)有很好地遵循草圖。
-
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40414 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1205瀏覽量
24641 -
GPT
+關(guān)注
關(guān)注
0文章
351瀏覽量
15313
原文標(biāo)題:微軟提出Control-GPT:用GPT-4實(shí)現(xiàn)可控文本到圖像生成!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論