新的研究正在通過一個文本引導的圖像編輯工具來提升生成式 AI 的創(chuàng)造性潛能。這項創(chuàng)新性的研究提出了一個使用即插即用擴散特征(PnP DFs)的框架,可引導實現(xiàn)逼真而精確的圖像生成。通過這項研究,視覺內(nèi)容創(chuàng)作者只需一張?zhí)崾緢D片和幾個描述性詞語,就能將圖像轉(zhuǎn)化為視覺內(nèi)容。
可靠輕松編輯并生成內(nèi)容的能力有助于藝術家、設計師和創(chuàng)作者不斷擴展創(chuàng)意的可能性。這也將為那些依賴動畫、視覺設計和圖像編輯的行業(yè)賦能。
這項研究的首席作者、魏茲曼科學研究院博士研究生 Narek Tumanyan 表示:“最新的文本到圖像生成模型標志著數(shù)字內(nèi)容創(chuàng)作進入了一個新時代。然而,將它們應用于現(xiàn)實世界的主要挑戰(zhàn)在于缺乏用戶可控性,這在很大程度上局限于‘僅通過輸入文本來引導圖像生成’。我們的工作是最早為用戶提供圖像布局控制權的方法之一。”
生成式 AI 的最新突破為開發(fā)強大的文本到圖像模型提供了新方法。然而,復雜性、模糊性以及對定制內(nèi)容的需求限制了當前渲染技術的發(fā)展。
這項研究引入了一種新方法,使用 PnP DFs 來改進圖像編輯和生成過程,使創(chuàng)作者對最終產(chǎn)物有更大的控制權。
研究人員從一個簡單的問題入手:擴散模型如何表現(xiàn)并捕捉圖像的形狀或輪廓?研究探索了圖像在生成過程中不斷演變的內(nèi)部表征,并研究了這些表征如何對形狀和語義信息進行編碼。
這種新方法通過理解如何在預訓練的文本到圖像模型中編碼空間信息來控制生成的圖像布局,而無需訓練新的擴散模型或?qū)ζ溥M行微調(diào)。在生成過程中,模型從引導圖像中提取擴散特征,并將其注入到整個過程中的每一個步驟,從而對新圖像的結構進行精細控制。
通過融合這些空間特征,擴散模型可以完善新圖像,使其與引導結構相匹配。它會反復進行此過程,更新圖像特征,直到生成一張既保留引導圖像布局、又與文本提示相匹配的最終圖像。
作者寫道:“這就產(chǎn)生了一種簡單而有效的方法,即從引導圖像中提取的特征直接注入到轉(zhuǎn)化圖像的生成過程中,無需進行訓練或微調(diào)。”
這種方法為更先進的可控生成和操作方法鋪平了道路。
視頻. 在 2023 年國際計算機視覺與模式識別會議(CVPR)上展示的“文本驅(qū)動的圖像到圖像翻譯的即插即用擴散特征”研究概述
研究人員使用 cuDNN 加速的 PyTorch 框架在單個 NVIDIA A100 GPU 上開發(fā)并測試了這個 PNP 模型。該團隊表示,GPU 的大容量使他們能夠?qū)W⒂陂_發(fā)方法。作為 NVIDIA 應用研究加速器計劃的參與者,這些研究人員獲得了一塊 A100 GPU。
該框架部署在 A100 上,能夠在大約 50 秒內(nèi)從引導圖像和文本轉(zhuǎn)換為一個新圖像。
該過程不僅有高效,而且可靠,能準確地生成令人驚嘆的圖像。除圖像外,它還適用于轉(zhuǎn)化草圖、繪圖和動畫,并能修改照明、色彩和背景。
圖 1.該方法的示例結果,保留了引導折紙圖像的結構,同時與目標提示的描述相匹配(來源:Tumanyan, Narek 等人/CVPR 2023)
他們的方法還優(yōu)于現(xiàn)有的文本到圖像模型,在保留引導布局和偏離其外觀之間實現(xiàn)了卓越的平衡。
圖 2.示例結果,將該模型與 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型進行三種不同噪聲水平的比較(來源:Tumanyan, Narek 等人/CVPR 2023)
然而,該模型確實存在一些局限性。當編輯任意顏色的圖像區(qū)域時,它的表現(xiàn)并不理想,因為該模型無法從輸入圖像中提取語義信息。
目前,研究人員正在致力于將這種方法擴展到文本引導的視頻編輯中。同時,該研究還證明對于其他利用擴散模型分析圖像內(nèi)部表征的研究也具有重要價值。
例如,有一項研究正在利用該團隊的研究成果來改進計算機視覺任務,例如語義點對應。另一項研究則專注于擴展文本到圖像生成的控制,包括物體的形狀、位置和外觀。
這項研究已在 GitHub 上開源。
點擊“閱讀原文”,或掃描下方海報二維碼,在 8 月 8日聆聽NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場發(fā)表的 NVIDIA 主題演講,了解 NVIDIA 的新技術,包括屢獲殊榮的研究,OpenUSD 開發(fā),以及最新的 AI 內(nèi)容創(chuàng)作解決方案。
原文標題:生成式 AI 研究通過引導式圖像結構控制為創(chuàng)作者賦能
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
-
英偉達
+關注
關注
22文章
3749瀏覽量
90861
原文標題:生成式 AI 研究通過引導式圖像結構控制為創(chuàng)作者賦能
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論