編輯貓、汽車(chē)甚至古董畫(huà)照片的愿望,由于一種稱為EditGAN的生成性對(duì)抗網(wǎng)絡(luò)(GAN)模型,從未像現(xiàn)在這樣容易實(shí)現(xiàn)。來(lái)自 NVIDIA,多倫多大學(xué)和 MIT 研究人員的工作建立了 DatasetGAN ,這是一種人工智能視覺(jué)模型,可以用最少16個(gè)人類(lèi)注釋的圖像來(lái)訓(xùn)練,并像其他需要100X更多圖像的方法一樣有效地執(zhí)行。EditGAN 利用了前一個(gè)模型的功能,允許用戶使用簡(jiǎn)單的命令(如繪圖)編輯或操作所需的圖像,而不會(huì)影響原始圖像質(zhì)量。
什么是 EditGAN ?
根據(jù) paper :“ EditGAN 是第一個(gè) GAN 驅(qū)動(dòng)的圖像編輯框架,它同時(shí)提供非常高精度的編輯,只需要很少的帶注釋的訓(xùn)練數(shù)據(jù)(并且不依賴外部分類(lèi)器),可以實(shí)時(shí)交互運(yùn)行,允許對(duì)多個(gè)編輯進(jìn)行簡(jiǎn)單的合成,并可處理真正的嵌入式、生成的圖像,甚至是域外圖像。”
該模型學(xué)習(xí)特定數(shù)量的編輯向量,這些編輯向量可以交互地應(yīng)用于圖像。本質(zhì)上,它形成了對(duì)圖像及其內(nèi)容的直觀理解,用戶可以利用這些信息進(jìn)行特定的修改和編輯。該模型從相似的圖像中學(xué)習(xí),并識(shí)別圖像中對(duì)象的不同組件和特定部分。用戶可以利用它對(duì)不同子部分進(jìn)行有針對(duì)性的修改,或在特定區(qū)域內(nèi)進(jìn)行編輯。由于模型的精確性,圖像在用戶設(shè)置的參數(shù)之外不會(huì)失真。
“該框架允許我們學(xué)習(xí)任意數(shù)量的編輯向量,然后可以以交互速率直接應(yīng)用于其他圖像。”研究人員在他們的研究中解釋道。“我們的實(shí)驗(yàn)表明, EditGAN 可以以前所未有的細(xì)節(jié)和自由度處理圖像,同時(shí)保持完整的圖像質(zhì)量。我們還可以輕松地組合多種編輯,并在 EditGAN 的訓(xùn)練數(shù)據(jù)之外執(zhí)行合理的編輯。我們?cè)诟鞣N圖像類(lèi)型上演示了 EditGAN ,并在數(shù)量上優(yōu)于幾種預(yù)處理的圖像標(biāo)準(zhǔn)編輯基準(zhǔn)任務(wù)的編輯方法。”
從增加微笑、改變別人看的方向、創(chuàng)造新的發(fā)型,或者給汽車(chē)一套更好的輪子,研究人員展示了模型的內(nèi)在性,只需要很少的數(shù)據(jù)注釋。用戶可以根據(jù)所需的編輯繪制簡(jiǎn)單的草圖或遮罩,并引導(dǎo) AI 模型實(shí)現(xiàn)修改,例如更大的貓耳或更酷的汽車(chē)前燈。人工智能然后渲染圖像,同時(shí)保持非常高的精度和原始圖像的質(zhì)量。之后,同樣的編輯可以實(shí)時(shí)應(yīng)用于其他圖像。
圖 2 分配給圖像不同部分的像素示例。人工智能可以識(shí)別不同的區(qū)域,并可以根據(jù)人工輸入進(jìn)行編輯。
這是怎么工作的?
Edigan 將圖像的每個(gè)像素指定給一個(gè)類(lèi)別,例如輪胎、擋風(fēng)玻璃或車(chē)架。這些像素在人工智能潛在空間內(nèi)控制,并基于用戶的輸入,用戶可以輕松靈活地編輯這些類(lèi)別。 Edigan 操縱 only 與所需更改相關(guān)的像素。人工智能根據(jù)訓(xùn)練模型時(shí)使用的其他圖像知道每個(gè)像素代表什么,因此你無(wú)法嘗試將貓耳朵添加到汽車(chē)中以獲得準(zhǔn)確的結(jié)果。但是,當(dāng)在正確的模型中使用時(shí), EditGAN 是一個(gè)非凡的工具,可以提供出色的圖像編輯效果。
圖 3 Edigan 可以訓(xùn)練各種各樣的圖像,從動(dòng)物到環(huán)境,形成對(duì)其內(nèi)容的詳細(xì)理解。
EditGAN 的潛能
人工智能驅(qū)動(dòng)的照片和圖像編輯有可能簡(jiǎn)化攝影師和內(nèi)容創(chuàng)作者的工作流程,并實(shí)現(xiàn)創(chuàng)新和數(shù)字藝術(shù)的新水平。 EditGAN 還使新手?jǐn)z影師和編輯能夠制作高質(zhì)量的內(nèi)容,以及偶爾的病毒性模因。
“這個(gè)人工智能可能會(huì)改變我們編輯照片的方式,也許最終會(huì)改變視頻。它允許人們通過(guò)簡(jiǎn)單的文本命令拍攝圖像并對(duì)其進(jìn)行修改。如果你有一張汽車(chē)照片,你想讓車(chē)輪更大,只需鍵入“ make wheels bigger ”,然后噗 – 這是一張完全真實(shí)的照片,上面是同一輛車(chē)輪更大的汽車(chē)。”—— Fortune magazine
EditGAN 將來(lái)也可能用于其他重要應(yīng)用。例如, EditGAN 的編輯功能可用于創(chuàng)建具有特定特征的大型圖像數(shù)據(jù)集。當(dāng)針對(duì)不同的計(jì)算機(jī)視覺(jué)任務(wù)訓(xùn)練下游機(jī)器學(xué)習(xí)模型時(shí),這種特定的數(shù)據(jù)集可能很有用。
此外, EditGAN 框架可能會(huì)影響未來(lái)幾代 GAN 的發(fā)展。雖然當(dāng)前版本的 EditGAN 側(cè)重于圖像編輯,但類(lèi)似的方法也可能用于編輯 3D 形狀和對(duì)象,這在為游戲、電影或 metaverse 創(chuàng)建虛擬 3D 內(nèi)容時(shí)非常有用。
關(guān)于作者
Nathan Horrocks 是 NVIDIA Research 的內(nèi)容營(yíng)銷(xiāo)經(jīng)理。他重點(diǎn)強(qiáng)調(diào)了 NVIDIA 實(shí)驗(yàn)室在世界各地進(jìn)行的驚人研究。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4940瀏覽量
102817 -
人工智能
+關(guān)注
關(guān)注
1791文章
46862瀏覽量
237587 -
GaN
+關(guān)注
關(guān)注
19文章
1919瀏覽量
73002
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論