近日,在AIGC的廣闊世界里出現(xiàn)了一個(gè)火熱的圖像編輯方法—即通過(guò)在給定圖像上通過(guò)把語(yǔ)義內(nèi)容從原位置(handle point)拖動(dòng)到目標(biāo)位置(target point)的方式進(jìn)行精細(xì)的定制化編輯操作。比如令人印象深刻的讓你家貓咪對(duì)你wink的神奇操作:
這一驚人效果來(lái)自于發(fā)表在SIGGRAPH 2023會(huì)議上的 [Drag Your GAN] 論文(簡(jiǎn)稱為DragGAN)。并且DragGAN的代碼一經(jīng)發(fā)出就在短短幾周內(nèi)狂攬30K star,引發(fā)廣大網(wǎng)友的“Drag”熱潮。有了DragGAN的加持,各種AI畫圖工具的「阿喀琉斯之踵」再也不是弱點(diǎn),哪里不滿意就只修哪里!
圖 1 DragGAN 由于內(nèi)容突變發(fā)生跟蹤點(diǎn)丟失
近日,中科大和上海AI Lab的研究者們又發(fā)布了一項(xiàng)相關(guān)研究—FreeDrag。研究者們表明,先前的DragGAN由兩個(gè)交替迭代進(jìn)行的過(guò)程構(gòu)成:(1)運(yùn)動(dòng)監(jiān)督(motion supervision)過(guò)程指導(dǎo)handle point向著對(duì)應(yīng)的target point進(jìn)行移動(dòng);(2)點(diǎn)跟蹤(point tracking)過(guò)程則負(fù)責(zé)定位移動(dòng)后handle point的精確位置從而為下次移動(dòng)提供方向和約束特征。因此DragGAN 嚴(yán)重依賴于點(diǎn)跟蹤的精確性。然而,點(diǎn)跟蹤的策略本質(zhì)上是不穩(wěn)定的,因?yàn)樗[式地假設(shè)每次移動(dòng)后在默認(rèn)的搜索區(qū)域內(nèi)有且僅有一個(gè)點(diǎn)完美繼承了handle point的特征。這個(gè)假設(shè)會(huì)在以下兩種情況下失效:i) 圖像內(nèi)容發(fā)生劇烈變化導(dǎo)致的跟蹤丟失(圖1) ii) 搜索區(qū)域內(nèi)的相似點(diǎn)導(dǎo)致的跟蹤錯(cuò)誤(圖2),例如輪廓線和馬腿等。錯(cuò)誤的點(diǎn)跟蹤會(huì)為下一次移動(dòng)提供錯(cuò)誤的方向和約束特征,造成誤差累積從而損害編輯的質(zhì)量。
圖 1 DragGAN 由于相似點(diǎn)的存在發(fā)生錯(cuò)誤的點(diǎn)跟蹤
方法介紹
為了防止不穩(wěn)定的點(diǎn)跟蹤過(guò)程不可避免地?fù)p害圖像編輯的質(zhì)量,中國(guó)科學(xué)技術(shù)大學(xué)和上海AI Lab的研究者們共同提出FreeDrag, 一種以特征為導(dǎo)向的基于點(diǎn)的交互式編輯框架。FreeDrag通過(guò)引入自適應(yīng)更新的模板特征,模糊定位和線性搜索技術(shù),在無(wú)需進(jìn)行精確點(diǎn)跟蹤的情況下即可實(shí)現(xiàn)更加穩(wěn)定可靠的拖動(dòng)編輯。
圖 2 FreeDrag 的流程圖
圖 3 DragGAN的點(diǎn)跟蹤和FreeDrag 點(diǎn)定位的比較。
DragGAN 要求精確定位的位置,而FreeDrag 通過(guò)約束特征差異限制定位點(diǎn)在附近,但不要求確定的具體位置。
動(dòng)態(tài)更新的模板特征
研究者們首先提出了動(dòng)態(tài)更新的模板特征技術(shù)來(lái)緩解跟蹤點(diǎn)丟失問(wèn)題。模板特征通過(guò)衡量每次移動(dòng)的質(zhì)量來(lái)決定是否更新,即通過(guò)控制的值來(lái)決定每次更新的比例。更大的意味著更大的更新程度。移動(dòng)質(zhì)量越高更新程度越大。移動(dòng)質(zhì)量通過(guò)衡量移動(dòng)結(jié)束后處的特征和上一次的模板特征值的?????? L1 距離 () 來(lái)度量,越小說(shuō)明移動(dòng)質(zhì)量越高。模板特征的更新過(guò)程不依賴于handle point 的位置和特征,從而擺脫了對(duì)精確的點(diǎn)跟蹤的負(fù)擔(dān),同時(shí)自適應(yīng)的更新策略帶來(lái)的平滑性賦予了模板特征更好的魯棒性來(lái)克服劇烈的內(nèi)容變化,避免編輯內(nèi)容的異常丟失。
模糊定位和線性搜索
緊接著,研究者們提出模糊定位和線性搜索技術(shù)來(lái)緩解跟蹤點(diǎn)模糊問(wèn)題。FreeDrag 通過(guò)移動(dòng)距離和特征差異來(lái)為每次的移動(dòng)定位適合的目標(biāo)點(diǎn),即公式(10)。定位主要分為三種情況:繼續(xù)向target point移動(dòng)(移動(dòng)質(zhì)量高);保持當(dāng)前位置不動(dòng)(移動(dòng)不徹底),點(diǎn)回退(移動(dòng)異常)。
相比于DragGAN要求的精確的點(diǎn)跟蹤,公式(10)搜尋的定位點(diǎn)是“模糊”因?yàn)樗⒉灰笏褜andle point的準(zhǔn)確位置,而是通過(guò)約束特征差異確保定位點(diǎn)在handle point附近, 因此擺脫了精確定位的負(fù)擔(dān)。此外,公式(10) 只在原始handle point 和 target point 形成的直線上進(jìn)行點(diǎn)搜索,這種線性搜索策略有效地緩解了相鄰區(qū)域內(nèi)相似點(diǎn)的干擾,保障了運(yùn)動(dòng)監(jiān)督的可靠性,進(jìn)一步提高點(diǎn)移動(dòng)的穩(wěn)定性。
實(shí)驗(yàn)對(duì)比
DragGAN 和 FreeDrag 在各類場(chǎng)景上的對(duì)比如下圖(圖4)所示,可以發(fā)現(xiàn)FreeDrag可以有效地防止handle point的異常消失(如圖4第一個(gè)例子中消失的嘴巴和第二個(gè)例子中消失的眼鏡),同時(shí)有力地避免了由于內(nèi)容突變和相似點(diǎn)干擾導(dǎo)致的異常編輯,保障了點(diǎn)移動(dòng)的可靠性(如圖4第三個(gè)例子中大象的眼睛和第四個(gè)例子中的馬腿)。此外,從圖4的(5)-(8)例子可以觀察到FreeDrag 可以通過(guò)穩(wěn)定的點(diǎn)移動(dòng)更有效更精確地實(shí)現(xiàn)預(yù)定的編輯目標(biāo)。進(jìn)一步的,在各類場(chǎng)景上的大量實(shí)驗(yàn)(圖5) 充分驗(yàn)證了FreeDrag 可以通過(guò)穩(wěn)定的點(diǎn)移動(dòng)實(shí)現(xiàn)更高的編輯質(zhì)量,助力交互式的基于點(diǎn)的圖像編輯達(dá)到新的高度。
圖 4 DragGAN 和 FreeDrag 在各類場(chǎng)景上的對(duì)比圖
圖 5 DragGAN 和 FreeDrag 在更多場(chǎng)景下的對(duì)比圖
視頻對(duì)比如下:
左邊兩張圖分別為原始圖片和編輯目標(biāo)(紅色為handle point, 藍(lán)色為target point)
右邊分別為為DragGAN 和FreeDrag的處理過(guò)程(gif)
對(duì)于拖動(dòng)大象眼睛的例子,可以觀察到,DragGAN 在移動(dòng)大象眼睛的過(guò)程中發(fā)生了圖像布局的突變?cè)斐牲c(diǎn)跟蹤丟失,點(diǎn)跟蹤丟失導(dǎo)致無(wú)法為之后的運(yùn)動(dòng)提供有效的運(yùn)動(dòng)監(jiān)督,進(jìn)而無(wú)法實(shí)現(xiàn)預(yù)定的編輯目的。相比而言,得益于動(dòng)態(tài)更新的模板特征的平滑性,F(xiàn)reeDrag 可以更好地避免圖像內(nèi)容的急劇變化,從而更可靠地將眼部特征拖向預(yù)定的位置。
對(duì)于拖動(dòng)馬腿的例子,可以觀察到, DragGAN在移動(dòng)馬腿過(guò)程中發(fā)生了錯(cuò)誤的點(diǎn)跟蹤,從而為之后的運(yùn)動(dòng)監(jiān)督提供了錯(cuò)誤的優(yōu)化方向,進(jìn)而降低了圖像質(zhì)量,這種錯(cuò)誤會(huì)在多次迭代中累計(jì)導(dǎo)致編輯結(jié)果質(zhì)量的急劇下降。相比而言, FreeDrag 的模糊定位和線性搜索策略有效地緩解了相似點(diǎn)的干擾,為點(diǎn)移動(dòng)提供了可靠的監(jiān)督信號(hào),從而高質(zhì)量地實(shí)現(xiàn)預(yù)定的編輯目的。
-
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40418 -
代碼
+關(guān)注
關(guān)注
30文章
4750瀏覽量
68357 -
AIGC
+關(guān)注
關(guān)注
1文章
356瀏覽量
1509
原文標(biāo)題:你的DragGAN并不需要點(diǎn)跟蹤!中科大和上海AI Lab提出FreeDrag:無(wú)需點(diǎn)跟蹤即可穩(wěn)定拖動(dòng)語(yǔ)義內(nèi)容
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論