漫畫(huà)是很多人的童年回憶,除了經(jīng)典的《銀魂》、《海賊王》、《火影》,久保帶人的作品《死神》也很有人氣。最近,六位來(lái)自北航的研究者推出了一款漫畫(huà)臉轉(zhuǎn)換模型「MangaGAN」,實(shí)現(xiàn)了真人照片到漫畫(huà)臉的完美轉(zhuǎn)換。
我們可以合理懷疑,幾位論文作者都是久保帶人的粉絲。
這篇論文中提出的「MangaGAN」,是一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的非成對(duì)照片到漫畫(huà)轉(zhuǎn)換方法。用來(lái)訓(xùn)練 MangaGAN 的數(shù)據(jù)集也來(lái)源于一部非常受歡迎的漫畫(huà)作品——久保帶人的《死神(Bleach)》,包含漫畫(huà)人臉的面部特征、特征點(diǎn)、身體等元素,所以生成結(jié)果也帶有強(qiáng)烈的久保帶人風(fēng)格。
標(biāo)準(zhǔn)漫畫(huà)臉是如何生成的?
MangaGAN 生成漫畫(huà)臉的整體流程。
總體來(lái)說(shuō),MangaGAN 包含兩個(gè)分支:
一個(gè)分支通過(guò)幾何轉(zhuǎn)換網(wǎng)絡(luò)(Geometric Transformation Network,GTN)學(xué)習(xí)幾何映射;
另一個(gè)分支通過(guò)外觀轉(zhuǎn)換網(wǎng)絡(luò)(Appearance Transformation Network,ATN)學(xué)習(xí)外觀映射。
最后通過(guò)合成模塊將二者融合,從而生成漫畫(huà)臉。
假設(shè) P 表示照片,M 表示生成的漫畫(huà)臉,二者之間不存在成對(duì)關(guān)系。給定一張照片 p∈P,MangaGAN 學(xué)習(xí)映射
將 p 遷移至樣本
(m∈M),同時(shí)為 m 加上漫畫(huà)風(fēng)格和面部相似度。
圖中(f)步驟通過(guò) GTN 勾勒出夸張的幾何線(xiàn)條,并確定五官的幾何分布位置;圖中(e)步驟則通過(guò) ATN 生成所有的面部特征,包括眼睛、鼻子和嘴巴。繼而通過(guò)合成模塊將幾何輪廓和面部特征相融合,輸出漫畫(huà)臉 m∈M。
外觀轉(zhuǎn)換:ATN
ATN 是一個(gè) multi-GAN 結(jié)構(gòu)的網(wǎng)絡(luò),包含四個(gè)局部 GAN,分別用來(lái)轉(zhuǎn)換眼、口、鼻和頭發(fā)這四個(gè)面部位置。針對(duì)每個(gè)部位的 GAN,會(huì)有專(zhuān)屬的訓(xùn)練策略和編碼器以改善其性能。
眼睛和嘴巴是漫畫(huà)臉的靈魂所在,但也是最難轉(zhuǎn)換的部分,隨著表情的變化,這兩個(gè)部位的特征也會(huì)變化。
對(duì)于眼睛和嘴巴部位,為了實(shí)現(xiàn)更好的非成對(duì)數(shù)據(jù)匹配,研究者將 CycleGAN 與反向映射(reverse mapping)相結(jié)合,并進(jìn)行了三項(xiàng)改進(jìn):
第一,設(shè)計(jì)了一個(gè)帶有 SP loss L_SP 的 Similarity Preserving (SP) 模塊,以增強(qiáng)相似度;
第二,訓(xùn)練編碼器 E^eye 用于提取 p^eye 的主干,訓(xùn)練編碼器 E^mouth 用于提取 p^mouth 的輪廓線(xiàn)條;
第三,提出結(jié)構(gòu)平滑損失 L_SS,幫助網(wǎng)絡(luò)生成筆觸平滑的漫畫(huà)臉。
使用不同的改進(jìn)方法得到的眼部和嘴部區(qū)域?qū)Ρ惹闆r。
上圖第 5 列和第 11 列展示了使用 SP 模塊進(jìn)行改進(jìn)的效果;第 6 列和第 12 列分別展示了使用編碼器 E^eye 和 E^mouth 的改進(jìn)效果;第 4 列和第 10 列展示了使用結(jié)構(gòu)平滑損失進(jìn)行改進(jìn)的效果。
鼻子和頭發(fā)的生成則相對(duì)簡(jiǎn)單,大部分動(dòng)漫人物的鼻型相似,因此該研究使用基于 ProGAN 的架構(gòu)生成鼻子。頭發(fā)部分則使用了 APDdrawingGAN,通過(guò)頭發(fā)分割方法劃分出大致的頭發(fā)區(qū)域,然后使用肖像分割方法移除多余的背景區(qū)域,即可生成類(lèi)似漫畫(huà)風(fēng)格的頭發(fā)樣式。
幾何轉(zhuǎn)換:GTN
在轉(zhuǎn)換面部特征點(diǎn)時(shí)會(huì)遇到一個(gè)問(wèn)題:面部特征的搭配模式限制了結(jié)果的多樣性。比如,臉型相同的人可能有著不同的眼口鼻大小或位置,但 GAN 在接受全局人臉特征點(diǎn)訓(xùn)練時(shí)可能遵循固定或類(lèi)似的搭配模式。因此研究者也將「幾何特征」分解為三種屬性:臉型、位置、大小,并使用三個(gè) sub-GAN 分別轉(zhuǎn)換。
GTN pipeline。幾何信息被分為三種獨(dú)立屬性:位置、大小和臉型,然后使用 N_loc、N_siz、N_sha 三個(gè) sub-GAN 分別進(jìn)行轉(zhuǎn)換。
最終,如圖 5(b) 所示,基于預(yù)定義的臉頰和額頭比例,生成了整張漫畫(huà)臉的幾何特征。
最后一步:融合
這一步的目的是融合人臉特征和幾何特征,從而生成漫畫(huà)臉。
如上圖所示,首先,根據(jù)幾何特征來(lái)調(diào)整和定位各面部特征組件;
其次,基于分段三次 Hermite 插值多項(xiàng)式 (PCHIP) 方法,獲得平滑的曲線(xiàn)并保留臉部形狀,然后通過(guò)擬合生成人臉特征點(diǎn)的曲線(xiàn)來(lái)繪制臉型;
然后,模型提供了 10 種漫畫(huà)式耳朵供選擇,而非按照片重新生成,因?yàn)槎涞臉邮綄?duì)面部表情來(lái)說(shuō)影響不大;
此外,研究者還收集了 8 種漫畫(huà)人物身體(manga body),用來(lái)與生成的漫畫(huà)臉搭配。
最后就可以輸出漫畫(huà)結(jié)果啦。該模型提供了快速微調(diào)尺寸和位置的工具,以及鼻子、耳朵和骨架等組件的切換工具,用戶(hù)可以按照個(gè)人喜好進(jìn)行調(diào)整,生成自己喜歡的漫畫(huà)臉。
MangaGAN 效果如何?
該研究所用的實(shí)驗(yàn)數(shù)據(jù)集包括三部分:漫畫(huà)數(shù)據(jù)集、照片數(shù)據(jù)集和人像數(shù)據(jù)集。漫畫(huà)數(shù)據(jù)集來(lái)源于一部流行的漫畫(huà)作品《死神》,包括 448 雙眼睛、109 個(gè)鼻子、179 個(gè)嘴巴和 106 張正面漫畫(huà)臉。
研究者將 MangaGAN 與 9 種漫畫(huà)臉生成 SOTA 方法進(jìn)行了對(duì)比,效果生成如下圖所示:
可以看到,其他方法生成的漫畫(huà)臉都會(huì)有扭曲和突兀的線(xiàn)條,或是面部存在莫名的陰影,其原因在于生成過(guò)程中忽視了幾何特征的轉(zhuǎn)換。相比之下,MangaGAN 生成的臉部十分干凈利落,沒(méi)有多余的部分。
接下來(lái)是跨域轉(zhuǎn)換層面中 MangaGAN 與其他方法的對(duì)比。為公平起見(jiàn),CycleGAN 和 UNIT 先轉(zhuǎn)換全臉再轉(zhuǎn)換每個(gè)人臉特征。最終效果如下圖所示:
很明顯,其他方法在匹配照片和漫畫(huà)時(shí)容易出現(xiàn)問(wèn)題,它們更關(guān)心二者的黑暗區(qū)域是否匹配,但沒(méi)有轉(zhuǎn)換臉型和筆觸。MangaGAN 的生成結(jié)果則更接近理想中的漫畫(huà)臉,臉型棱角分明,眉形平滑,嘴巴也進(jìn)行了簡(jiǎn)化,幾乎完全符合手繪漫畫(huà)的人物長(zhǎng)相特征。
責(zé)任編輯:pj
-
幾何
+關(guān)注
關(guān)注
0文章
37瀏覽量
12338 -
合成
+關(guān)注
關(guān)注
0文章
16瀏覽量
13776 -
ATN
+關(guān)注
關(guān)注
0文章
5瀏覽量
3605
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論