聽聲辨人,利用聲紋進(jìn)行解鎖,這種技術(shù)已廣泛應(yīng)用,人類的聲音含有該個(gè)體的一定特征,從而可以進(jìn)行區(qū)分。那么僅通過聲音,能否畫出人像,并且盡可能地與講話者相似呢?
近日,卡內(nèi)基梅隆大學(xué)的Yandong Wen 等人,利用生成對抗網(wǎng)絡(luò)模型(generative adversarial networks, GANs)首次對這一問題作出研究,利用講話者的語音生成一些匹配原說話者面部特征的人臉,并用交叉模態(tài)匹配(cross-modal matching task)評估了模型表現(xiàn),可謂是語音畫像領(lǐng)域的一大突破。
模型框架
一個(gè)人的聲音和骨骼結(jié)構(gòu)、發(fā)聲部位的形狀等特征的確有關(guān),但利用語音直接畫出人臉,如何做到?
該由聲音重建人臉的模型框架主要由四個(gè)卷積網(wǎng)絡(luò):語音嵌入模型(voice embedding network)、生成器(Generator)、判別器(Discriminator)、分類器(classifier)組成。
語音嵌入模型(voice embedding network)將輸入的語音數(shù)據(jù),梅爾倒頻譜(log mel-spectrograms)轉(zhuǎn)換為含有該聲音特征的向量 e。該模型含有 5 層一維卷積神經(jīng)網(wǎng)絡(luò),每一層均是經(jīng)由卷積核為 3、步長為 2、padding 為 1 得到,并且都經(jīng)過歸一化層處理和 ReLU 單元激活,最后經(jīng)過平均池化得到一個(gè) 64 維的向量。此模型是通過一個(gè)語音識別任務(wù)預(yù)先訓(xùn)練得到參數(shù),并且參數(shù)在生成人臉的訓(xùn)練過程中保持不變。生成器(Generator)輸入為語音嵌入模型產(chǎn)生的向量 e,輸出是人臉 RGB 圖像 f',由 6 層二維反卷積網(wǎng)絡(luò)構(gòu)成,激活函數(shù)采用 ReLU。
判別器(Discriminator)判斷輸入的圖像 f(或 f')是生成器偽造的圖像還是真實(shí)的人臉,如果判斷為偽造圖會(huì)加大損失 Ld。由 6 層激活單元為 Leaky ReLU 的二維卷積網(wǎng)絡(luò)構(gòu)成,最后經(jīng)過全連接層得到人臉圖像數(shù)據(jù)。
分類器(classifier)用來將人臉圖像與說話者匹配,如果匹配錯(cuò)誤會(huì)加大損失 Lc。該模型由 6 層二維卷積網(wǎng)絡(luò)和一個(gè)全連接層組成。具體的結(jié)構(gòu)如圖表,其中 Conv 3/2,1代表卷積核尺寸為 3,步長為 2,padding 填充為 1。
圖 | 從聲音重建人臉模型的具體結(jié)構(gòu)。(來源:Yandong Wen, et al./CMU)模型通過最小化判別器與分類器的交叉熵?fù)p失 Ld 和 Lc 來訓(xùn)練,以期得到圖像逼真且符合說話者特征的人臉。值得一提的是,此模型的測試集和訓(xùn)練集以及驗(yàn)證集相互獨(dú)立,即測試時(shí)的聲音是未聽過的,人臉也未知。
模型表現(xiàn)
不特意挑選那些人臉和真實(shí)講話者完美一致的結(jié)果,一般來講,該模型的確能輸出具有講話者特征的人臉,即使不完全一模一樣,從種族以及一些其他典型的面部特征來看,這個(gè)模型的確學(xué)習(xí)到了一些信息,輸出結(jié)果和原講話者非常像,并且語音時(shí)間越長,匹配的特征越多,兩者越類似。
圖 | 從不同時(shí)長的正常錄音生成人臉的結(jié)果圖,右側(cè)Ref為真實(shí)講話者的不同臉部照片,從上到下的 4 位 Speaker 分別是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (來源:Yandong Wen, et al./CMU)當(dāng)然,性別及年齡特征也可以很好地被學(xué)習(xí)到,左側(cè)輸出結(jié)果的年齡和性別與右側(cè)真實(shí)人臉的年齡性別保持一致。在整個(gè)測試集上,生成圖和真實(shí)講話者性別相同的概率可以達(dá)到 96.5%。
圖 | 從性別年齡的人臉重建,(a)是從老年聲音生成的人臉;(b)是男性聲音生成的人臉;(c)是女性聲音生成的人臉。其中左側(cè)為生成圖,右側(cè)為真實(shí)講話者。(來源:Yandong Wen, et al./CMU)如果用同一個(gè)人的不同語音片段,推測產(chǎn)生的人臉會(huì)保持相同特征嗎?模型結(jié)果告訴我們,是這樣。選用同一個(gè)講話者的 7 個(gè)不同語音片段,不特意挑選完美結(jié)果,模型所推測出的大概特征是十分一致的,這也側(cè)面說明,模型的確可以從一個(gè)人的語音抽取出一些特征,映射成其臉部的某些特征。
圖 | 利用一個(gè)人的 7 段不同語音重建人臉,左圖(a)是重建的 7 張人臉圖,右圖(b)是對應(yīng)的真實(shí)人臉在不同情況的照片(來源:Yandong Wen, et al./CMU)進(jìn)一步來講,如果從語音中學(xué)到的特征真的可以映射成面部的特征,那么生成人臉圖必定和真實(shí)講話者的臉部是對應(yīng)匹配的。換句話說,聲音中的特征可以被生成人臉中蘊(yùn)含的特征替代,那么由聲音重組人臉就變成了人臉識別問題,兩張臉(生成的和真實(shí)的)匹配,那么計(jì)劃可行,這個(gè)匹配率也就成了衡量模型表現(xiàn)的指標(biāo)。在整個(gè)訓(xùn)練集和測試集上,該模型的匹配率分別是 96.83% 和 76.07%;將訓(xùn)練集和測試集按照性別分層,排除性別這一特征的助力,也就是直接比較同一性別上,生成的人臉和講話者是否相像,匹配率在訓(xùn)練集和測試集上分別是 93.98%和 59.69%,這也證明了模型所學(xué)到的信息不僅僅是性別,還有其他更詳細(xì)的面部特征。該模型表現(xiàn)不僅優(yōu)于 DIMNets-G,同時(shí),測試集表現(xiàn)不如訓(xùn)練集,說明模型還有很大提升空間。
圖 | 不同模型在性別分層以及不分層的數(shù)據(jù)集上的表現(xiàn)。(來源:Yandong Wen, et al./CMU)
展望
該模型雖然表現(xiàn)尚佳,但仍有可提升的地方,比如頭發(fā)和圖像背景等與聲音無關(guān)的特征,可以進(jìn)行數(shù)據(jù)清洗將其去除,而有一些明顯與發(fā)聲有關(guān)的面部特征也可以加以利用,從而模型會(huì)更加精確。
總的來說,由音生貌,語音畫像問題的一塊空白得到了填補(bǔ)。
-
AI
+關(guān)注
關(guān)注
87文章
30172瀏覽量
268440 -
GaN
+關(guān)注
關(guān)注
19文章
1919瀏覽量
73015
原文標(biāo)題:僅聽聲音就畫出人臉,GAN再添新能力
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論