DensePose團隊在ECCV 2018發表又一杰作:密集人體姿態轉換!這是一個基于DensePose的姿勢轉換系統,僅根據一張輸入圖像和目標姿勢,生成數字人物的動畫效果。
DensePose是Facebook研究員Natalia Neverova、Iasonas Kokkinos和法國INRIA的R?za Alp Guler開發的一個令人驚嘆的人體實時姿勢識別系統,它在2D圖像和人體3D模型之間建立映射,最終實現密集人群的實時姿態識別。
具體來說,DensePose利用深度學習將2D RPG圖像坐標映射到3D人體表面,把一個人分割成許多UV貼圖(UV坐標),然后處理密集坐標,實現動態人物的精確定位和姿態估計。
DensePose模型以及數據集已經開源,傳送門:
http://densepose.org/
最近,該團隊更進一步,發布了基于DensePose的一個姿勢轉換系統:Dense Pose Transfer,僅根據一張輸入圖像和目標姿勢,創造出“數字化身”的動畫效果。
在這項工作中,研究者希望僅依賴基于表面(surface-based)的對象表示(object representations),類似于在圖形引擎中使用的對象表示,來獲得對圖像合成過程的更強把握。
研究者關注的重點是人體。模型建立在最近的SMPL模型和DensePose系統的基礎上,將這兩個系統結合在一起,從而能夠用完整的表面模型來說明一個人的圖像。
具體而言,這項技術是通過surface-based的神經合成,渲染同一個人的不同姿勢,從而執行圖像生成。目標姿勢(target pose)是通過一個“pose donor”的圖像表示的,也就是指導圖像合成的另一個人。DensePose系統用于將新的照片與公共表面坐標相關聯,并復制預測的外觀。
我們在DeepFashion和MVC數據集進行了實驗,結果表明我們可以獲得比最新技術更好的定量結果。
除了姿勢轉換的特定問題外,所提出的神經合成與surface-based的表示相結合的方法也有希望解決虛擬現實和增強現實的更廣泛問題:由于surface-based的表示,合成的過程更加透明,也更容易與物理世界連接。未來,姿勢轉換任務可能對數據集增強、訓練偽造檢測器等應用很有用。
Dense Pose Transfer
研究人員以一種高效的、自下而上的方式,將每個人體像素與其在人體參數化的坐標關聯起來,開發了圍繞DensePose估計系統進行姿勢轉換的方法。
我們以兩種互補的方式利用DensePose輸出,對應于預測模塊和變形模塊(warping module),如圖1所示。
圖1:pose transfer pipeline的概覽:給定輸入圖像和目標姿勢,使用DensePose來執行生成過程。
變形模塊使用DensePose表面對應和圖像修復(inpainting)來生成人物的新視圖,而預測模塊是一個通用的黑盒生成模型,以輸入和目標的DensePose輸出作為條件。
這兩個模塊具有互補的優點:預測模塊成功地利用密集條件輸出來為熟悉的姿勢生成合理的圖像;但它不能推廣的新的姿勢,或轉換紋理細節。
相比之下,變形模塊可以保留高質量的細節和紋理,允許在一個統一的、規范的坐標系中進行修復,并且可以自由地推廣到各種各樣的身體動作。但是,它是以身體為中心的,而不是以衣服為中心,因此沒有考慮頭發、衣服和配飾。
將這兩個模塊的輸出輸入到一個混合模塊(blending module)可以得到最好的結果。這個混合模塊通過在一個端到端可訓練的框架中使用重構、對抗和感知損失的組合,來融合和完善它們的預測。
圖2:warping stream上姿勢轉換的監控信號:通過DensePose驅動的空間變換網絡,將左側的輸入圖像扭曲到固有的表面坐標。
圖3:Warping模塊的結果
如圖3所示,在修復過程(inpainting process),可以觀察到一個均勻的表面,捕捉了皮膚和貼身衣服的外觀,但沒有考慮頭發、裙子或外衣,因為這些不適合DensePose的表面模型。
實驗和結果
我們在DeepFashion數據集上進行實驗,該數據集包含52712個時裝模特圖像,13029件不同姿勢的服裝。我們選擇了12029件衣服進行訓練,其余1000件用于測試。
表1:根據結構相似度(SSIM)、Inception Score(IS)[41]和detection score(DS)指標,對DeepFashion數據集的幾種state-of-the-art方法進行定量比較。
我們首先將我們的框架與最近一些基于關鍵點的圖像生成或多視圖合成方法進行比較。
表1顯示,我們的pipeline在結構逼真度(structural fidelity)方面有顯著優勢。在以IS作為指標的感知質量方面,我們模型的輸出生成具有更高的質量,或可與現有工作相媲美。
定性結果如圖4所示。
圖4:與最先進的Deformable GAN (DSC)方法的定性比較。
密集人體姿態轉換應用
在這項工作中,我們介紹了一個利用密集人體姿態估計的two-stream姿態轉換架構。我們已經證明,密集姿勢估計對于數據驅動的人體姿勢估計而言是一種明顯優越的調節信號,并且通過inpainting的方法在自然的體表參數化過程中建立姿勢轉換。在未來的工作中,我們打算進一步探索這種方法在照片級真實圖像合成,以及處理更多類別方面的潛力。
作者:
R?za Alp Güler,INRIA, CentraleSupélec
Natalia Neverova,Facebook AI Research
Iasonas Kokkinos,Facebook AI Research
-
圖像
+關注
關注
2文章
1083瀏覽量
40417 -
深度學習
+關注
關注
73文章
5492瀏覽量
120976
原文標題:【ECCV 2018】Facebook開發姿態轉換模型,只需一張照片就能讓它跳舞(視頻)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論