遠程面對面交互對于工作、娛樂和人機關系都十分重要。盡管這種面對面的交互可以通過2D視頻會議或虛擬現實實現,但遠程呈現系統無法正確呈現眼神接觸和社交注視信號的交流。有人曾提出通過在2D視頻會議中重定向視線來實現眼神交流,但2D視頻會議缺乏真實生活中的3D沉浸感。
為了解決所述問題,Facebook開發了一種虛擬現實面對面交互系統,并專注于再現逼真的注視信號和眼神交流。為了做到這一點,團隊構建了一個可通過VR頭顯攝像頭制作動畫的三維虛擬化身模型,從而在虛擬現實中精確地追蹤和再現人類的注視信號。
這項研究的主要貢獻包括:一個可共同學習,并能夠更好地表示注視方向和上面部表情的3D人臉和眼球模型;一種將左右眼注視從彼此和面部其他部分分離開來的方法,從而令模型能夠代表前所未見的眼神和表情組合;以及一個用于支持頭顯攝像頭構建精確動畫的注視感知模型。定量實驗表明,這一方法可以獲得更高的重建質量,而定性結果顯示所述方法可以大大改善VR虛擬化身的臨場感。
VR虛擬化身都是對應真實的實時CG渲染。簡單來說,Facebook的方法將眼球和人臉分離,并單獨控制渲染,最后再整合配準,從而實現一系列逼真的眼神+表情組合。
1. 眼球模型的實時單獨渲染
具體而言,研究人員將注視點作為解碼器的條件變量,從而實現顯式注視點控制。要做到這一點,首先通過包含多個攝像頭的頭顯追蹤用戶眼睛,并從多視角訓練圖像中估計出注視點。
對于每一幀,團隊利用檢測器在多個不同的輸入視圖中沿著邊緣檢測關鍵點,然后沿著邊緣將關鍵點重投影至多視角圖像,并優化每一幀的眼球位置和方向以匹配關鍵點。這樣就可以為每個序列擬合一個幾何眼睛模型,包括每幀對每個眼睛方向的估計。對于幾何眼睛模型,團隊將其定義成由兩個球體組合的曲面,圍繞邊界線性混合。
為了確保在所有的會聚距離正確控制模型的顯式注視方向,模型必須允許對每只眼睛進行獨立控制。所以,團隊將控制面部地代碼分解成控制左眼區域和右眼區域,并在訓練過程中添加區域損失(Region Loss)以懲罰解碼輸出的差異。例如對左眼應用區域損失,當改動與左眼區域無關的代碼時,左眼將不會運動。
由于模型同時產生幾何和紋理,團隊同時將類似的懲罰應用到紋理,這樣當你改變控制左眼以外區域的代碼時,左眼紋理同樣不會改變。通過這樣單獨控制每只眼睛的注視,系統可以產生更為逼真的眼神交互。
通過上述方法產生的眼球模型可以為眼球幾何提供一個粗略的初始估計,但如果要為虛擬化身渲染眼球,我們必須精進估計并生成紋理。給定一個多視角面部捕獲,團隊利用上述模型的初始形狀參數估計每個幀的眼球方向。然后,團隊移除覆蓋眼睛的幾何,并替換以新的眼球幾何。對于渲染新的眼球幾何,團隊利用了視點,眼球方向和眼臉形狀,以及一系列的眼球紋理解碼器和扭曲算法。
團隊將這個模型稱為顯式眼球模型(EEM),從而強調眼球是一個獨立的、直接控制的幾何組件。
相關論文:The Eyes Have It: An Integrated Eye and Face Model for Photorealistic Facial Animation
2. 前所未見的眼神和表情組合
研究人員指出,這可以實現前所未見的眼神和表情組合。這是如何實時結合并驅動的呢?
由于這是一個包含眼球模型和人臉模型的聯合模型,團隊同時解碼了面部幾何和紋理,移除覆蓋原來的眼球幾何,添加上述新的眼球幾何,旋轉眼球幾何以匹配注視點輸入,并將其放到面部。接下來團隊為眼球解碼紋理,并渲染完整的網格幾何渲染,優化模型參數以匹配捕獲圖像,通過虛擬化身配準系統(Avatar Correspondence System)實現虛擬化身渲染和捕獲圖像的配準。
在訓練期間,團隊時使用包含九個攝像頭的頭顯來更好地捕獲面部。然后配準模型(coreespondence model)估計表情,相對于面部的頭顯姿態和注視方向,并將其作為輸入來為每個camera視點解碼網格和紋理。團隊接下來通過淺層神經網絡(shallow network)將虛擬化身紋理轉換至頭顯域,渲染虛擬化身,并端到端地優化整個系統,使用差分渲染來匹配頭顯圖像。
對于僅搭載三個攝像頭的頭顯,團隊構建一個共享的特征映射來描述面部,然后回歸到表情代碼,以及針對每個眼睛的bounding box。利用位于bounding box的特征,團隊可以預測注視點,并產生獨立于表情的注視點,然后利用所述輸入來實時驅動虛擬化身。
評論
查看更多