国内精品久久人妻无码网站_日韩精品无码一本二本三本色_欧美日韩一区中文在线_人妻激情在线无码专区

人體神經輻射場的目標是從 2D 人體圖片中恢復高質量的 3D 數字人并加以驅動，從而避免耗費大量人力物力去直接獲取 3D 人體幾何信息。這個方向的探索對于一系列應用場景，比如虛擬現實和輔助現實場景，有著非常大潛在性的影響。

現有人體神經輻射場生成和驅動技術主要可以分為兩類。

第一類技術利用單目或者多目人體視頻去重建和驅動 3D 數字人。這類技術主要是針對特定數字人的建模和驅動，優化耗時大，缺乏泛化到大規模數字人重建上的能力。

第二類技術為了提升 3D 數字人重建的效率。提出利用多視角人體圖片作為輸入去重建人體神經輻射場。

盡管這第二類方法在 3D 人體重建上取得了一定的效果，這類方法往往需要特定相機角度下的多目人體圖片作為輸入。在現實生活中，我們往往只能獲取到任意相機角度下人體的一張圖片，給這類技術的應用提出了挑戰。

在 ICCV2023 上，南洋理工大學 - 商湯科技聯合研究中心 S-Lab 團隊提出了基于單張圖片的可泛化可驅動人體神經輻射場方法 SHERF。

SHERF 可以基于用戶輸入的一張任意相機角度 3D 人體圖片，該角度下相機和人體動作體型（SMPL）參數，以及給定目標輸出空間下任意相機參數和人體動作體型（SMPL）參數，重建并驅動該 3D 數字人。本方法旨在利用任意相機角度下人體的一張圖片去重建和驅動 3D 人體神經輻射場。

圖 1

基本原理

人體神經輻射場重建和驅動主要分為五個步驟（如圖 2 所示）。

圖 2

第一步為目標空間（target space）到標準空間（canonical space）的坐標轉換，基于用戶輸入目標輸出空間下任意人體動作體型參數和相機外參參數，在目標空間內射出光線，并在光線上采樣一系列空間點，利用 SMPL 算法的逆線性蒙皮轉換（Inverse Linear Blend Skinning）將目標空間里的空間點轉換到標準空間中。

第二步為提取標準空間中 3D 點對應的層級特征（hierarchical feature）。

全局特征（global feature）提取：利用二維編碼網絡（2D Encoder）從輸入圖片提取一維特征，并利用映射網絡（Mapping Network）和風格編碼網絡（Style-Based Encoder）進一步將 1D 特征轉換為標準空間下的三平面特征（Tri-plane），接下來將標準空間中 3D 點投影到三平面提取相應的全局特征；

點級別特征（Point-Level Feature）提取：首先利用二維編碼網絡（2D Encoder）從輸入圖片提取二維特征，并將觀測空間（observation space）下 SMPL 的頂點投影到輸入圖片成像平面上去提取相應特征，緊接著利用 SMPL 算法的逆線性蒙皮轉換（Inverse Linear Blend Skinning）將觀測空間下 SMPL 的頂點轉到標準空間下構建稀疏三維張量，然后利用稀疏卷積得到標準空間中 3D 點的點級別特征；

像素級別特征（Pixel-Aligned Feature）提取：首先利用二維編碼網絡（2D Encoder）從輸入圖片提取二維特征，并利用 SMPL 算法的線性蒙皮轉換（Linear Blend Skinning）將標準空間中 3D 點轉到觀測空間下，再投影到輸入圖片成像平面上去提取相應像素級別特征。

第三步為特征融合（Feature Fusion Transformer），利用 Transformer 模型將三種不同級別的特征進行融合。第四步為人體神經輻射場解碼生成相應圖片信息，將標準空間中 3D 點坐標，光線方向向量和對應特征輸入到人體神經輻射場解碼網絡中得到 3D 點的體密度和顏色信息，并進一步基于體渲染（Volume Rendering）在目標空間下生成相應像素的顏色值，并得到最終用戶輸入目標輸出空間下任意人體動作體型參數和相機外參參數下的圖片。

基于以上步驟，給定目標輸出空間下任意人體動作序列（SMPL）參數可以從 2D 圖片恢復 3D 數字人并加以驅動。

結果比較

本文在四個人體數據集上人體數據集上進行了實驗，分別是 THuman，RenderPeople，ZJU_MoCap，HuMMan。

該研究對比了對比了最先進的可泛化多視角人體圖片的人體神經輻射場方法，NHP 和 MPS-NeRF。本文在 peak signal-to-noise ratio （PSNR），structural similarity index （SSIM），以及 Learned Perceptual Image Patch Similarity （LPIPS）進行了比較。如下圖所示，本文在所有數據集，所有指標上均大幅超越之前的方案。