NPGA: Neural Parametric Gaussian Avatars

📄 arXiv: 2405.19331v2 📥 PDF

作者: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner

分类: cs.CV, cs.AI, cs.GR

发布日期: 2024-05-29 (更新: 2024-09-13)

备注: Project Page: see https://simongiebenhain.github.io/NPGA/ ; Youtube Video: see https://youtu.be/t0S0OK7WnA4

期刊: SIGGRAPH Asia 2024 Conference Papers (SA Conference Papers '24), December 3-6, 2024, Tokyo, Japan

DOI: 10.1145/3680528.3687689


💡 一句话要点

提出神经参数高斯头像(NPGA),用于高保真、可控人头数字重建与实时渲染。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经参数头像 3D高斯溅射 神经渲染 人脸重建 动态头像 表情建模 多视角视频

📋 核心要点

  1. 现有数字人头像重建方法难以兼顾照片级真实感和实时渲染性能,尤其是在表情丰富的动态头像建模方面。
  2. NPGA利用3D高斯溅射的高效渲染特性,并结合神经参数头部模型(NPHM)的表情控制能力,实现高保真动态头像建模。
  3. 实验表明,NPGA在NeRSemble数据集上优于现有技术,PSNR提升2.6,并能从单目视频中生成精确的动画。

📝 摘要(中文)

本文提出神经参数高斯头像(NPGA),一种数据驱动的方法,用于从多视角视频记录中创建高保真、可控的头像。该方法基于3D高斯溅射,具有高效的渲染能力和点云的拓扑灵活性。与以往工作不同,NPGA将头像的动态建立在神经参数头部模型(NPHM)的丰富表情空间上,而非基于网格的3DMM。为此,我们将底层NPHM的反向变形场提炼为与基于光栅化的渲染兼容的正向变形。所有剩余的精细、表情相关的细节都从多视角视频中学习。为了提高头像的表征能力,我们提出了每个高斯的潜在特征,以调节每个图元的动态行为。为了规范这种增加的动态表达能力,我们在潜在特征和预测的动态上提出了拉普拉斯项。在公开的NeRSemble数据集上评估了该方法,结果表明NPGA在自我重演任务上显著优于之前的最先进头像,PSNR提高了2.6。此外,还展示了从真实世界单目视频中进行精确动画的能力。

🔬 方法详解

问题定义:本文旨在解决从多视角视频中创建高保真、可控的数字人头像的问题。现有方法,特别是基于3DMM的方法,在捕捉精细的表情细节和实现逼真的渲染效果方面存在局限性。同时,基于网格的方法在拓扑结构上存在限制,难以灵活地表示复杂的面部变形。

核心思路:NPGA的核心思路是将3D高斯溅射的高效渲染能力与神经参数头部模型(NPHM)的强大表情控制能力相结合。通过将NPHM的变形场提炼为可用于高斯溅射的正向变形,并学习残余的精细表情细节,NPGA能够生成既逼真又可控的动态头像。

技术框架:NPGA的整体框架包括以下几个主要模块:1) 使用NPHM进行粗略的头部姿态和表情估计;2) 将NPHM的反向变形场转换为正向变形,用于初始化3D高斯参数;3) 使用多视角视频数据,通过优化高斯参数和学习每个高斯的潜在特征,来精细化头像的几何和外观;4) 使用光栅化渲染器进行实时渲染。

关键创新:NPGA的关键创新在于:1) 将神经参数头部模型(NPHM)与3D高斯溅射相结合,利用NPHM的表情控制能力和高斯溅射的高效渲染能力;2) 提出了一种将NPHM反向变形场转换为正向变形的方法,使其能够与基于光栅化的渲染兼容;3) 引入了每个高斯的潜在特征,以增强头像的动态表达能力,并使用拉普拉斯正则化来约束这些特征。

关键设计:NPGA的关键设计包括:1) 使用NPHM的blendshape参数作为高斯溅射的动态控制信号;2) 设计了专门的损失函数,包括光度损失、深度损失和正则化损失,以优化高斯参数和潜在特征;3) 使用拉普拉斯正则化来约束潜在特征和预测的动态,以避免过拟合和提高泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NPGA在NeRSemble数据集上进行了评估,结果表明,在自我重演任务中,NPGA的PSNR比之前的最先进方法提高了2.6。此外,NPGA还展示了从真实世界单目视频中进行精确动画的能力,证明了其在实际应用中的潜力。这些实验结果表明,NPGA在生成高保真、可控的动态头像方面具有显著优势。

🎯 应用场景

NPGA技术可广泛应用于虚拟现实、增强现实、游戏、视频会议等领域。它能够创建高度逼真且可控的数字人头像,为用户提供更沉浸式和个性化的体验。此外,该技术还可以用于电影制作、数字内容创作等领域,提高内容生成的效率和质量。未来,NPGA有望成为构建数字世界的重要基石。

📄 摘要(原文)

The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. For increased representational capacity of our avatars, we propose per-Gaussian latent features that condition each primitives dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.