Generalizable and Animatable Gaussian Head Avatar

📄 arXiv: 2410.07971v1 📥 PDF

作者: Xuangeng Chu, Tatsuya Harada

分类: cs.CV, cs.GR

发布日期: 2024-10-10

备注: NeurIPS 2024, code is available at https://github.com/xg-chu/GAGAvatar, more demos are available at https://xg-chu.site/project_gagavatar

🔗 代码/项目: GITHUB


💡 一句话要点

提出GAGAvatar,通过单张图像生成可泛化和可动画的高斯头部头像。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 头部头像重建 3D高斯 可动画头像 单样本学习 实时渲染

📋 核心要点

  1. 现有神经辐射场方法重建头部头像渲染消耗大、重演速度慢,难以满足实时性需求。
  2. 提出双重提升方法,从单张图像直接生成3D高斯参数,捕捉身份和面部细节,实现高效重建。
  3. 实验表明,该方法在重建质量和表情准确性上优于现有方法,并能实时渲染。

📝 摘要(中文)

本文提出了一种可泛化和可动画的高斯头部头像(GAGAvatar)方法,用于单样本可动画头部头像重建。现有方法依赖于神经辐射场,导致渲染消耗大且重演速度慢。为了解决这些限制,我们通过单次前向传播,从单张图像中生成3D高斯参数。我们工作的关键创新在于提出的双重提升方法,该方法生成高保真3D高斯,捕捉身份和面部细节。此外,我们利用全局图像特征和3D形变模型来构建3D高斯,以控制表情。经过训练后,我们的模型无需特定优化即可重建未见过的身份,并以实时速度执行重演渲染。实验表明,我们的方法在重建质量和表情准确性方面均优于以往的方法。我们相信我们的方法可以为未来的研究建立新的基准,并推动数字头像的应用。

🔬 方法详解

问题定义:现有头部头像重建方法,特别是基于神经辐射场的方法,存在渲染计算量大、重演速度慢的问题,难以满足实时应用的需求。此外,这些方法通常需要针对特定身份进行优化,泛化能力较弱。因此,需要一种能够从单张图像快速生成高质量、可动画,且具有良好泛化能力的头部头像重建方法。

核心思路:GAGAvatar的核心思路是从单张图像直接预测3D高斯参数,避免了神经辐射场的体渲染过程,从而显著提高了渲染速度。通过双重提升方法,从图像特征中提取身份和面部细节信息,并将其编码到3D高斯参数中。同时,利用全局图像特征和3D形变模型来控制表情,实现可动画性。

技术框架:GAGAvatar的整体框架包括以下几个主要模块:1) 特征提取模块:从输入图像中提取全局图像特征。2) 双重提升模块:利用提取的特征生成3D高斯参数,包括位置、旋转、缩放和颜色等。该模块是核心创新点。3) 表情控制模块:利用全局图像特征和3D形变模型(3DMM)参数来调整3D高斯参数,实现表情控制。4) 渲染模块:将3D高斯投影到2D图像平面,并进行渲染,生成最终的头部头像。

关键创新:最关键的创新点在于提出的双重提升方法。该方法通过两个独立的提升过程,分别提取身份信息和面部细节信息,并将它们融合到3D高斯参数中。与直接预测3D高斯参数的方法相比,双重提升方法能够更好地捕捉细粒度的面部特征,从而提高重建质量。此外,直接预测3D高斯参数也避免了传统神经辐射场方法中耗时的体渲染过程,显著提升了渲染速度。

关键设计:在双重提升模块中,使用了两个独立的神经网络来分别提取身份信息和面部细节信息。损失函数包括重建损失、正则化损失和表情损失等。重建损失用于保证重建图像的质量,正则化损失用于约束3D高斯参数的分布,表情损失用于保证表情控制的准确性。网络结构细节和参数设置在论文中有详细描述,具体可以参考开源代码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAGAvatar在重建质量和表情准确性方面均优于现有方法。与基于神经辐射场的方法相比,GAGAvatar的渲染速度提高了几个数量级,实现了实时渲染。此外,该方法在未见过的身份上表现出良好的泛化能力,无需针对特定身份进行优化。开源代码和演示视频也进一步验证了该方法的有效性。

🎯 应用场景

GAGAvatar具有广泛的应用前景,包括虚拟会议、游戏、社交媒体和个性化教育等领域。它可以用于创建逼真的数字头像,增强用户在虚拟环境中的沉浸感和交互性。此外,该方法还可以用于生成个性化的动画内容,例如定制化的表情包和虚拟形象。未来,该技术有望应用于更广泛的领域,例如远程医疗和虚拟现实治疗。

📄 摘要(原文)

In this paper, we propose Generalizable and Animatable Gaussian head Avatar (GAGAvatar) for one-shot animatable head avatar reconstruction. Existing methods rely on neural radiance fields, leading to heavy rendering consumption and low reenactment speeds. To address these limitations, we generate the parameters of 3D Gaussians from a single image in a single forward pass. The key innovation of our work is the proposed dual-lifting method, which produces high-fidelity 3D Gaussians that capture identity and facial details. Additionally, we leverage global image features and the 3D morphable model to construct 3D Gaussians for controlling expressions. After training, our model can reconstruct unseen identities without specific optimizations and perform reenactment rendering at real-time speeds. Experiments show that our method exhibits superior performance compared to previous methods in terms of reconstruction quality and expression accuracy. We believe our method can establish new benchmarks for future research and advance applications of digital avatars. Code and demos are available https://github.com/xg-chu/GAGAvatar.