Generating Editable Head Avatars with 3D Gaussian GANs

📄 arXiv: 2412.19149v1 📥 PDF

作者: Guohao Li, Hongyu Yang, Yifang Men, Di Huang, Weixin Li, Ruijie Yang, Yunhong Wang

分类: cs.CV

发布日期: 2024-12-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于3D高斯GAN的可编辑头部Avatar生成方法,提升可控性和真实感。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 可编辑头部Avatar 3DMM 生成对抗网络 神经渲染

📋 核心要点

  1. 现有基于NeRF的3D头部生成方法在形变灵活性和可编辑性方面存在不足,难以生成逼真且易于修改的3D头部。
  2. 论文提出结合3D高斯溅射(3DGS)的显式3D表示方法,并设计可编辑高斯头部(EG-Head)模型,提升头部Avatar的可编辑性和动画控制能力。
  3. 实验结果表明,该方法能够实现高质量的3D感知合成,并具有优越的可控性,在头部Avatar生成领域达到state-of-the-art水平。

📝 摘要(中文)

本文提出了一种新颖的方法,通过结合3D高斯溅射(3DGS)作为显式3D表示,增强了3D头部Avatar的可编辑性和动画控制能力。传统基于GAN的3D感知方法,如神经辐射场(NeRF),在生成逼真且视角一致的3D头部方面表现出色,但在形变灵活性和可编辑性方面存在局限。该方法通过引入3DGS,实现了更简便的光照控制和更强的编辑能力。核心是可编辑高斯头部(EG-Head)模型,它将3D形变模型(3DMM)与纹理贴图相结合,实现了精确的表情控制和灵活的纹理编辑,从而在保持身份信息的同时实现精确的动画效果。为了捕捉头发等复杂的非面部几何结构,使用了辅助的3DGS和三平面特征。大量实验表明,该方法能够实现高质量的3D感知合成,并具有最先进的可控性。

🔬 方法详解

问题定义:现有基于隐式场(如NeRF)的3D头部生成方法,虽然能生成逼真的3D头部,但在形变灵活性和可编辑性上存在瓶颈。难以实现精细的表情控制和纹理编辑,限制了其在动画和个性化Avatar生成中的应用。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)作为显式的3D表示,替代隐式场。3DGS具有可微渲染的特性,并且参数化表示更易于控制和编辑。结合3DMM和纹理贴图,实现对头部Avatar的精确表情控制和灵活纹理编辑。

技术框架:整体框架包含以下几个主要模块:1) 3DMM参数估计模块,用于提取人脸的3DMM参数;2) EG-Head模型,将3DMM参数和纹理贴图结合,生成基础的头部几何和纹理;3) 辅助3DGS和三平面特征模块,用于捕捉头发等非面部几何细节;4) 可微渲染模块,将3DGS表示渲染成2D图像,并与真实图像进行比较,优化模型参数。

关键创新:最重要的创新点在于将3DGS引入到可编辑头部Avatar生成中,并设计了EG-Head模型。与基于NeRF的方法相比,3DGS具有更强的可控性和编辑性,能够实现更精细的表情控制和纹理编辑。此外,使用辅助的3DGS和三平面特征来建模非面部几何结构,进一步提升了生成Avatar的真实感。

关键设计:EG-Head模型将3DMM参数作为控制表情的关键,通过调整3DMM参数可以实现不同的表情。纹理贴图用于控制Avatar的颜色和细节。辅助3DGS和三平面特征通过学习的方式来捕捉头发等非面部几何结构。损失函数包括图像重建损失、对抗损失和正则化损失,用于保证生成图像的质量和模型的稳定性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在3D头部Avatar生成质量和可控性方面均优于现有方法。通过与基于NeRF的方法进行对比,该方法在生成图像的清晰度、细节和视角一致性方面均有显著提升。此外,该方法能够实现精细的表情控制和纹理编辑,为用户提供了更大的创作空间。具体的性能数据未知。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏、社交媒体等领域。例如,可以用于创建个性化的3D Avatar,用于在线会议、虚拟社交等场景。此外,还可以应用于电影制作、动画制作等领域,提高内容创作的效率和质量。未来,该技术有望进一步发展,实现更加逼真、可控的数字人生成。

📄 摘要(原文)

Generating animatable and editable 3D head avatars is essential for various applications in computer vision and graphics. Traditional 3D-aware generative adversarial networks (GANs), often using implicit fields like Neural Radiance Fields (NeRF), achieve photorealistic and view-consistent 3D head synthesis. However, these methods face limitations in deformation flexibility and editability, hindering the creation of lifelike and easily modifiable 3D heads. We propose a novel approach that enhances the editability and animation control of 3D head avatars by incorporating 3D Gaussian Splatting (3DGS) as an explicit 3D representation. This method enables easier illumination control and improved editability. Central to our approach is the Editable Gaussian Head (EG-Head) model, which combines a 3D Morphable Model (3DMM) with texture maps, allowing precise expression control and flexible texture editing for accurate animation while preserving identity. To capture complex non-facial geometries like hair, we use an auxiliary set of 3DGS and tri-plane features. Extensive experiments demonstrate that our approach delivers high-quality 3D-aware synthesis with state-of-the-art controllability. Our code and models are available at https://github.com/liguohao96/EGG3D.