GraphAvatar: Compact Head Avatars with GNN-Generated 3D Gaussians

📄 arXiv: 2412.13983v1 📥 PDF

作者: Xiaobao Wei, Peng Chen, Ming Lu, Hui Chen, Feng Tian

分类: cs.CV

发布日期: 2024-12-18

备注: accepted by AAAI2025

🔗 代码/项目: GITHUB


💡 一句话要点

GraphAvatar:利用GNN生成3D高斯模型的紧凑型头部Avatar

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 头部Avatar 图神经网络 3D高斯溅射 神经渲染 模型压缩 人脸跟踪 虚拟现实

📋 核心要点

  1. 现有基于NeRF的头部Avatar方法在保真度和效率上存在不足,而3DGS方法虽然提高了渲染质量,但存储开销巨大。
  2. GraphAvatar的核心思想是利用GNN直接生成3D高斯模型的属性,从而避免存储庞大的高斯模型,显著降低存储开销。
  3. 实验结果表明,GraphAvatar在视觉保真度和存储消耗方面超越了现有方法,并在模型大小和渲染质量之间取得了平衡。

📝 摘要(中文)

本文提出了一种名为GraphAvatar的方法,用于从任意视角渲染逼真的头部Avatar。尽管之前基于神经辐射场(NeRF)的方法取得了令人印象深刻的结果,但它们在保真度和效率方面存在不足。最近使用3D高斯溅射(3DGS)的方法提高了渲染质量和实时性能,但仍然需要大量的存储开销。GraphAvatar利用图神经网络(GNN)生成头部Avatar的3D高斯模型。具体来说,GraphAvatar训练一个几何GNN和一个外观GNN,从跟踪的网格生成3D高斯模型的属性。因此,该方法可以存储GNN模型而不是3D高斯模型,从而显著降低存储开销至仅10MB。为了减少面部跟踪误差的影响,还提出了一种新的图引导优化模块,以在训练期间优化面部跟踪参数。最后,引入了一个3D感知增强器进行后处理,以提高渲染质量。实验结果表明,GraphAvatar在视觉保真度和存储消耗方面优于现有方法。消融研究揭示了渲染质量和模型大小之间的权衡。

🔬 方法详解

问题定义:现有头部Avatar方法,如基于NeRF的方法,渲染质量和效率不高,而基于3DGS的方法虽然提升了渲染质量和实时性,但需要巨大的存储空间来存储3D高斯模型。因此,如何在保证渲染质量的同时,显著降低存储开销是一个关键问题。

核心思路:GraphAvatar的核心思路是利用图神经网络(GNN)学习从面部网格到3D高斯模型属性的映射关系。通过训练GNN,可以将3D高斯模型的属性参数化,从而只需要存储GNN模型,而无需存储庞大的3D高斯模型本身。这样可以显著降低存储开销,同时保持较高的渲染质量。

技术框架:GraphAvatar的整体框架包括三个主要模块:1) 基于面部跟踪网格的几何GNN和外观GNN,用于生成3D高斯模型的属性;2) 图引导优化模块,用于在训练过程中优化面部跟踪参数,减少跟踪误差的影响;3) 3D感知增强器,用于后处理,进一步提高渲染质量。训练时,首先利用面部跟踪数据训练GNN,然后使用图引导优化模块微调跟踪参数,最后使用3D感知增强器进行后处理。

关键创新:GraphAvatar的关键创新在于使用GNN直接生成3D高斯模型的属性,而不是直接存储或优化3D高斯模型。这使得模型大小可以显著减小,因为GNN模型的参数量远小于3D高斯模型的数量。此外,图引导优化模块和3D感知增强器也进一步提高了渲染质量。

关键设计:几何GNN和外观GNN的网络结构未知,但它们分别负责生成3D高斯模型的位置、缩放和旋转等几何属性,以及颜色和不透明度等外观属性。图引导优化模块的具体实现方式未知,但其目标是最小化渲染结果与真实图像之间的差异,从而优化面部跟踪参数。3D感知增强器的具体实现方式也未知,但其利用了3D信息来提高渲染质量,例如通过锐化边缘或平滑表面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GraphAvatar在视觉保真度和存储消耗方面均优于现有方法。该方法将存储开销降低到仅10MB,同时保持了较高的渲染质量。消融研究表明,图引导优化模块和3D感知增强器均对渲染质量有显著提升。具体性能数据和对比基线未知,但论文强调了在模型大小和渲染质量之间的良好权衡。

🎯 应用场景

GraphAvatar在虚拟现实、增强现实、视频会议、游戏等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身,用于远程交流、虚拟社交、游戏角色定制等。通过降低存储开销,GraphAvatar使得在移动设备或低带宽环境下部署高质量的头部Avatar成为可能,从而推动相关应用的发展。

📄 摘要(原文)

Rendering photorealistic head avatars from arbitrary viewpoints is crucial for various applications like virtual reality. Although previous methods based on Neural Radiance Fields (NeRF) can achieve impressive results, they lack fidelity and efficiency. Recent methods using 3D Gaussian Splatting (3DGS) have improved rendering quality and real-time performance but still require significant storage overhead. In this paper, we introduce a method called GraphAvatar that utilizes Graph Neural Networks (GNN) to generate 3D Gaussians for the head avatar. Specifically, GraphAvatar trains a geometric GNN and an appearance GNN to generate the attributes of the 3D Gaussians from the tracked mesh. Therefore, our method can store the GNN models instead of the 3D Gaussians, significantly reducing the storage overhead to just 10MB. To reduce the impact of face-tracking errors, we also present a novel graph-guided optimization module to refine face-tracking parameters during training. Finally, we introduce a 3D-aware enhancer for post-processing to enhance the rendering quality. We conduct comprehensive experiments to demonstrate the advantages of GraphAvatar, surpassing existing methods in visual fidelity and storage consumption. The ablation study sheds light on the trade-offs between rendering quality and model size. The code will be released at: https://github.com/ucwxb/GraphAvatar