HyperGaussians: High-Dimensional Gaussian Splatting for High-Fidelity Animatable Face Avatars

📄 arXiv: 2507.02803v2 📥 PDF

作者: Gent Serifi, Marcel C. Bühler

分类: cs.CV, cs.GR

发布日期: 2025-07-03 (更新: 2025-07-08)

备注: Project page: https://gserifi.github.io/HyperGaussians, Code: https://github.com/gserifi/HyperGaussians


💡 一句话要点

提出HyperGaussians,用于高保真可动画人脸头像的3D高斯溅射扩展。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 人脸头像 可动画模型 高维高斯 逆协方差技巧

📋 核心要点

  1. 现有3D高斯溅射方法在处理人脸动画时,难以捕捉非线性变形、复杂光照和精细细节,导致动画头像真实感不足。
  2. 论文提出HyperGaussians,将3D高斯扩展到高维多元高斯,通过局部嵌入条件化提高表达能力,从而更精细地建模人脸。
  3. 通过逆协方差技巧优化计算效率,HyperGaussians能无缝集成到现有模型,实验表明其在高频细节上优于传统3DGS。

📝 摘要(中文)

本文提出HyperGaussians,一种用于高质量可动画人脸头像的3D高斯溅射的新扩展。从视频创建这种精细的人脸头像是一个具有挑战性的问题,并在增强现实和虚拟现实中具有许多应用。虽然静态人脸已经取得了巨大的成功,但来自单目视频的可动画头像仍然存在恐怖谷效应。目前的事实标准3D高斯溅射(3DGS)通过3D高斯基元的集合来表示人脸。3DGS擅长渲染静态人脸,但现有技术仍然难以处理非线性变形、复杂的光照效果和精细的细节。虽然大多数相关工作侧重于从表情代码预测更好的高斯参数,但我们重新思考了3D高斯表示本身以及如何使其更具表现力。我们的见解促使我们将3D高斯扩展到高维多元高斯,称为“HyperGaussians”。更高的维度通过对可学习的局部嵌入进行条件化来提高表现力。然而,溅射HyperGaussians在计算上是昂贵的,因为它需要反转高维协方差矩阵。我们通过重新参数化协方差矩阵来解决这个问题,称为“逆协方差技巧”。这个技巧提高了效率,因此HyperGaussians可以无缝地集成到现有模型中。为了证明这一点,我们将HyperGaussians插入到快速单目人脸头像的最新技术FlashAvatar中。我们对来自4个人脸数据集的19个受试者的评估表明,HyperGaussians在数值和视觉上都优于3DGS,尤其是在高频细节方面,如眼镜框、牙齿、复杂的面部运动和镜面反射。

🔬 方法详解

问题定义:论文旨在解决从单目视频重建高质量、可动画人脸头像的问题。现有的3D高斯溅射方法在处理复杂面部表情、光照变化以及高频细节(如眼镜、牙齿)时存在不足,导致重建的人脸头像不够逼真,存在恐怖谷效应。

核心思路:核心思路是增强3D高斯表示的表达能力。通过将传统的3D高斯扩展到高维多元高斯(HyperGaussians),并引入可学习的局部嵌入作为条件,使得高斯分布能够更好地适应局部几何和纹理的变化。这种高维表示能够捕捉更精细的细节和更复杂的变形。

技术框架:整体框架是将HyperGaussians集成到现有的3D高斯溅射流程中。具体而言,首先使用现有的方法(如FlashAvatar)初始化3D高斯参数。然后,将3D高斯扩展为HyperGaussians,并引入一个可学习的局部嵌入。在渲染过程中,根据视角和表情参数,对HyperGaussians进行变换和投影,最终生成图像。关键在于高效地计算和渲染高维高斯分布。

关键创新:最重要的创新点是将3D高斯扩展到高维多元高斯(HyperGaussians)。与传统的3D高斯相比,HyperGaussians具有更高的表达能力,能够捕捉更精细的细节和更复杂的变形。此外,论文还提出了“逆协方差技巧”,通过重新参数化协方差矩阵,显著提高了高维高斯分布的计算效率。

关键设计:关键设计包括:1) 高维高斯分布的维度选择:需要根据具体应用场景进行调整,以平衡表达能力和计算复杂度。2) 局部嵌入的设计:局部嵌入用于对高斯分布进行条件化,需要选择合适的网络结构和损失函数进行训练。3) 逆协方差技巧:通过将协方差矩阵表示为其逆矩阵的Cholesky分解,避免了直接计算协方差矩阵的逆,从而提高了计算效率。4) 损失函数:除了传统的图像重建损失外,还可以引入正则化项,以防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HyperGaussians在数值和视觉上都优于传统的3DGS方法。尤其是在高频细节方面,如眼镜框、牙齿、复杂的面部运动和镜面反射,HyperGaussians能够生成更逼真的效果。在多个公开人脸数据集上进行了评估,结果显示HyperGaussians能够显著降低重建误差,并提高人脸头像的真实感。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、数字人、游戏、视频会议等领域。高质量的可动画人脸头像能够提升用户在虚拟环境中的沉浸感和交互体验。例如,在虚拟会议中,用户可以使用逼真的虚拟形象进行交流;在游戏中,可以使用个性化的角色进行游戏;在电影制作中,可以用于创建逼真的数字演员。

📄 摘要(原文)

We introduce HyperGaussians, a novel extension of 3D Gaussian Splatting for high-quality animatable face avatars. Creating such detailed face avatars from videos is a challenging problem and has numerous applications in augmented and virtual reality. While tremendous successes have been achieved for static faces, animatable avatars from monocular videos still fall in the uncanny valley. The de facto standard, 3D Gaussian Splatting (3DGS), represents a face through a collection of 3D Gaussian primitives. 3DGS excels at rendering static faces, but the state-of-the-art still struggles with nonlinear deformations, complex lighting effects, and fine details. While most related works focus on predicting better Gaussian parameters from expression codes, we rethink the 3D Gaussian representation itself and how to make it more expressive. Our insights lead to a novel extension of 3D Gaussians to high-dimensional multivariate Gaussians, dubbed 'HyperGaussians'. The higher dimensionality increases expressivity through conditioning on a learnable local embedding. However, splatting HyperGaussians is computationally expensive because it requires inverting a high-dimensional covariance matrix. We solve this by reparameterizing the covariance matrix, dubbed the 'inverse covariance trick'. This trick boosts the efficiency so that HyperGaussians can be seamlessly integrated into existing models. To demonstrate this, we plug in HyperGaussians into the state-of-the-art in fast monocular face avatars: FlashAvatar. Our evaluation on 19 subjects from 4 face datasets shows that HyperGaussians outperform 3DGS numerically and visually, particularly for high-frequency details like eyeglass frames, teeth, complex facial movements, and specular reflections.