Gaussian Eigen Models for Human Heads
作者: Wojciech Zielonka, Timo Bolkart, Thabo Beeler, Justus Thies
分类: cs.CV
发布日期: 2024-07-05 (更新: 2025-03-31)
备注: Accepted to CVPR25 Website: https://zielon.github.io/gem/
💡 一句话要点
提出高斯特征模型(GEM),用于创建轻量级、高质量且易于控制的人头化身。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人头化身 3D高斯 高斯溅射 线性特征基 表情重演 神经渲染 3D形变人脸模型
📋 核心要点
- 现有神经人头化身模型在质量和计算效率之间存在trade-off,轻量级模型细节不足,高质量模型计算量大。
- 论文提出高斯特征模型(GEM),利用3D高斯基元表示外观,并结合线性特征基高效生成特定头部形状。
- 实验表明,GEM在自我重演和跨人重演任务中,相比现有3D化身方法,具有更高的视觉质量和更好的表情泛化能力。
📝 摘要(中文)
当前个性化神经人头化身面临一个权衡:轻量级模型缺乏细节和真实感,而高质量、可动画的化身需要大量的计算资源,使其不适用于普通设备。为了解决这个差距,我们引入了高斯特征模型(GEM),它提供了高质量、轻量级且易于控制的人头化身。GEM利用3D高斯基元来表示外观,并结合高斯溅射进行渲染。基于基于网格的3D形变人脸模型(3DMM)的成功,我们将GEM定义为线性特征基的集合,用于表示特定对象的人头外观。特别是,我们构建线性基来表示3D高斯的位置、尺度、旋转和不透明度。这允许我们通过基向量的线性组合来有效地生成特定头部形状的高斯基元,只需要一个包含相应系数的低维参数向量。我们建议通过提炼高质量的、计算密集型的基于CNN的高斯化身模型来构建这些线性基(GEM),这些模型可以生成依赖于表情的外观变化,如皱纹。这些高质量的模型是在对象的多视角视频上训练的,并使用一系列主成分分析进行提炼。一旦我们获得了表示特定人的可动画外观空间的基,我们就学习一个回归器,该回归器以单个RGB图像作为输入,并预测与所示面部表情相对应的低维参数向量。在一系列实验中,我们将GEM的自我重演和跨人重演结果与最先进的3D化身方法进行比较,证明了GEM更高的视觉质量和更好的泛化到新表情的能力。
🔬 方法详解
问题定义:论文旨在解决现有神经人头化身模型在质量和计算效率之间的矛盾。现有方法要么是轻量级的,但缺乏细节和真实感;要么是高质量的,但需要大量的计算资源,难以在普通设备上运行。因此,需要一种既能保证高质量,又能保持轻量级和易于控制的人头化身模型。
核心思路:论文的核心思路是利用3D高斯基元来表示人头的外观,并结合线性特征基(GEM)来高效地生成特定头部形状的高斯基元。通过将人头外观分解为位置、尺度、旋转和不透明度等可控的线性基,可以使用低维参数向量来控制人头化身的表情和形状。这种方法既能保证高质量的渲染效果,又能降低计算复杂度。
技术框架:GEM的整体框架包括以下几个主要阶段: 1. 高质量高斯化身模型训练:首先,使用多视角视频数据训练一个基于CNN的高质量、计算密集型的高斯化身模型,该模型能够生成依赖于表情的外观变化。 2. 线性特征基(GEM)构建:通过对高质量高斯化身模型进行一系列主成分分析(PCA),提取出表示人头外观变化的线性特征基,包括位置、尺度、旋转和不透明度等。 3. 回归器训练:训练一个回归器,该回归器以单个RGB图像作为输入,并预测与所示面部表情相对应的低维参数向量。 4. 渲染:使用高斯溅射技术,根据低维参数向量和线性特征基生成最终的人头化身图像。
关键创新:论文最重要的技术创新点在于提出了高斯特征模型(GEM),它是一种基于线性特征基的3D高斯表示方法,能够高效地生成高质量的人头化身。与传统的基于网格的3D形变人脸模型(3DMM)相比,GEM能够更好地表示细节和真实感,同时具有更强的可控性。与直接使用高斯溅射的方法相比,GEM通过线性特征基降低了参数空间维度,从而提高了计算效率。
关键设计: * 线性特征基构建:通过对高质量高斯化身模型进行PCA,提取出表示人头外观变化的线性特征基,包括位置、尺度、旋转和不透明度等。PCA的维度选择需要根据实际情况进行调整,以平衡模型的表达能力和计算复杂度。 * 回归器设计:回归器可以使用各种神经网络结构,如MLP、CNN等。回归器的输入是单个RGB图像,输出是低维参数向量。回归器的训练可以使用L1损失、L2损失等。 * 损失函数:训练高质量高斯化身模型时,可以使用渲染损失、正则化损失等。渲染损失用于保证渲染图像的质量,正则化损失用于防止过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GEM在自我重演和跨人重演任务中,相比于现有最先进的3D化身方法,具有更高的视觉质量和更好的表情泛化能力。具体而言,GEM能够生成更逼真的人头化身,并能够准确地捕捉和重现各种面部表情。此外,GEM还具有更低的计算复杂度,能够在普通设备上流畅运行。
🎯 应用场景
GEM技术可广泛应用于虚拟现实、增强现实、视频会议、游戏、社交媒体等领域。它能够创建轻量级、高质量且易于控制的个性化人头化身,提升用户在虚拟环境中的沉浸感和交互体验。此外,该技术还可用于人脸动画、表情迁移、虚拟形象定制等应用,具有广阔的应用前景和商业价值。
📄 摘要(原文)
Current personalized neural head avatars face a trade-off: lightweight models lack detail and realism, while high-quality, animatable avatars require significant computational resources, making them unsuitable for commodity devices. To address this gap, we introduce Gaussian Eigen Models (GEM), which provide high-quality, lightweight, and easily controllable head avatars. GEM utilizes 3D Gaussian primitives for representing the appearance combined with Gaussian splatting for rendering. Building on the success of mesh-based 3D morphable face models (3DMM), we define GEM as an ensemble of linear eigenbases for representing the head appearance of a specific subject. In particular, we construct linear bases to represent the position, scale, rotation, and opacity of the 3D Gaussians. This allows us to efficiently generate Gaussian primitives of a specific head shape by a linear combination of the basis vectors, only requiring a low-dimensional parameter vector that contains the respective coefficients. We propose to construct these linear bases (GEM) by distilling high-quality compute-intense CNN-based Gaussian avatar models that can generate expression-dependent appearance changes like wrinkles. These high-quality models are trained on multi-view videos of a subject and are distilled using a series of principal component analyses. Once we have obtained the bases that represent the animatable appearance space of a specific human, we learn a regressor that takes a single RGB image as input and predicts the low-dimensional parameter vector that corresponds to the shown facial expression. In a series of experiments, we compare GEM's self-reenactment and cross-person reenactment results to state-of-the-art 3D avatar methods, demonstrating GEM's higher visual quality and better generalization to new expressions.