ScaffoldAvatar: High-Fidelity Gaussian Avatars with Patch Expressions
作者: Shivangi Aneja, Sebastian Weiss, Irene Baeza, Prashanth Chandran, Gaspard Zoss, Matthias Nießner, Derek Bradley
分类: cs.GR, cs.AI, cs.CV
发布日期: 2025-07-14
备注: (SIGGRAPH 2025) Paper Video: https://youtu.be/VyWkgsGdbkk Project Page: https://shivangi-aneja.github.io/projects/scaffoldavatar/
💡 一句话要点
ScaffoldAvatar:利用局部表情块实现高保真度高斯头像
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D头像 高斯溅射 面部表情 局部特征 实时渲染
📋 核心要点
- 现有全局表情空间的方法难以捕捉面部微表情和细节,限制了头像的真实感和表现力。
- ScaffoldAvatar通过将局部面部表情与3D高斯溅射结合,在patch级别合成3D高斯分布,从而实现超高保真度头像。
- 该方法利用patch表情驱动局部皮肤外观和运动,并通过颜色密集化和渐进训练加速收敛,实现SOTA性能。
📝 摘要(中文)
生成逼真3D头像的实时动画序列对于沉浸式远程呈现和电影等图形应用至关重要。尤其是在渲染数字头像特写以显示面部微特征和表情时,这是一个具有挑战性的问题。为了捕捉人头的富有表现力和细节的本质,包括皮肤褶皱和更精细的面部运动,我们提出将局部定义的面部表情与3D高斯溅射相结合,以创建超高保真度、富有表现力和逼真的3D头像。与之前在全局表情空间中运行的工作不同,我们根据基于patch的局部表情特征来调节头像的动态,并在patch级别合成3D高斯分布。我们利用基于patch的几何3D人脸模型来提取patch表情,并通过将patch与Scaffold-GS的锚点耦合,学习如何将这些表情转化为局部动态皮肤外观和运动。然后,这些锚点用于根据patch表情和视角动态合成3D高斯分布。我们采用基于颜色的密集化和渐进式训练,以获得高质量的结果,并加快高分辨率3K训练图像的收敛速度。通过利用patch级别的表情,ScaffoldAvatar始终如一地实现了最先进的性能,具有视觉上自然的运动,同时涵盖了各种面部表情和风格。
🔬 方法详解
问题定义:论文旨在解决生成高保真、富有表现力的3D人脸头像的问题,尤其是在捕捉面部微表情和细节方面。现有方法,如基于全局表情空间的方法,难以精确控制局部区域的形变和外观变化,导致头像不够逼真。此外,高分辨率训练图像的收敛速度也是一个挑战。
核心思路:论文的核心思路是将全局表情控制分解为局部patch级别的表情控制。通过将人脸划分为多个patch,并为每个patch定义独立的表情参数,可以更精细地控制面部形变和外观变化。同时,利用3D高斯溅射技术,可以高效地渲染高质量的头像。
技术框架:ScaffoldAvatar的整体框架包括以下几个主要模块:1) 基于patch的几何3D人脸模型,用于提取patch表情;2) Scaffold-GS,一种分层场景表示,提供锚点用于patch与3D高斯的耦合;3) 3D高斯合成模块,根据patch表情和视角动态生成3D高斯分布;4) 颜色密集化模块,用于提高渲染质量;5) 渐进式训练策略,用于加速收敛。
关键创新:该方法最重要的创新点在于将局部表情特征与3D高斯溅射相结合。与现有方法相比,ScaffoldAvatar不再依赖全局表情空间,而是直接在patch级别控制3D高斯分布的参数,从而实现更精细、更逼真的面部表情。此外,利用Scaffold-GS作为中间表示,可以有效地将patch表情映射到3D空间中的形变和外观变化。
关键设计:论文的关键设计包括:1) 使用基于patch的几何3D人脸模型提取patch表情;2) 利用Scaffold-GS的锚点将patch与3D高斯耦合;3) 设计颜色密集化策略以提高渲染质量;4) 采用渐进式训练策略以加速收敛。具体的损失函数和网络结构等技术细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
ScaffoldAvatar在实验中取得了最先进的性能,能够生成具有视觉上自然的运动和丰富面部表情的3D头像。通过利用patch级别的表情,该方法能够捕捉到更精细的面部细节,从而提高了头像的真实感和表现力。具体的性能数据和对比基线在论文中进行了详细描述(未知)。
🎯 应用场景
ScaffoldAvatar在沉浸式远程呈现、虚拟现实、增强现实、电影制作和游戏开发等领域具有广泛的应用前景。它可以用于创建高度逼真、富有表现力的虚拟化身,从而增强用户在虚拟环境中的交互体验。此外,该技术还可以用于生成逼真的数字替身,用于电影特效和游戏角色。
📄 摘要(原文)
Generating high-fidelity real-time animated sequences of photorealistic 3D head avatars is important for many graphics applications, including immersive telepresence and movies. This is a challenging problem particularly when rendering digital avatar close-ups for showing character's facial microfeatures and expressions. To capture the expressive, detailed nature of human heads, including skin furrowing and finer-scale facial movements, we propose to couple locally-defined facial expressions with 3D Gaussian splatting to enable creating ultra-high fidelity, expressive and photorealistic 3D head avatars. In contrast to previous works that operate on a global expression space, we condition our avatar's dynamics on patch-based local expression features and synthesize 3D Gaussians at a patch level. In particular, we leverage a patch-based geometric 3D face model to extract patch expressions and learn how to translate these into local dynamic skin appearance and motion by coupling the patches with anchor points of Scaffold-GS, a recent hierarchical scene representation. These anchors are then used to synthesize 3D Gaussians on-the-fly, conditioned by patch-expressions and viewing direction. We employ color-based densification and progressive training to obtain high-quality results and faster convergence for high resolution 3K training images. By leveraging patch-level expressions, ScaffoldAvatar consistently achieves state-of-the-art performance with visually natural motion, while encompassing diverse facial expressions and styles in real time.