Expressive Whole-Body 3D Gaussian Avatar
作者: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
分类: cs.CV
发布日期: 2024-07-31
备注: Accepted to ECCV 2024. Project page: https://mks0601.github.io/ExAvatar/
💡 一句话要点
提出ExAvatar,一种基于单目视频学习的具有表情和手部动作的全身3D高斯人像
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D人像建模 高斯溅射 参数化模型 单目视频 表情动画 SMPL-X 混合表示 连接性正则化
📋 核心要点
- 现有3D人体建模方法通常只支持身体运动,缺乏对面部表情和手部动作的建模能力。
- ExAvatar通过结合SMPL-X参数化模型和3D高斯溅射,实现了具有表情和手部动作的全身3D人像。
- 该方法利用基于连接性的正则化器,有效减少了新表情和姿势下的伪影,提升了动画效果。
📝 摘要(中文)
本文提出ExAvatar,一种从短单目视频中学习到的具有表现力的全身3D人像。ExAvatar结合了全身参数化网格模型(SMPL-X)和3D高斯溅射(3DGS)。主要挑战在于:1)视频中面部表情和姿势的多样性有限;2)缺乏3D观测数据,如3D扫描和RGBD图像。视频多样性不足使得新表情和姿势的动画变得困难。此外,缺乏3D观测可能导致视频中未观察到的人体部位出现显著的模糊性,从而在新动作下产生明显的伪影。为了解决这些问题,我们引入了网格和3D高斯的混合表示。我们的混合表示将每个3D高斯视为表面上的一个顶点,顶点之间具有预定义的连接信息(即三角形面),遵循SMPL-X的网格拓扑结构。这使得我们的ExAvatar可以通过SMPL-X的面部表情空间驱动,从而实现具有新面部表情的动画。此外,通过使用基于连接性的正则化器,我们显著减少了新面部表情和姿势中的伪影。
🔬 方法详解
问题定义:现有方法难以从单目视频中重建具有丰富表情和手部动作的全身3D人像。主要痛点在于单目视频提供的3D信息不足,且缺乏足够多样的表情和姿势数据,导致新姿态和表情下的伪影严重。
核心思路:论文的核心思路是结合参数化模型SMPL-X的先验知识和3D高斯溅射的灵活性,构建一个混合表示。SMPL-X提供人体结构和表情的先验,3D高斯溅射负责精细几何和外观的建模。通过这种混合表示,可以利用SMPL-X的表情空间驱动3D高斯人像,并使用正则化器约束高斯分布,从而减少伪影。
技术框架:ExAvatar的整体框架包含以下几个主要步骤:1) 从单目视频中估计SMPL-X参数,包括身体姿势、形状和表情参数。2) 将SMPL-X网格的顶点作为3D高斯分布的中心,并初始化高斯分布的协方差和颜色。3) 使用基于连接性的正则化器优化高斯分布的参数,使其更好地拟合观测到的图像。4) 通过改变SMPL-X的表情参数,驱动3D高斯人像产生新的表情。
关键创新:最重要的创新点在于将参数化模型和3D高斯溅射相结合,并利用SMPL-X的拓扑结构对3D高斯进行正则化。这种混合表示既能利用参数化模型的先验知识,又能保持3D高斯溅射的灵活性,从而实现高质量的表情和姿势动画。与现有方法相比,ExAvatar能够更好地处理单目视频中信息不足的问题,并生成更逼真的人像。
关键设计:关键设计包括:1) 基于SMPL-X网格拓扑的连接性正则化器,用于约束相邻高斯分布的参数,减少伪影。2) 使用L1损失和感知损失来优化高斯分布的颜色,使其更好地拟合观测到的图像。3) 使用SMPL-X的表情空间作为驱动信号,控制3D高斯人像的表情变化。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了ExAvatar的有效性。实验结果表明,ExAvatar能够从短单目视频中生成具有逼真表情和手部动作的全身3D人像。与现有方法相比,ExAvatar在表情和姿势动画方面表现出更好的效果,能够生成更少的伪影,并更好地保留细节。实验还表明,基于连接性的正则化器能够显著提升ExAvatar的性能。
🎯 应用场景
ExAvatar具有广泛的应用前景,例如虚拟现实、增强现实、游戏、社交媒体和远程会议等。它可以用于创建个性化的3D化身,用于虚拟互动和内容创作。该技术还可以用于生成具有逼真表情和动作的数字替身,用于电影、电视和广告等领域。未来,该技术有望进一步发展,实现更高质量、更逼真的3D人像生成。
📄 摘要(原文)
Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.