SMPLX-Lite: A Realistic and Drivable Avatar Benchmark with Rich Geometry and Texture Annotations

📄 arXiv: 2405.19609v1 📥 PDF

作者: Yujiao Jiang, Qingmin Liao, Zhaolong Wang, Xiangru Lin, Zongqing Lu, Yuxi Zhao, Hanqing Wei, Jingrui Ye, Yu Zhang, Zhijing Shao

分类: cs.CV, cs.GR

发布日期: 2024-05-30

备注: ICME 2024;Project page: https://alex-jyj.github.io/SMPLX-Lite/


💡 一句话要点

提出SMPLX-Lite数据集和参数化模型,用于驱动逼真且可控的全身虚拟化身

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 虚拟化身 参数化模型 SMPLX-Lite 人体重建 条件变分自编码器 三维人体 服装建模

📋 核心要点

  1. 现有方法缺乏能够良好拟合服装的参数化人体模型,限制了可驱动虚拟化身的学习。
  2. 提出SMPLX-Lite-D参数化模型,在拟合详细几何信息的同时,保证关键区域的稳定性。
  3. 构建了包含多模态信息的SMPLX-Lite数据集,并训练了基于该数据集的虚拟化身生成模型。

📝 摘要(中文)

本文针对虚拟现实、3D游戏和远程呈现等应用中逼真且可控的全身虚拟化身重建问题,提出了一种新的参数化模型SMPLX-Lite-D。该模型能够拟合扫描网格的详细几何信息,同时保持面部、手部和脚部区域的几何稳定性。此外,本文还构建了SMPLX-Lite数据集,该数据集包含多视角RGB序列、关键点标注、纹理扫描网格和纹理SMPLX-Lite-D模型,是目前最全面的服装化身数据集。基于SMPLX-Lite数据集,本文训练了一个条件变分自编码器模型,该模型以人体姿势和面部关键点作为输入,生成逼真的可控人体虚拟化身。

🔬 方法详解

问题定义:现有的人体数据集要么只有图像,要么只有带纹理的模型,缺乏能够很好地拟合服装的参数化模型。这使得学习可驱动的虚拟化身变得困难,因为需要一个具有统一拓扑结构的合理参数化人体模型。现有方法难以兼顾几何细节和关键区域的稳定性。

核心思路:本文的核心思路是设计一个新的参数化模型SMPLX-Lite-D,该模型能够在拟合扫描网格的详细几何信息的同时,保持面部、手部和脚部区域的几何稳定性。通过这种方式,模型可以更好地捕捉服装的细节,并提供更稳定的驱动性能。

技术框架:本文的技术框架主要包括以下几个部分:1) 构建SMPLX-Lite数据集,该数据集包含多视角RGB序列、关键点标注、纹理扫描网格和纹理SMPLX-Lite-D模型;2) 设计SMPLX-Lite-D参数化模型,该模型能够拟合详细几何信息并保持关键区域的稳定性;3) 训练一个条件变分自编码器模型,该模型以人体姿势和面部关键点作为输入,生成逼真的可控人体虚拟化身。

关键创新:本文最重要的技术创新点在于提出了SMPLX-Lite-D参数化模型。与现有的参数化模型相比,SMPLX-Lite-D能够更好地拟合服装的细节,并提供更稳定的驱动性能。此外,SMPLX-Lite数据集的构建也为相关研究提供了丰富的数据资源。

关键设计:SMPLX-Lite-D模型的具体设计细节未知,论文中可能没有详细描述其内部结构和参数设置。条件变分自编码器模型的损失函数和网络结构等细节也未知,需要参考论文原文才能确定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

本文构建了目前最全面的服装化身数据集SMPLX-Lite,并提出了SMPLX-Lite-D参数化模型,该模型能够更好地拟合服装的细节,并提供更稳定的驱动性能。通过在SMPLX-Lite数据集上训练条件变分自编码器模型,可以生成逼真的可控人体虚拟化身。具体的性能数据和提升幅度未知,需要参考论文原文。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、3D游戏、远程呈现等领域。通过SMPLX-Lite数据集和参数化模型,可以更方便地创建逼真且可控的虚拟化身,从而提升用户在这些应用中的体验。此外,该研究还可以促进服装设计、虚拟试衣等领域的发展。

📄 摘要(原文)

Recovering photorealistic and drivable full-body avatars is crucial for numerous applications, including virtual reality, 3D games, and tele-presence. Most methods, whether reconstruction or generation, require large numbers of human motion sequences and corresponding textured meshes. To easily learn a drivable avatar, a reasonable parametric body model with unified topology is paramount. However, existing human body datasets either have images or textured models and lack parametric models which fit clothes well. We propose a new parametric model SMPLX-Lite-D, which can fit detailed geometry of the scanned mesh while maintaining stable geometry in the face, hand and foot regions. We present SMPLX-Lite dataset, the most comprehensive clothing avatar dataset with multi-view RGB sequences, keypoints annotations, textured scanned meshes, and textured SMPLX-Lite-D models. With the SMPLX-Lite dataset, we train a conditional variational autoencoder model that takes human pose and facial keypoints as input, and generates a photorealistic drivable human avatar.