GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
作者: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
分类: cs.CV, cs.AI
发布日期: 2024-09-06 (更新: 2025-04-16)
备注: Camera ready for CVSports workshop at CVPR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
GST:利用高斯溅射Transformer从单张图像精确重建3D人体模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D人体重建 高斯溅射 Transformer网络 单目图像 多视角监督
📋 核心要点
- 现有方法难以在单目图像中精确重建具有复杂姿态和服装的3D人体模型,尤其是在缺乏3D ground truth的情况下。
- 利用SMPL网格顶点作为高斯分布的初始位置,并使用Transformer网络预测高斯参数和SMPL参数的调整量。
- 该方法仅使用多视角监督,实现了近实时的单目3D人体重建,并在姿态估计方面有所提升。
📝 摘要(中文)
本文提出了一种从单目图像重建3D人体模型的方案,该方案结合了3D人体姿态和形状估计与3D高斯溅射(3DGS)。3DGS是一种由高斯混合组成的场景表示方法。该方法允许仅使用多视角图像来训练或微调人体模型预测器,而无需3D ground truth。由于自遮挡和对关节的依赖性,以及需要保持足够的灵活性以适应各种服装和姿势,因此从单个输入图像预测人体混合高斯分布具有挑战性。我们的关键观察是,标准人体网格(如SMPL)的顶点可以为高斯分布提供足够的空间密度和近似初始位置。然后,我们可以训练一个Transformer模型来联合预测这些位置的相对较小的调整,以及其他3DGS属性和SMPL参数。实验表明,这种组合(仅使用多视角监督)可以实现从单个图像近乎实时地推断3D人体模型,而无需昂贵的扩散模型或3D点监督,因此非常适合任何级别的体育行业。更重要的是,渲染是一种有效的辅助目标,可以通过考虑服装和其他几何变化来细化3D姿态估计。代码已在https://github.com/prosperolo/GST上提供。
🔬 方法详解
问题定义:论文旨在解决从单张图像中精确重建3D人体模型的问题。现有方法通常依赖于大量的3D ground truth数据,或者难以处理自遮挡、服装变化和复杂姿态带来的挑战。这些痛点限制了其在实际场景中的应用,尤其是在体育等需要实时性和灵活性的领域。
核心思路:论文的核心思路是将3D人体重建问题转化为高斯溅射参数的预测问题。通过利用SMPL模型提供的先验知识,将SMPL网格的顶点作为高斯分布的初始位置,从而减少了搜索空间。然后,使用Transformer网络学习高斯参数的调整量,从而能够更好地适应不同的姿态和服装。这种方法避免了直接预测复杂的3D结构,降低了学习难度。
技术框架:该方法主要包含以下几个模块:1) SMPL参数预测模块:用于预测SMPL模型的参数,提供人体的大致形状和姿态。2) 高斯初始化模块:利用SMPL模型的顶点初始化高斯分布的位置。3) Transformer预测模块:使用Transformer网络预测高斯分布的位置调整量、颜色、不透明度等参数,以及SMPL参数的微调。4) 渲染模块:使用高斯溅射渲染技术将高斯分布渲染成图像,并计算渲染损失。整体流程是从单张图像输入开始,经过SMPL参数预测和高斯初始化,然后通过Transformer网络进行参数调整,最后通过渲染模块进行优化。
关键创新:该方法最重要的技术创新点在于将3D人体重建问题与高斯溅射技术相结合,并利用Transformer网络进行参数预测。这种结合使得模型能够有效地利用SMPL模型的先验知识,并学习到高斯分布的精细调整量,从而实现精确的3D人体重建。与现有方法相比,该方法不需要3D ground truth数据,并且能够更好地处理自遮挡和服装变化。
关键设计:在Transformer网络的设计上,论文采用了encoder-decoder结构,encoder用于提取图像特征,decoder用于预测高斯参数的调整量和SMPL参数的微调。损失函数包括渲染损失、SMPL参数损失和正则化损失。渲染损失用于约束重建的3D模型与输入图像的一致性,SMPL参数损失用于约束SMPL参数的合理性,正则化损失用于防止过拟合。具体的参数设置和网络结构细节可以在论文的实验部分找到。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在仅使用多视角监督的情况下,能够实现近实时的单目3D人体重建,并且在姿态估计方面取得了显著的提升。与现有方法相比,该方法不需要3D ground truth数据,并且能够更好地处理自遮挡和服装变化。具体的性能数据和对比基线可以在论文的实验部分找到。
🎯 应用场景
该研究成果在体育产业中具有广泛的应用前景,例如运动员的运动跟踪、损伤预防和虚拟训练。此外,该技术还可以应用于虚拟现实、增强现实、游戏开发等领域,为用户提供更加逼真和个性化的3D人体模型。未来,该技术有望进一步发展,实现更加精确和鲁棒的3D人体重建,并应用于更多实际场景。
📄 摘要(原文)
Reconstructing posed 3D human models from monocular images has important applications in the sports industry, including performance tracking, injury prevention and virtual training. In this work, we combine 3D human pose and shape estimation with 3D Gaussian Splatting (3DGS), a representation of the scene composed of a mixture of Gaussians. This allows training or fine-tuning a human model predictor on multi-view images alone, without 3D ground truth. Predicting such mixtures for a human from a single input image is challenging due to self-occlusions and dependence on articulations, while also needing to retain enough flexibility to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate spatial density and approximate initial position for the Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other 3DGS attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve near real-time inference of 3D human models from a single image without expensive diffusion models or 3D points supervision, thus making it ideal for the sport industry at any level. More importantly, rendering is an effective auxiliary objective to refine 3D pose estimation by accounting for clothes and other geometric variations. The code is available at https://github.com/prosperolo/GST.