SkelSplat: Robust Multi-view 3D Human Pose Estimation with Differentiable Gaussian Rendering

📄 arXiv: 2511.08294v2 📥 PDF

作者: Laura Bragagnolo, Leonardo Barcellona, Stefano Ghidoni

分类: cs.CV

发布日期: 2025-11-11 (更新: 2025-12-02)

备注: WACV 2026


💡 一句话要点

SkelSplat:基于可微高斯渲染的鲁棒多视角3D人体姿态估计

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D人体姿态估计 多视角学习 可微渲染 高斯溅射 无监督学习 鲁棒性 遮挡处理

📋 核心要点

  1. 现有3D人体姿态估计方法依赖大量标注数据,在测试场景变化时泛化能力不足。
  2. SkelSplat将人体姿态建模为3D高斯骨架,通过可微渲染优化,实现多视角融合,无需3D真值监督。
  3. 实验表明,SkelSplat在多个数据集上优于现有方法,并对遮挡具有鲁棒性,且跨数据集误差显著降低。

📝 摘要(中文)

本文提出SkelSplat,一种基于可微高斯渲染的多视角3D人体姿态估计新框架。针对现有方法依赖大量标注数据训练,导致测试场景泛化性差的问题,SkelSplat将人体姿态建模为3D高斯骨架(每个关节一个高斯),通过可微渲染进行优化,从而在无需3D真值监督的情况下,实现任意相机视角的无缝融合。针对高斯溅射原本为稠密场景重建设计,本文提出一种新颖的one-hot编码方案,实现人体关节的独立优化。在Human3.6M和CMU数据集上,SkelSplat优于不依赖3D真值的方法,并且相比于基于学习的方法,跨数据集误差降低高达47.8%。在Human3.6M-Occ和Occlusion-Person数据集上的实验表明,该方法对遮挡具有鲁棒性,无需针对特定场景进行微调。

🔬 方法详解

问题定义:现有基于学习的多视角3D人体姿态估计方法依赖于大量的3D标注数据进行训练,这限制了它们在实际应用中的泛化能力,尤其是在测试场景与训练场景存在差异时。此外,遮挡问题也是一个挑战,需要针对特定场景进行微调才能获得较好的效果。

核心思路:SkelSplat的核心思路是将人体姿态表示为3D高斯分布的集合,每个关节对应一个高斯分布。通过可微高斯渲染,可以将这些高斯分布投影到不同的相机视角,并计算渲染图像与实际图像之间的差异。通过优化高斯分布的参数,可以使得渲染图像与实际图像尽可能一致,从而实现3D人体姿态的估计。这种方法不需要3D真值监督,并且可以自然地融合来自不同视角的观测信息。

技术框架:SkelSplat的整体框架包括以下几个主要步骤:1) 从多个相机视角获取图像;2) 初始化人体骨骼的3D高斯表示,每个关节对应一个高斯分布;3) 使用可微高斯渲染将3D高斯分布投影到每个相机视角,生成渲染图像;4) 计算渲染图像与实际图像之间的损失,例如光度损失;5) 使用梯度下降优化3D高斯分布的参数,使得渲染图像与实际图像尽可能一致;6) 从优化后的3D高斯分布中提取3D人体姿态。

关键创新:SkelSplat的关键创新在于使用可微高斯渲染进行多视角3D人体姿态估计,避免了对3D真值监督的依赖。此外,针对高斯溅射原本为稠密场景重建设计,本文提出了一种新颖的one-hot编码方案,使得可以独立优化每个人体关节的高斯分布,从而提高姿态估计的准确性。

关键设计:SkelSplat的关键设计包括:1) 使用3D高斯分布表示人体关节,每个高斯分布的参数包括均值、方差和颜色;2) 使用可微高斯渲染将3D高斯分布投影到相机视角,渲染过程是可微的,可以计算梯度;3) 使用光度损失作为优化目标,使得渲染图像与实际图像尽可能一致;4) 使用Adam优化器优化3D高斯分布的参数;5) one-hot编码方案,确保每个关节的优化独立进行。

📊 实验亮点

SkelSplat在Human3.6M和CMU数据集上取得了优异的性能,优于不依赖3D真值的方法。更重要的是,相比于基于学习的方法,SkelSplat在跨数据集测试中,误差降低高达47.8%,表明其具有更强的泛化能力。此外,在Human3.6M-Occ和Occlusion-Person数据集上的实验表明,SkelSplat对遮挡具有鲁棒性,无需针对特定场景进行微调。

🎯 应用场景

SkelSplat在增强现实、人机交互、运动分析、虚拟现实等领域具有广泛的应用前景。该方法无需3D真值监督,降低了数据标注成本,提高了模型的泛化能力。通过融合多视角信息,可以实现更准确、更鲁棒的3D人体姿态估计,为相关应用提供更可靠的基础。

📄 摘要(原文)

Accurate 3D human pose estimation is fundamental for applications such as augmented reality and human-robot interaction. State-of-the-art multi-view methods learn to fuse predictions across views by training on large annotated datasets, leading to poor generalization when the test scenario differs. To overcome these limitations, we propose SkelSplat, a novel framework for multi-view 3D human pose estimation based on differentiable Gaussian rendering. Human pose is modeled as a skeleton of 3D Gaussians, one per joint, optimized via differentiable rendering to enable seamless fusion of arbitrary camera views without 3D ground-truth supervision. Since Gaussian Splatting was originally designed for dense scene reconstruction, we propose a novel one-hot encoding scheme that enables independent optimization of human joints. SkelSplat outperforms approaches that do not rely on 3D ground truth in Human3.6M and CMU, while reducing the cross-dataset error up to 47.8% compared to learning-based methods. Experiments on Human3.6M-Occ and Occlusion-Person demonstrate robustness to occlusions, without scenario-specific fine-tuning. Our project page is available here: https://skelsplat.github.io.