SkelSplat: Robust Multi-view 3D Human Pose Estimation with Differentiable Gaussian Rendering

作者: Laura Bragagnolo, Leonardo Barcellona, Stefano Ghidoni

分类: cs.CV

发布日期: 2025-11-11 (更新: 2025-12-02)

备注: WACV 2026

💡 一句话要点

SkelSplat：基于可微高斯渲染的鲁棒多视角3D人体姿态估计

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 3D人体姿态估计 多视角学习 可微渲染 高斯溅射 无监督学习 鲁棒性 遮挡处理

📋 核心要点

现有3D人体姿态估计方法依赖大量标注数据，在测试场景变化时泛化能力不足。
SkelSplat将人体姿态建模为3D高斯骨架，通过可微渲染优化，实现多视角融合，无需3D真值监督。
实验表明，SkelSplat在多个数据集上优于现有方法，并对遮挡具有鲁棒性，且跨数据集误差显著降低。

📝 摘要（中文）

本文提出SkelSplat，一种基于可微高斯渲染的多视角3D人体姿态估计新框架。针对现有方法依赖大量标注数据训练，导致测试场景泛化性差的问题，SkelSplat将人体姿态建模为3D高斯骨架（每个关节一个高斯），通过可微渲染进行优化，从而在无需3D真值监督的情况下，实现任意相机视角的无缝融合。针对高斯溅射原本为稠密场景重建设计，本文提出一种新颖的one-hot编码方案，实现人体关节的独立优化。在Human3.6M和CMU数据集上，SkelSplat优于不依赖3D真值的方法，并且相比于基于学习的方法，跨数据集误差降低高达47.8%。在Human3.6M-Occ和Occlusion-Person数据集上的实验表明，该方法对遮挡具有鲁棒性，无需针对特定场景进行微调。

🔬 方法详解

问题定义：现有基于学习的多视角3D人体姿态估计方法依赖于大量的3D标注数据进行训练，这限制了它们在实际应用中的泛化能力，尤其是在测试场景与训练场景存在差异时。此外，遮挡问题也是一个挑战，需要针对特定场景进行微调才能获得较好的效果。

核心思路：SkelSplat的核心思路是将人体姿态表示为3D高斯分布的集合，每个关节对应一个高斯分布。通过可微高斯渲染，可以将这些高斯分布投影到不同的相机视角，并计算渲染图像与实际图像之间的差异。通过优化高斯分布的参数，可以使得渲染图像与实际图像尽可能一致，从而实现3D人体姿态的估计。这种方法不需要3D真值监督，并且可以自然地融合来自不同视角的观测信息。

技术框架：SkelSplat的整体框架包括以下几个主要步骤：1) 从多个相机视角获取图像；2) 初始化人体骨骼的3D高斯表示，每个关节对应一个高斯分布；3) 使用可微高斯渲染将3D高斯分布投影到每个相机视角，生成渲染图像；4) 计算渲染图像与实际图像之间的损失，例如光度损失；5) 使用梯度下降优化3D高斯分布的参数，使得渲染图像与实际图像尽可能一致；6) 从优化后的3D高斯分布中提取3D人体姿态。

关键创新：SkelSplat的关键创新在于使用可微高斯渲染进行多视角3D人体姿态估计，避免了对3D真值监督的依赖。此外，针对高斯溅射原本为稠密场景重建设计，本文提出了一种新颖的one-hot编码方案，使得可以独立优化每个人体关节的高斯分布，从而提高姿态估计的准确性。

关键设计：SkelSplat的关键设计包括：1) 使用3D高斯分布表示人体关节，每个高斯分布的参数包括均值、方差和颜色；2) 使用可微高斯渲染将3D高斯分布投影到相机视角，渲染过程是可微的，可以计算梯度；3) 使用光度损失作为优化目标，使得渲染图像与实际图像尽可能一致；4) 使用Adam优化器优化3D高斯分布的参数；5) one-hot编码方案，确保每个关节的优化独立进行。

📊 实验亮点

SkelSplat在Human3.6M和CMU数据集上取得了优异的性能，优于不依赖3D真值的方法。更重要的是，相比于基于学习的方法，SkelSplat在跨数据集测试中，误差降低高达47.8%，表明其具有更强的泛化能力。此外，在Human3.6M-Occ和Occlusion-Person数据集上的实验表明，SkelSplat对遮挡具有鲁棒性，无需针对特定场景进行微调。

🎯 应用场景

SkelSplat在增强现实、人机交互、运动分析、虚拟现实等领域具有广泛的应用前景。该方法无需3D真值监督，降低了数据标注成本，提高了模型的泛化能力。通过融合多视角信息，可以实现更准确、更鲁棒的3D人体姿态估计，为相关应用提供更可靠的基础。

📄 摘要（原文）

Accurate 3D human pose estimation is fundamental for applications such as augmented reality and human-robot interaction. State-of-the-art multi-view methods learn to fuse predictions across views by training on large annotated datasets, leading to poor generalization when the test scenario differs. To overcome these limitations, we propose SkelSplat, a novel framework for multi-view 3D human pose estimation based on differentiable Gaussian rendering. Human pose is modeled as a skeleton of 3D Gaussians, one per joint, optimized via differentiable rendering to enable seamless fusion of arbitrary camera views without 3D ground-truth supervision. Since Gaussian Splatting was originally designed for dense scene reconstruction, we propose a novel one-hot encoding scheme that enables independent optimization of human joints. SkelSplat outperforms approaches that do not rely on 3D ground truth in Human3.6M and CMU, while reducing the cross-dataset error up to 47.8% compared to learning-based methods. Experiments on Human3.6M-Occ and Occlusion-Person demonstrate robustness to occlusions, without scenario-specific fine-tuning. Our project page is available here: https://skelsplat.github.io.

SkelSplat: Robust Multi-view 3D Human Pose Estimation with Differentiable Gaussian Rendering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册