A Dataset and Evaluation for Complex 4D Markerless Human Motion Capture

📄 arXiv: 2604.12765v1 📥 PDF

作者: Yeeun Park, Miqdad Naduthodi, Suryansh Kumar

分类: cs.CV, cs.GR

发布日期: 2026-04-14

备注: 14 pages, 11 figures, 4 tables. Accepted for publication at CVPR 2026 4D World Models Workshop


💡 一句话要点

提出复杂场景4D无标记人体运动捕捉数据集与评估基准,解决真实交互场景下的性能瓶颈。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动捕捉 无标记MoCap 数据集 多视角 复杂场景

📋 核心要点

  1. 现有无标记人体运动捕捉方法在真实复杂场景(如多人交互、严重遮挡)下性能显著下降,缺乏有效的数据集和评估基准。
  2. 论文核心在于构建一个包含复杂交互场景的高质量数据集,并基于此评估现有方法的性能,为后续研究提供基准。
  3. 实验表明,现有方法在提出的数据集上性能大幅降低,通过针对性微调可以提升模型泛化能力,验证了数据集的有效性。

📝 摘要(中文)

本文提出了一个新的数据集和评估方法,用于复杂场景下的4D无标记人体运动捕捉。现有基准测试通常缺乏真实的多人动态、严重的遮挡和具有挑战性的交互模式,导致领域差距。该数据集捕捉了单人和多人的复杂运动场景,包含频繁的人员遮挡、相似服装个体间的快速位置交换以及不同的主体距离。数据集包括同步的多视角RGB和深度序列、精确的相机标定、来自Vicon系统的ground-truth 3D运动捕捉以及相应的SMPL/SMPL-X参数。基准测试表明,现有无标记MoCap模型在这些真实条件下性能显著下降,突出了当前方法的局限性。通过针对性地微调可以提高泛化能力,验证了数据集的真实性和模型开发价值。该评估揭示了现有模型的关键差距,并为推进鲁棒的无标记4D人体运动捕捉提供了基础。

🔬 方法详解

问题定义:现有无标记人体运动捕捉方法在处理真实场景下的复杂交互时,由于遮挡、相似外观个体间的混淆以及缺乏足够多样性的训练数据,导致性能显著下降。现有数据集难以反映真实场景的复杂性,存在较大的领域差距。

核心思路:论文的核心思路是构建一个更贴近真实场景、包含各种复杂交互情况的高质量数据集,以此来评估现有方法的鲁棒性,并为后续研究提供更具挑战性的训练数据。通过提供精确的ground-truth运动捕捉数据,可以更准确地评估和改进现有算法。

技术框架:该研究主要包含数据集构建和模型评估两个阶段。数据集构建阶段,使用多视角RGB-D相机和Vicon运动捕捉系统同步采集数据,确保视觉信息和运动信息的精确对齐。数据集中包含单人和多人场景,涵盖复杂的运动模式、频繁的遮挡以及相似服装个体间的交互。模型评估阶段,使用现有主流的无标记人体运动捕捉模型在数据集上进行测试,并分析其性能瓶颈。

关键创新:该研究的关键创新在于数据集的设计和构建,它更真实地反映了现实世界中人体运动捕捉所面临的挑战。与现有数据集相比,该数据集包含更复杂的交互模式、更频繁的遮挡以及更相似的个体外观,从而能够更有效地评估和改进现有算法的鲁棒性。

关键设计:数据集的关键设计包括:1) 多视角RGB-D相机同步采集,提供丰富的视觉信息;2) Vicon运动捕捉系统提供精确的3D运动ground-truth;3) 场景设计包含单人和多人交互,涵盖各种复杂的运动模式;4) 场景中包含频繁的遮挡和相似服装个体间的交互,增加算法的挑战性;5) 提供SMPL/SMPL-X参数,方便研究人员进行人体建模和姿态估计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有主流的无标记人体运动捕捉模型在提出的数据集上性能显著下降,验证了数据集的挑战性和真实性。例如,在处理复杂遮挡和相似服装个体交互时,现有方法的精度大幅降低。通过在提出的数据集上进行针对性微调,模型的泛化能力得到显著提升,证明了数据集对于模型训练和改进的价值。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、人机交互、智能监控、游戏开发等领域。高质量的运动捕捉数据能够提升虚拟角色的真实感和交互性,改善人机交互体验。此外,该数据集和评估基准可以促进无标记人体运动捕捉技术的发展,使其在更广泛的实际场景中得到应用。

📄 摘要(原文)

Marker-based motion capture (MoCap) systems have long been the gold standard for accurate 4D human modeling, yet their reliance on specialized hardware and markers limits scalability and real-world deployment. Advancing reliable markerless 4D human motion capture requires datasets that reflect the complexity of real-world human interactions. Yet, existing benchmarks often lack realistic multi-person dynamics, severe occlusions, and challenging interaction patterns, leading to a persistent domain gap. In this work, we present a new dataset and evaluation for complex 4D markerless human motion capture. Our proposed MoCap dataset captures both single and multi-person scenarios with intricate motions, frequent inter-person occlusions, rapid position exchanges between similarly dressed subjects, and varying subject distances. It includes synchronized multi-view RGB and depth sequences, accurate camera calibration, ground-truth 3D motion capture from a Vicon system, and corresponding SMPL/SMPL-X parameters. This setup ensures precise alignment between visual observations and motion ground truth. Benchmarking state-of-the-art markerless MoCap models reveals substantial performance degradation under these realistic conditions, highlighting limitations of current approaches. We further demonstrate that targeted fine-tuning improves generalization, validating the dataset's realism and value for model development. Our evaluation exposes critical gaps in existing models and provides a rigorous foundation for advancing robust markerless 4D human motion capture.