SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

📄 arXiv: 2602.20792v1 📥 PDF

作者: Muhammad Saif Ullah Khan, Didier Stricker

分类: cs.CV

发布日期: 2026-02-24

备注: Accepted at CVPR 2026


💡 一句话要点

SIMSPINE:一个用于3D脊柱运动标注和基准测试的生物力学感知模拟框架

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 脊柱运动估计 生物力学建模 3D人体姿态 数据集构建 计算机视觉 肌肉骨骼模拟 运动分析

📋 核心要点

  1. 现有方法缺乏大规模、解剖学上精确的3D脊柱标注数据,限制了计算机视觉在脊柱运动分析中的应用。
  2. 论文提出了一种生物力学感知的模拟框架,利用肌肉骨骼建模生成逼真的3D脊柱关键点,并将其添加到现有人体姿态数据集中。
  3. 论文构建了包含214万帧的SIMSPINE数据集,并提供了2D检测、3D姿态估计和多视图重建的基线模型,显著提升了脊柱运动估计的性能。

📝 摘要(中文)

脊柱运动建模是理解人体生物力学的关键,但由于脊柱复杂的多关节运动学和缺乏大规模3D标注,其在计算机视觉领域的研究仍不足。本文提出了一个生物力学感知的关键点模拟框架,该框架利用肌肉骨骼建模,为现有人体姿态数据集增强了在解剖学上一致的3D脊柱关键点。利用该框架,我们创建了首个开放数据集SIMSPINE,它为室内多相机捕捉的自然全身运动提供了稀疏的椎骨级3D脊柱标注,且无需外部约束。SIMSPINE包含214万帧,能够从细微的姿势变化中进行数据驱动的椎骨运动学学习,并弥合了肌肉骨骼模拟和计算机视觉之间的差距。此外,我们发布了预训练的基线模型,涵盖了微调的2D检测器、单目3D姿态提升模型和多视图重建流程,从而为生物力学上有效的脊柱运动估计建立了一个统一的基准。具体而言,我们的2D脊柱基线将受控环境下的最先进水平从0.63提高到0.80 AUC,并将真实场景下的脊柱跟踪AP从0.91提高到0.93。总而言之,该模拟框架和SIMSPINE数据集通过在自然条件下实现可重复的、解剖学上可靠的3D脊柱估计,从而推动了基于视觉的生物力学、运动分析和数字人体建模领域的研究。

🔬 方法详解

问题定义:论文旨在解决计算机视觉领域缺乏大规模、高质量的3D脊柱运动标注数据的问题。现有方法要么依赖于人工标注,成本高昂且难以获取大规模数据;要么忽略了脊柱的生物力学约束,导致生成的3D姿态不符合人体生理结构。这些问题阻碍了基于视觉的脊柱运动分析和数字人体建模的发展。

核心思路:论文的核心思路是利用肌肉骨骼建模来模拟真实的脊柱运动,从而自动生成大规模、解剖学上一致的3D脊柱关键点标注。通过将这些模拟数据与现有人体姿态数据集相结合,可以有效地扩充训练数据,并提高模型的泛化能力。这种方法避免了人工标注的成本,并保证了数据的生物力学合理性。

技术框架:该框架主要包含以下几个阶段:1) 利用肌肉骨骼模型,根据现有人体姿态数据集中的全身运动数据,模拟脊柱的运动轨迹。2) 从模拟的运动轨迹中提取椎骨级别的3D关键点,作为脊柱的标注信息。3) 将生成的3D脊柱标注与现有人体姿态数据集进行融合,构建SIMSPINE数据集。4) 基于SIMSPINE数据集,训练和评估2D脊柱检测器、单目3D姿态提升模型和多视图重建流程等基线模型。

关键创新:论文最重要的技术创新点在于提出了一个生物力学感知的模拟框架,该框架能够自动生成大规模、解剖学上一致的3D脊柱关键点标注。与现有方法相比,该框架不仅避免了人工标注的成本,而且保证了数据的生物力学合理性。此外,论文还构建了首个开放的SIMSPINE数据集,为计算机视觉领域的研究人员提供了一个统一的基准。

关键设计:论文的关键设计包括:1) 选择了合适的肌肉骨骼模型,以保证模拟的脊柱运动的真实性。2) 设计了合理的关键点提取策略,以准确地表示椎骨的位置和姿态。3) 采用了数据增强技术,以提高模型的鲁棒性。4) 针对不同的任务,设计了合适的损失函数和网络结构,以优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于SIMSPINE数据集训练的2D脊柱检测器在受控环境下的AUC从0.63提升到0.80,在真实场景下的AP从0.91提升到0.93,显著优于现有方法。此外,论文还提供了单目3D姿态提升模型和多视图重建流程的基线结果,为未来的研究提供了一个可靠的参考。

🎯 应用场景

该研究成果可广泛应用于医疗健康、运动分析、人机交互等领域。例如,医生可以利用该技术进行脊柱疾病的诊断和治疗;运动员可以利用该技术进行运动姿态的分析和优化;游戏开发者可以利用该技术创建更逼真的人体动画。此外,该研究还有助于推动数字人体建模和虚拟现实技术的发展。

📄 摘要(原文)

Modeling spinal motion is fundamental to understanding human biomechanics, yet remains underexplored in computer vision due to the spine's complex multi-joint kinematics and the lack of large-scale 3D annotations. We present a biomechanics-aware keypoint simulation framework that augments existing human pose datasets with anatomically consistent 3D spinal keypoints derived from musculoskeletal modeling. Using this framework, we create the first open dataset, named SIMSPINE, which provides sparse vertebra-level 3D spinal annotations for natural full-body motions in indoor multi-camera capture without external restraints. With 2.14 million frames, this enables data-driven learning of vertebral kinematics from subtle posture variations and bridges the gap between musculoskeletal simulation and computer vision. In addition, we release pretrained baselines covering fine-tuned 2D detectors, monocular 3D pose lifting models, and multi-view reconstruction pipelines, establishing a unified benchmark for biomechanically valid spine motion estimation. Specifically, our 2D spine baselines improve the state-of-the-art from 0.63 to 0.80 AUC in controlled environments, and from 0.91 to 0.93 AP for in-the-wild spine tracking. Together, the simulation framework and SIMSPINE dataset advance research in vision-based biomechanics, motion analysis, and digital human modeling by enabling reproducible, anatomically grounded 3D spine estimation under natural conditions.