Motion Capture from Inertial and Vision Sensors

📄 arXiv: 2407.16341 📥 PDF

作者: Xiaodong Chen, Wu Liu, Qian Bao, Xinchen Liu, Ruoli Dai, Yongdong Zhang, Tao Mei

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出MINIONS数据集和SparseNet框架,实现基于惯性和视觉传感器的低成本人体运动捕捉。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 运动捕捉 多模态融合 惯性传感器 视觉传感器 数据集 人体姿态估计 深度学习

📋 核心要点

  1. 现有运动捕捉系统依赖复杂相机阵列或昂贵的可穿戴传感器,难以满足个人应用对低成本易用性的需求。
  2. 提出MINIONS数据集和SparseNet框架,利用单目相机和少量IMU,挖掘互补特征,实现精确多模态人体运动捕捉。
  3. 实验结果验证了惯性和视觉传感器的优势互补,展示了低成本多模态运动捕捉的潜力,并提供了宝贵的数据资源。

📝 摘要(中文)

本文提出了一种利用单目相机和少量惯性测量单元(IMU)进行精确多模态人体运动捕捉的方法,并为此贡献了一个大规模运动捕捉数据集MINIONS。该数据集包含超过五百万帧和400分钟的数据,具有多模态特性,包括IMU信号和RGB视频,并标注了关节位置、关节旋转、SMPL参数等。MINIONS数据集涵盖了146个细粒度的单人和交互动作,并附有文本描述。基于该数据集,本文提出了SparseNet框架,通过挖掘IMU和视频的互补特征,探索使用低成本的单目相机和少量IMU进行人体运动捕捉的可能性。实验结果强调了惯性和视觉传感器的独特优势,展示了低成本多模态运动捕捉的潜力,并为进一步的研究和开发提供了宝贵的资源。

🔬 方法详解

问题定义:现有的人体运动捕捉系统通常依赖于昂贵的设备,如多相机阵列或全身惯性传感器套装,这限制了它们在个人应用中的普及。因此,本文旨在解决如何利用低成本的单目相机和少量的IMU来实现准确的人体运动捕捉问题。现有方法的痛点在于难以在低成本条件下实现高精度和鲁棒性的运动捕捉。

核心思路:本文的核心思路是利用视觉信息和惯性信息的互补性。视觉信息可以提供全局的身体姿态信息,而惯性信息可以提供局部的运动细节和方向信息。通过有效地融合这两种模态的信息,可以克服单模态信息的局限性,从而实现更准确的运动捕捉。

技术框架:整体框架包括数据采集、数据预处理和模型训练三个主要阶段。首先,使用单目相机和少量IMU采集多模态数据,构建MINIONS数据集。然后,对采集到的数据进行预处理,包括数据同步、噪声过滤和数据增强等。最后,使用SparseNet框架进行模型训练,该框架旨在学习IMU和视频之间的互补特征,并预测人体运动。

关键创新:本文的关键创新在于提出了SparseNet框架,该框架能够有效地融合IMU和视频信息,并学习它们之间的互补特征。与现有方法相比,SparseNet能够利用更少的传感器实现更准确的运动捕捉。此外,MINIONS数据集的构建也为相关研究提供了宝贵的数据资源。

关键设计:SparseNet框架的具体结构未知,但可以推测其可能包含以下关键设计:1) 特征提取模块,用于从IMU信号和视频帧中提取特征;2) 特征融合模块,用于融合IMU和视频特征;3) 运动预测模块,用于预测人体运动参数,如关节位置、关节旋转和SMPL参数。损失函数可能包括重投影误差、IMU运动学约束和SMPL参数正则化项。具体网络结构和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文的主要亮点在于构建了大规模多模态运动捕捉数据集MINIONS,并提出了SparseNet框架。虽然论文中没有给出具体的性能数据和对比基线,但强调了惯性和视觉传感器的独特优势,展示了低成本多模态运动捕捉的潜力。MINIONS数据集的规模和多样性使其成为一个有价值的资源,可以促进相关领域的研究和开发。

🎯 应用场景

该研究成果可应用于虚拟现实(VR)、增强现实(AR)、游戏开发、运动分析、康复训练等领域。通过低成本的运动捕捉方案,可以降低相关应用的门槛,促进其普及。例如,在VR游戏中,用户可以使用少量IMU和普通摄像头实现全身运动捕捉,从而获得更沉浸式的体验。在运动分析中,可以利用该技术对运动员的动作进行精确分析,从而提高训练效果。未来,该技术有望应用于智能家居、人机交互等更多领域。

📄 摘要(原文)

Human motion capture is the foundation for many computer vision and graphics tasks. While industrial motion capture systems with complex camera arrays or expensive wearable sensors have been widely adopted in movie and game production, consumer-affordable and easy-to-use solutions for personal applications are still far from mature. To utilize a mixture of a monocular camera and very few inertial measurement units (IMUs) for accurate multi-modal human motion capture in daily life, we contribute MINIONS in this paper, a large-scale Motion capture dataset collected from INertial and visION Sensors. MINIONS has several featured properties: 1) large scale of over five million frames and 400 minutes duration; 2) multi-modality data of IMUs signals and RGB videos labeled with joint positions, joint rotations, SMPL parameters, etc.; 3) a diverse set of 146 fine-grained single and interactive actions with textual descriptions. With the proposed MINIONS dataset, we propose a SparseNet framework to capture human motion from IMUs and videos by discovering their supplementary features and exploring the possibilities of consumer-affordable motion capture using a monocular camera and very few IMUs. The experiment results emphasize the unique advantages of inertial and vision sensors, showcasing the promise of consumer-affordable multi-modal motion capture and providing a valuable resource for further research and development.