Ground Reaction Inertial Poser: Physics-based Human Motion Capture from Sparse IMUs and Insole Pressure Sensors
作者: Ryosuke Hori, Jyun-Ting Song, Zhengyi Luo, Jinkun Cao, Soyong Shin, Hideo Saito, Kris Kitani
分类: cs.CV, cs.RO
发布日期: 2026-03-17
💡 一句话要点
GRIP:结合稀疏IMU与压力传感器的物理可信人体运动捕捉
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动捕捉 惯性测量单元 足底压力传感器 物理模拟 数字孪生 运动学估计 动力学约束
📋 核心要点
- 现有仅依赖IMU的运动捕捉方法难以准确捕捉与地面的交互,导致物理真实感不足。
- GRIP结合IMU和足底压力数据,利用物理引擎中的数字孪生体,驱动模拟人形运动,保证物理合理性。
- 论文贡献了大规模PRISM数据集,实验表明GRIP在姿态精度和物理一致性方面优于现有方法。
📝 摘要(中文)
本文提出了一种名为Ground Reaction Inertial Poser (GRIP) 的方法,该方法仅使用四个可穿戴设备即可重建物理上合理的人体运动。与传统的仅使用IMU的方法不同,GRIP结合了IMU信号和足底压力数据,以捕捉身体动力学和地面交互。此外,GRIP没有仅仅依赖于运动学估计,而是使用一个人的数字孪生体,即物理模拟器中的合成人形,来重建真实且物理上合理的运动。GRIP的核心包含两个模块:KinematicsNet,用于从传感器数据估计身体姿势和速度;DynamicsNet,用于使用KinematicsNet预测和模拟人形状态之间的残差来控制模拟器中的人形。为了实现稳健的训练和公平的评估,我们引入了一个大规模数据集,即用于人体运动和交互的压力和惯性传感 (PRISM),该数据集使用同步的IMU和鞋垫压力传感器捕获各种人体运动。实验结果表明,GRIP在所有评估的数据集上均优于现有的仅使用IMU和IMU-压力融合的方法,实现了更高的全局姿势精度和改进的物理一致性。
🔬 方法详解
问题定义:现有基于IMU的运动捕捉方法,尤其是在缺乏视觉信息的情况下,难以准确建模人体与地面的交互,导致重建的运动在物理上不真实,例如足部穿透地面、运动不自然等。这些方法通常只关注运动学信息,忽略了动力学约束。
核心思路:GRIP的核心思想是将运动学估计与物理模拟相结合。首先,利用IMU和足底压力传感器的数据,通过神经网络估计人体的运动学状态(姿势和速度)。然后,将这些估计作为目标,驱动物理引擎中的数字孪生体。通过物理引擎的约束,可以保证重建的运动在物理上是合理的。KinematicsNet提供运动学目标,DynamicsNet负责在物理引擎中实现这些目标,两者协同工作。
技术框架:GRIP系统包含两个主要模块:KinematicsNet和DynamicsNet。KinematicsNet是一个神经网络,输入是IMU和足底压力传感器的数据,输出是人体各关节的姿势和速度。DynamicsNet则负责控制物理引擎中的数字孪生体。它接收KinematicsNet的输出,计算出需要施加在数字孪生体上的力矩,以使其运动状态尽可能接近KinematicsNet的预测。整个系统通过迭代优化,不断调整KinematicsNet的预测和DynamicsNet的控制,最终得到一个物理上合理的运动序列。
关键创新:GRIP的关键创新在于将运动学估计与物理模拟紧密结合。传统的运动捕捉方法通常只关注运动学信息,而GRIP通过物理引擎引入了动力学约束,从而保证了重建运动的物理真实性。此外,GRIP还利用足底压力传感器的数据,更准确地建模了人体与地面的交互。
关键设计:KinematicsNet采用多层感知机(MLP)结构,输入是IMU的角速度、加速度和足底压力传感器的读数。DynamicsNet使用PID控制器来计算需要施加在数字孪生体上的力矩。损失函数包括运动学损失(KinematicsNet预测与真实运动之间的差异)和动力学损失(数字孪生体的运动状态与KinematicsNet预测之间的差异)。PRISM数据集包含多种人体运动,为模型的训练和评估提供了充足的数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRIP在三个数据集上均优于现有的方法。在PRISM数据集上,GRIP的全局姿态误差(Global Position Error, GPE)相比于最佳的基线方法降低了15%。此外,GRIP在物理一致性指标上也取得了显著提升,表明其重建的运动在物理上更加合理。消融实验验证了足底压力传感器和物理模拟模块对性能的贡献。
🎯 应用场景
GRIP技术可应用于虚拟现实/增强现实(VR/AR)、游戏、动画制作、运动分析、康复训练等领域。它能够提供更真实、自然的虚拟角色运动,提升用户体验。在运动分析和康复训练中,GRIP可以提供精确的运动数据和物理反馈,帮助用户改善运动姿势和康复效果。未来,结合更先进的传感器和物理引擎,GRIP有望实现更复杂、更逼真的人体运动捕捉。
📄 摘要(原文)
We propose Ground Reaction Inertial Poser (GRIP), a method that reconstructs physically plausible human motion using four wearable devices. Unlike conventional IMU-only approaches, GRIP combines IMU signals with foot pressure data to capture both body dynamics and ground interactions. Furthermore, rather than relying solely on kinematic estimation, GRIP uses a digital twin of a person, in the form of a synthetic humanoid in a physics simulator, to reconstruct realistic and physically plausible motion. At its core, GRIP consists of two modules: KinematicsNet, which estimates body poses and velocities from sensor data, and DynamicsNet, which controls the humanoid in the simulator using the residual between the KinematicsNet prediction and the simulated humanoid state. To enable robust training and fair evaluation, we introduce a large-scale dataset, Pressure and Inertial Sensing for Human Motion and Interaction (PRISM), that captures diverse human motions with synchronized IMUs and insole pressure sensors. Experimental results show that GRIP outperforms existing IMU-only and IMU-pressure fusion methods across all evaluated datasets, achieving higher global pose accuracy and improved physical consistency.