Group Inertial Poser: Multi-Person Pose and Global Translation from Sparse Inertial Sensors and Ultra-Wideband Ranging

📄 arXiv: 2510.21654v1 📥 PDF

作者: Ying Xue, Jiaxi Jiang, Rayan Armani, Dominik Hollidt, Yi-Chi Liao, Christian Holz

分类: cs.CV, cs.AI, cs.GR, cs.HC

发布日期: 2025-10-24

备注: Accepted by ICCV 2025, Code: https://github.com/eth-siplab/GroupInertialPoser

🔗 代码/项目: GITHUB


💡 一句话要点

Group Inertial Poser:融合稀疏IMU与UWB的多人姿态与全局位姿估计

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 多人运动捕捉 惯性测量单元 超宽带测距 姿态估计 全局位姿估计 状态空间模型 数据融合

📋 核心要点

  1. 基于IMU的运动捕捉易受漂移影响,且缺乏个体间的相对位置信息,限制了多人场景下的应用。
  2. 提出Group Inertial Poser,融合IMU的惯性测量和UWB的距离信息,利用结构化状态空间模型进行姿态估计。
  3. 实验表明,该方法在合成和真实数据集中均优于现有技术,并发布了新的双人IMU+UWB数据集GIP-DB。

📝 摘要(中文)

本文提出了一种新颖的方法,用于稳健地估计多个人的身体姿态和全局位姿。该方法利用稀疏可穿戴传感器之间的距离——包括个体内部和个体之间的距离。Group Inertial Poser通过超宽带测距(UWB)估计传感器对之间的绝对距离,并将这些距离与惯性观测融合,作为结构化状态空间模型的输入,以整合时间运动模式,从而实现精确的3D姿态估计。我们新颖的两步优化进一步利用估计的距离,准确地跟踪人们在世界中的全局轨迹。我们还推出了GIP-DB,这是第一个用于双人跟踪的IMU+UWB数据集,包含来自14名参与者的200分钟运动记录。在我们的评估中,Group Inertial Poser在合成和真实世界数据中的准确性和鲁棒性方面均优于先前的最先进方法,展示了基于IMU+UWB的多人运动捕捉在野外的潜力。

🔬 方法详解

问题定义:现有基于IMU的全身运动捕捉方法,在多人场景下,由于IMU的自参考特性,难以准确估计个体间的相对位置和全局位姿,容易产生漂移。视觉方法虽然可以提供全局信息,但易受遮挡和环境限制。因此,如何在稀疏IMU传感器的基础上,实现多人场景下准确的全局位姿估计是一个挑战。

核心思路:论文的核心思路是将IMU的惯性测量与UWB的距离测量进行融合,利用UWB提供个体间和个体内的相对位置约束,从而弥补IMU的漂移和全局信息缺失。通过结构化的状态空间模型,将这些信息整合起来,实现更准确的姿态和位姿估计。

技术框架:Group Inertial Poser的整体框架包含以下几个主要阶段:1) 数据采集:使用稀疏的IMU传感器和UWB设备采集惯性测量和距离信息。2) 状态空间建模:构建一个结构化的状态空间模型,将IMU和UWB数据融合,用于估计每个人的姿态和全局位姿。3) 两步优化:采用两步优化策略,首先优化姿态,然后利用估计的距离信息优化全局轨迹。

关键创新:该方法最重要的创新点在于融合了IMU和UWB数据,并设计了一个两步优化策略。与纯IMU方法相比,UWB提供了全局位置约束,显著减少了漂移。与纯视觉方法相比,该方法不受遮挡和环境光照的影响。两步优化策略能够更有效地利用UWB提供的距离信息,提高全局轨迹的准确性。

关键设计:论文中使用了扩展卡尔曼滤波(EKF)作为状态估计器,将IMU测量值(角速度和加速度)和UWB距离测量值作为输入。状态向量包括每个人的关节角度、全局位置和全局旋转。损失函数包括IMU测量残差和UWB距离残差。两步优化中,第一步优化姿态,固定全局位姿;第二步优化全局位姿,固定姿态。具体参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Group Inertial Poser在合成和真实数据集上均优于现有的最先进方法。在真实数据集上,该方法在姿态估计和全局位姿估计方面均取得了显著提升。此外,论文还发布了新的双人IMU+UWB数据集GIP-DB,为相关研究提供了宝贵的数据资源。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于多人运动捕捉、人机交互、虚拟现实/增强现实、康复训练、体育分析等领域。例如,在VR/AR游戏中,可以实现多人同时参与的沉浸式体验。在康复训练中,可以精确跟踪患者的运动轨迹,评估康复效果。在体育分析中,可以分析运动员的运动姿态,提高训练效率。

📄 摘要(原文)

Tracking human full-body motion using sparse wearable inertial measurement units (IMUs) overcomes the limitations of occlusion and instrumentation of the environment inherent in vision-based approaches. However, purely IMU-based tracking compromises translation estimates and accurate relative positioning between individuals, as inertial cues are inherently self-referential and provide no direct spatial reference for others. In this paper, we present a novel approach for robustly estimating body poses and global translation for multiple individuals by leveraging the distances between sparse wearable sensors - both on each individual and across multiple individuals. Our method Group Inertial Poser estimates these absolute distances between pairs of sensors from ultra-wideband ranging (UWB) and fuses them with inertial observations as input into structured state-space models to integrate temporal motion patterns for precise 3D pose estimation. Our novel two-step optimization further leverages the estimated distances for accurately tracking people's global trajectories through the world. We also introduce GIP-DB, the first IMU+UWB dataset for two-person tracking, which comprises 200 minutes of motion recordings from 14 participants. In our evaluation, Group Inertial Poser outperforms previous state-of-the-art methods in accuracy and robustness across synthetic and real-world data, showing the promise of IMU+UWB-based multi-human motion capture in the wild. Code, models, dataset: https://github.com/eth-siplab/GroupInertialPoser