EgoHDM: An Online Egocentric-Inertial Human Motion Capture, Localization, and Dense Mapping System
作者: Bonan Liu, Handi Yin, Manuel Kaufmann, Jinhao He, Sammy Christen, Jie Song, Pan Hui
分类: cs.CV
发布日期: 2024-08-31 (更新: 2024-09-05)
备注: Project Page: https://handiyin.github.io/EgoHDM/
💡 一句话要点
EgoHDM:一种在线的以自我为中心的惯性人体运动捕捉、定位和稠密建图系统
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体运动捕捉 惯性测量单元 视觉惯性里程计 稠密建图 Bundle Adjustment
📋 核心要点
- 现有的人体运动捕捉系统难以同时实现高精度、实时性和稠密场景重建,尤其是在复杂地形下。
- EgoHDM通过紧耦合惯性人体运动捕捉、相机定位和稠密建图,实现了物理上合理且感知地图的全局人体运动估计。
- 实验结果表明,EgoHDM在人体定位、相机姿态和建图精度方面显著优于现有技术,并在复杂地形下表现出色。
📝 摘要(中文)
本文提出EgoHDM,一个在线的以自我为中心的惯性人体运动捕捉(mocap)、定位和稠密建图系统。该系统使用6个惯性测量单元(IMU)和一个商用头戴式RGB相机。EgoHDM是第一个提供近实时稠密场景建图的人体运动捕捉系统。此外,它能够快速且鲁棒地初始化,并完全闭环物理上合理的、感知地图的全局人体运动估计和感知运动捕捉的3D场景重建。我们的关键思想是在系统中双向集成相机定位和建图信息与惯性人体运动捕捉。为此,我们设计了一个紧耦合的感知运动捕捉的稠密Bundle Adjustment和基于物理的身体姿态校正模块,该模块利用了局部以身体为中心的高程图。后者引入了一种新颖的感知地形的接触PD控制器,使角色能够物理地接触给定的局部高程图,从而减少人体漂浮或穿透。我们在已建立的合成和真实世界基准上展示了我们系统的性能。结果表明,与最先进的方法相比,我们的方法分别将人体定位、相机姿态和建图精度误差降低了41%、71%和46%。我们对新捕获数据的定性评估进一步表明,EgoHDM可以覆盖非平坦地形中的挑战性场景,包括跨越楼梯和野外户外场景。
🔬 方法详解
问题定义:论文旨在解决在以人为中心的视角下,如何同时实现高精度的人体运动捕捉、定位和稠密场景重建的问题。现有的方法通常难以兼顾这三个方面,尤其是在复杂地形或动态环境中,容易出现人体漂浮、穿透地形等不真实现象。
核心思路:论文的核心思路是将相机定位和建图信息与惯性人体运动捕捉双向集成。通过这种紧耦合的方式,可以利用视觉信息约束人体运动,同时利用人体运动信息辅助视觉定位和建图,从而提高整体系统的鲁棒性和精度。
技术框架:EgoHDM系统主要包含以下几个模块:1) 惯性测量单元(IMU)数据采集;2) 相机图像采集;3) 紧耦合的感知运动捕捉的稠密Bundle Adjustment;4) 基于物理的身体姿态校正模块,该模块利用了局部以身体为中心的高程图。整体流程是,首先利用IMU和相机数据进行初始化,然后通过紧耦合的Bundle Adjustment优化相机姿态、人体姿态和场景结构,最后通过基于物理的姿态校正模块,确保人体运动的物理合理性。
关键创新:论文的关键创新在于:1) 提出了一种紧耦合的感知运动捕捉的稠密Bundle Adjustment方法,能够同时优化相机姿态、人体姿态和场景结构;2) 引入了一种新颖的感知地形的接触PD控制器,能够使角色物理地接触给定的局部高程图,从而减少人体漂浮或穿透。
关键设计:感知地形的接触PD控制器是关键设计之一。该控制器基于局部以身体为中心的高程图,计算人体与地形之间的接触力,并利用PD控制算法调整人体姿态,使其能够自然地与地形交互。此外,损失函数的设计也至关重要,需要平衡各项约束,例如IMU约束、视觉约束和物理约束。
🖼️ 关键图片
📊 实验亮点
EgoHDM在合成和真实世界基准测试中表现出色。与现有技术相比,人体定位误差降低了41%,相机姿态误差降低了71%,建图精度误差降低了46%。此外,EgoHDM还能够在复杂地形下(例如跨越楼梯和野外户外场景)实现鲁棒的人体运动捕捉和场景重建,展示了其强大的适应性。
🎯 应用场景
EgoHDM具有广泛的应用前景,例如虚拟现实/增强现实(VR/AR)、游戏、机器人导航、运动分析和康复训练等。该系统能够提供高精度的人体运动捕捉和场景重建,为用户提供更逼真的沉浸式体验,并为机器人提供更准确的环境感知信息。此外,该系统还可以用于分析运动员的运动姿态,或辅助康复患者进行训练。
📄 摘要(原文)
We present EgoHDM, an online egocentric-inertial human motion capture (mocap), localization, and dense mapping system. Our system uses 6 inertial measurement units (IMUs) and a commodity head-mounted RGB camera. EgoHDM is the first human mocap system that offers dense scene mapping in near real-time. Further, it is fast and robust to initialize and fully closes the loop between physically plausible map-aware global human motion estimation and mocap-aware 3D scene reconstruction. Our key idea is integrating camera localization and mapping information with inertial human motion capture bidirectionally in our system. To achieve this, we design a tightly coupled mocap-aware dense bundle adjustment and physics-based body pose correction module leveraging a local body-centric elevation map. The latter introduces a novel terrain-aware contact PD controller, which enables characters to physically contact the given local elevation map thereby reducing human floating or penetration. We demonstrate the performance of our system on established synthetic and real-world benchmarks. The results show that our method reduces human localization, camera pose, and mapping accuracy error by 41%, 71%, 46%, respectively, compared to the state of the art. Our qualitative evaluations on newly captured data further demonstrate that EgoHDM can cover challenging scenarios in non-flat terrain including stepping over stairs and outdoor scenes in the wild.