RoSHI: A Versatile Robot-oriented Suit for Human Data In-the-Wild
作者: Wenjing Margaret Mao, Jefferson Ng, Luyang Hu, Daniel Gehrig, Antonio Loquercio
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-04-08
备注: 8 pages, 4 figures. *Equal contribution by first three authors. Project webpage: https://roshi-mocap.github.io/
💡 一句话要点
提出RoSHI以解决人类数据收集中的便携性与鲁棒性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人类数据收集 可穿戴设备 3D姿态估计 自我中心SLAM 机器人学习 运动捕捉
📋 核心要点
- 现有的人类数据收集方法在便携性、遮挡鲁棒性和全局一致性方面存在显著不足,限制了机器人学习的进展。
- RoSHI通过结合低成本稀疏IMU和Project Aria眼镜,利用两者的互补性来估计佩戴者的3D姿态和身体形状。
- 在灵活活动的数据集上,RoSHI的表现普遍优于其他自我中心基线,并与外部基线SAM3D相当,显示出良好的应用潜力。
📝 摘要(中文)
随着机器人学习的规模扩大,收集包含丰富长时交互的人类数据变得愈发重要。现有方法在便携性、对遮挡的鲁棒性和全局一致性之间存在权衡。本文提出RoSHI,一种混合可穿戴设备,通过将低成本稀疏IMU与Project Aria眼镜结合,能够从自我中心感知中估计佩戴者的完整3D姿态和身体形状。该系统利用IMU对遮挡和高速运动的鲁棒性,以及自我中心SLAM对长时运动的锚定和上半身姿态的稳定。我们收集了一组灵活活动的数据集来评估RoSHI,结果显示其在性能上普遍优于其他自我中心基线,并与最先进的外部基线(SAM3D)表现相当。最后,我们证明了从该系统记录的运动数据适用于现实世界的人形策略学习。
🔬 方法详解
问题定义:本文旨在解决现有方法在收集人类数据时的便携性、鲁棒性和全局一致性不足的问题。现有技术往往无法在复杂环境中有效捕捉长时交互数据。
核心思路:RoSHI的核心思路是将低成本的稀疏IMU与Project Aria眼镜结合,利用IMU在遮挡和高速运动下的鲁棒性,以及自我中心SLAM对长时运动的锚定能力,来实现高精度的3D姿态和身体形状估计。
技术框架:RoSHI系统主要包括两个模块:IMU模块和SLAM模块。IMU模块负责实时捕捉佩戴者的运动数据,而SLAM模块则通过自我中心感知来稳定和锚定运动轨迹,最终输出全局坐标系下的3D姿态和身体形状。
关键创新:RoSHI的主要创新在于其混合传感器设计,充分利用IMU和SLAM的互补优势,解决了传统方法在复杂环境中的局限性。与现有方法相比,RoSHI在遮挡和快速运动情况下表现出更高的鲁棒性和准确性。
关键设计:在设计中,IMU的数量和布局经过优化,以确保在不同姿态下均能有效捕捉运动数据。同时,SLAM算法经过调整,以适应自我中心感知的特点,确保长时运动的稳定性和准确性。
🖼️ 关键图片
📊 实验亮点
在灵活活动的数据集上,RoSHI的性能普遍优于其他自我中心基线,且与最先进的外部基线SAM3D表现相当,显示出在复杂环境中收集高质量人类数据的能力。具体而言,RoSHI在遮挡和高速运动情况下的鲁棒性显著提升,为机器人学习提供了更可靠的数据来源。
🎯 应用场景
RoSHI的研究成果在多个领域具有广泛的应用潜力,包括人形机器人学习、增强现实和虚拟现实中的动作捕捉,以及运动分析等。通过提供高质量的人类运动数据,RoSHI能够推动机器人在复杂环境中的自主学习和适应能力,具有重要的实际价值和未来影响。
📄 摘要(原文)
Scaling up robot learning will likely require human data containing rich and long-horizon interactions in the wild. Existing approaches for collecting such data trade off portability, robustness to occlusion, and global consistency. We introduce RoSHI, a hybrid wearable that fuses low-cost sparse IMUs with the Project Aria glasses to estimate the full 3D pose and body shape of the wearer in a metric global coordinate frame from egocentric perception. This system is motivated by the complementarity of the two sensors: IMUs provide robustness to occlusions and high-speed motions, while egocentric SLAM anchors long-horizon motion and stabilizes upper body pose. We collect a dataset of agile activities to evaluate RoSHI. On this dataset, we generally outperform other egocentric baselines and perform comparably to a state-of-the-art exocentric baseline (SAM3D). Finally, we demonstrate that the motion data recorded from our system are suitable for real-world humanoid policy learning. For videos, data and more, visit the project webpage: https://roshi-mocap.github.io/