EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

📄 arXiv: 2511.00153v1 📥 PDF

作者: Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp Wu

分类: cs.RO

发布日期: 2025-10-31


💡 一句话要点

EgoMI:利用以自我为中心的人类演示学习主动视觉和全身操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 模仿学习 机器人操作 主动视觉 具身智能 人机交互

📋 核心要点

  1. 现有模仿学习方法难以克服人与机器人之间的具身差距,尤其是在头部运动模式上,导致策略性能下降。
  2. EgoMI框架通过同步捕获人类操作过程中的末端执行器和头部轨迹,为机器人模仿学习提供可复用的数据。
  3. 论文提出了一种记忆增强策略,用于处理头部视点的快速变化,并在双臂机器人上验证了其有效性。

📝 摘要(中文)

本研究提出了一种基于人类演示的模仿学习方法,用于机器人技能获取。以自我为中心的人类数据由于具身差距带来了根本性挑战。在操作过程中,人类会主动协调头部和手部运动,持续调整视角,并使用预先动作的视觉注视搜索策略来定位相关物体。这些行为产生了动态的、任务驱动的头部运动,这是静态机器人传感系统无法复制的,从而导致了显著的分布偏移,降低了策略性能。我们提出了EgoMI(Egocentric Manipulation Interface),一个可以捕获操作任务期间同步的末端执行器和主动头部轨迹的框架,从而产生可以重新定位到兼容的半人形机器人身上的数据。为了处理快速和广泛的头部视点变化,我们引入了一种记忆增强策略,该策略有选择地结合了历史观察。我们在配备了驱动相机头的双臂机器人上评估了我们的方法,发现具有显式头部运动建模的策略始终优于基线方法。结果表明,通过EgoMI进行协调的手眼学习有效地弥合了人机具身差距,从而在半人形机器人上实现了鲁棒的模仿学习。

🔬 方法详解

问题定义:现有机器人模仿学习方法在处理以自我为中心的人类演示数据时,面临着严重的具身差距问题。人类在操作过程中会主动调整头部姿态以获取最佳视角,这种动态的头部运动是静态机器人视觉系统难以复制的。这导致训练数据和机器人实际操作环境之间存在显著的分布差异,严重影响了模仿学习策略的性能。

核心思路:论文的核心思路是通过EgoMI框架,同步记录人类操作过程中的手部动作和头部运动轨迹,从而为机器人提供更全面的演示数据。此外,论文还提出了一种记忆增强策略,使机器人能够学习并利用历史观测信息,从而更好地适应快速变化的头部视角。

技术框架:EgoMI框架主要包含数据采集和策略学习两个阶段。在数据采集阶段,利用特制的设备同步记录人类操作过程中的末端执行器轨迹和头部运动轨迹。在策略学习阶段,使用记录的数据训练一个记忆增强策略,该策略能够根据当前观测和历史观测,预测机器人的动作。整体流程是从人类演示数据中学习得到一个能够控制机器人手部和头部运动的策略。

关键创新:论文的关键创新在于EgoMI框架能够捕获人类操作过程中的动态头部运动信息,并将其用于训练机器人的模仿学习策略。此外,记忆增强策略能够有效地处理快速变化的头部视角,从而提高了策略的鲁棒性。

关键设计:记忆增强策略的网络结构包含一个循环神经网络(RNN)和一个外部记忆模块。RNN用于处理时间序列数据,外部记忆模块用于存储和检索历史观测信息。损失函数包括模仿学习损失和正则化项,用于约束策略的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用EgoMI框架和记忆增强策略训练的机器人策略,在操作任务上的性能显著优于基线方法。具体来说,具有显式头部运动建模的策略始终优于没有头部运动建模的策略,证明了头部运动信息对于模仿学习的重要性。此外,记忆增强策略能够有效地处理快速变化的头部视角,进一步提高了策略的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要机器人进行复杂操作的场景,例如家庭服务机器人、工业自动化、医疗辅助机器人等。通过学习人类的操作技能,机器人可以更好地完成各种任务,提高工作效率和安全性。未来的研究可以进一步探索如何将该方法应用于更复杂的任务和更广泛的机器人平台。

📄 摘要(原文)

Imitation learning from human demonstrations offers a promising approach for robot skill acquisition, but egocentric human data introduces fundamental challenges due to the embodiment gap. During manipulation, humans actively coordinate head and hand movements, continuously reposition their viewpoint and use pre-action visual fixation search strategies to locate relevant objects. These behaviors create dynamic, task-driven head motions that static robot sensing systems cannot replicate, leading to a significant distribution shift that degrades policy performance. We present EgoMI (Egocentric Manipulation Interface), a framework that captures synchronized end-effector and active head trajectories during manipulation tasks, resulting in data that can be retargeted to compatible semi-humanoid robot embodiments. To handle rapid and wide-spanning head viewpoint changes, we introduce a memory-augmented policy that selectively incorporates historical observations. We evaluate our approach on a bimanual robot equipped with an actuated camera head and find that policies with explicit head-motion modeling consistently outperform baseline methods. Results suggest that coordinated hand-eye learning with EgoMI effectively bridges the human-robot embodiment gap for robust imitation learning on semi-humanoid embodiments. Project page: https://egocentric-manipulation-interface.github.io