EMMA: Scaling Mobile Manipulation via Egocentric Human Data

📄 arXiv: 2509.04443v2 📥 PDF

作者: Lawrence Y. Zhu, Pranav Kuppili, Ryan Punamiya, Patcharapong Aphiwetsa, Dhruv Patel, Simar Kareer, Sehoon Ha, Danfei Xu

分类: cs.RO

发布日期: 2025-09-04 (更新: 2025-12-02)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

EMMA:利用以人为中心的视觉数据扩展移动操作模仿学习

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动操作 模仿学习 机器人学习 人类数据 端到端学习

📋 核心要点

  1. 移动操作模仿学习依赖昂贵的机器人遥操作数据,限制了其扩展性。
  2. EMMA通过联合训练人类全身运动数据和静态机器人数据,避免了对移动机器人遥操作数据的依赖。
  3. 实验表明,EMMA在真实世界任务中表现与Mobile ALOHA相当,并能推广到新的场景。

📝 摘要(中文)

移动操作模仿学习的扩展受限于昂贵的移动机器人遥操作数据。我们提出了以人为中心的移动操作(EMMA)框架,这是一个端到端的框架,它使用人类移动操作数据和静态机器人数据来训练移动操作策略,从而避免了移动遥操作。为了实现这一点,我们将人类全身运动数据与静态机器人数据共同训练。在三个真实世界任务的实验中,EMMA展示了与基于遥操作移动机器人数据(Mobile ALOHA)训练的基线相当的性能,在完整任务成功率方面实现了更高或同等的任务性能。我们发现EMMA能够推广到新的空间配置和场景,并且随着人类数据小时数的增加,我们观察到积极的性能扩展,这为真实世界环境中可扩展的机器人学习开辟了新的途径。该项目的详细信息可在https://ego-moma.github.io/找到。

🔬 方法详解

问题定义:论文旨在解决移动操作模仿学习中数据获取成本高昂的问题。现有方法主要依赖于移动机器人的遥操作数据,这种数据获取方式成本高、效率低,严重限制了移动操作模仿学习的扩展性。

核心思路:论文的核心思路是利用更容易获取的人类移动操作数据来训练机器人策略,并结合静态机器人数据进行辅助训练。通过这种方式,可以避免对昂贵的移动机器人遥操作数据的依赖,从而降低数据获取成本,提高学习效率。

技术框架:EMMA框架是一个端到端的学习框架,主要包含以下几个模块:1) 人类全身运动数据采集模块;2) 静态机器人数据采集模块;3) 联合训练模块,该模块将人类数据和机器人数据进行融合,并训练移动操作策略;4) 策略部署模块,将训练好的策略部署到真实的移动机器人上。

关键创新:论文最重要的创新点在于提出了利用人类数据进行移动操作模仿学习的思路,并设计了相应的联合训练框架。与现有方法相比,EMMA无需依赖昂贵的移动机器人遥操作数据,从而降低了数据获取成本,提高了学习效率。

关键设计:在联合训练模块中,论文可能采用了对比学习或领域自适应等技术,以减小人类数据和机器人数据之间的差异。具体的网络结构和损失函数等细节未知,但可以推测其目标是使机器人能够从人类数据中学习到通用的移动操作技能,并将其迁移到机器人上。

📊 实验亮点

EMMA在三个真实世界任务中取得了与Mobile ALOHA相当甚至更高的性能。实验结果表明,EMMA能够推广到新的空间配置和场景,并且随着人类数据量的增加,性能呈现出积极的扩展趋势。这些结果验证了EMMA框架的有效性和潜力。

🎯 应用场景

该研究成果可广泛应用于家庭服务机器人、物流机器人、医疗机器人等领域。通过利用人类数据进行训练,可以使机器人更高效、更灵活地完成各种移动操作任务,例如物品搬运、清洁、辅助医疗等。该研究有望推动移动操作机器人在实际生活中的广泛应用。

📄 摘要(原文)

Scaling mobile manipulation imitation learning is bottlenecked by expensive mobile robot teleoperation. We present Egocentric Mobile MAnipulation (EMMA), an end-to-end framework training mobile manipulation policies from human mobile manipulation data with static robot data, sidestepping mobile teleoperation. To accomplish this, we co-train human full-body motion data with static robot data. In our experiments across three real-world tasks, EMMA demonstrates comparable performance to baselines trained on teleoperated mobile robot data (Mobile ALOHA), achieving higher or equivalent task performance in full task success. We find that EMMA is able to generalize to new spatial configurations and scenes, and we observe positive performance scaling as we increase the hours of human data, opening new avenues for scalable robotic learning in real-world environments. Details of this project can be found at https://ego-moma.github.io/.