EgoZero: Robot Learning from Smart Glasses

作者: Vincent Liu, Ademi Adeniji, Haotian Zhan, Siddhant Haldar, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto

分类: cs.RO, cs.AI

发布日期: 2025-05-26 (更新: 2025-06-03)

💡 一句话要点

EgoZero：利用智能眼镜的人类演示数据，实现零样本机器人学习

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人学习 零样本迁移 人类演示 智能眼镜 形态无关 操作任务 模仿学习

📋 核心要点

通用机器人技术进步迅速，但机器人策略在真实世界中仍落后于人类的基本能力。
EgoZero利用智能眼镜捕捉的人类演示数据，提取机器人可执行动作，学习鲁棒的操作策略，无需机器人数据。
在Franka Panda机器人上，EgoZero在7个操作任务上实现了70%的零样本迁移成功率，数据收集时间短。

📝 摘要（中文）

本文提出EgoZero，一个极简系统，仅使用Project Aria智能眼镜捕获的人类演示数据，学习鲁棒的机器人操作策略，无需任何机器人数据。EgoZero能够：(1) 从真实场景、以自我为中心的人类演示中提取完整的、机器人可执行的动作；(2) 将人类视觉观察压缩成与机器人形态无关的状态表示；(3) 进行闭环策略学习，实现形态、空间和语义上的泛化。EgoZero策略部署在带有夹爪的Franka Panda机器人上，在7个操作任务上实现了70%的零样本迁移成功率，每个任务仅需20分钟的数据收集。结果表明，真实场景中的人类数据可以作为机器人学习的可扩展基础，为机器人提供丰富、多样和自然的训练数据。

🔬 方法详解

问题定义：现有机器人学习方法依赖大量的机器人自身数据，收集成本高昂且效率低下。人类与物理世界的交互数据蕴含丰富信息，但如何有效利用这些数据，特别是以自我为中心的视角捕获的数据，仍然是一个挑战。现有方法难以从人类演示中提取机器人可执行的动作，并且难以实现跨形态、空间和语义的泛化。

核心思路：EgoZero的核心思路是利用智能眼镜捕捉的人类第一视角视频，从中提取机器人可以理解和执行的动作指令，并学习一个与机器人形态无关的状态表示。通过这种方式，可以将人类的知识迁移到机器人上，而无需机器人进行大量的自主探索和学习。这种方法旨在弥合人类和机器人之间的差距，使机器人能够像人类一样自然地与环境交互。

技术框架：EgoZero系统包含三个主要模块：(1) 动作提取模块：从人类演示视频中提取机器人可执行的动作序列。这通常涉及将人类的动作映射到机器人的关节运动或末端执行器的控制指令。(2) 状态表示学习模块：将人类的视觉观察压缩成一个低维的状态表示，该表示与机器人的具体形态无关。这可以通过自编码器或其他表示学习技术来实现。(3) 策略学习模块：利用学习到的状态表示和提取的动作序列，训练一个闭环控制策略。该策略能够根据当前状态，输出相应的动作指令，从而控制机器人完成任务。

关键创新：EgoZero的关键创新在于它能够仅使用人类演示数据进行机器人学习，而无需任何机器人自身的数据。这极大地降低了机器人学习的成本和难度。此外，EgoZero还能够学习与机器人形态无关的状态表示，从而实现跨形态的泛化。

关键设计：EgoZero的具体实现细节包括：使用Project Aria智能眼镜进行数据采集；使用深度学习模型进行动作提取和状态表示学习；使用强化学习或模仿学习算法训练控制策略。损失函数的设计需要考虑动作的准确性和状态表示的鲁棒性。网络结构的选择需要根据具体的任务和数据特点进行调整。

🖼️ 关键图片

📊 实验亮点

EgoZero在7个操作任务上实现了70%的零样本迁移成功率，证明了该方法的可行性和有效性。与传统的机器人学习方法相比，EgoZero无需任何机器人数据，极大地降低了数据收集成本。此外，EgoZero还能够实现跨形态、空间和语义的泛化，使其能够适应不同的机器人和环境。

🎯 应用场景

EgoZero技术可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化机器人和医疗辅助机器人。通过利用人类的知识和经验，可以显著提高机器人的智能化水平和适应能力。该技术还有潜力推动人机协作的发展，使机器人能够更好地理解人类的意图并与之协同工作。

📄 摘要（原文）

Despite recent progress in general purpose robotics, robot policies still lag far behind basic human capabilities in the real world. Humans interact constantly with the physical world, yet this rich data resource remains largely untapped in robot learning. We propose EgoZero, a minimal system that learns robust manipulation policies from human demonstrations captured with Project Aria smart glasses, $\textbf{and zero robot data}$. EgoZero enables: (1) extraction of complete, robot-executable actions from in-the-wild, egocentric, human demonstrations, (2) compression of human visual observations into morphology-agnostic state representations, and (3) closed-loop policy learning that generalizes morphologically, spatially, and semantically. We deploy EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of data collection per task. Our results suggest that in-the-wild human data can serve as a scalable foundation for real-world robot learning - paving the way toward a future of abundant, diverse, and naturalistic training data for robots. Code and videos are available at https://egozero-robot.github.io.

EgoZero: Robot Learning from Smart Glasses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理