ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

作者: Yanwen Zou, Chenyang Shi, Wenye Yu, Han Xue, Jun Lv, Ye Pan, Chuan Wen, Cewu Lu

分类: cs.RO

发布日期: 2026-04-09

💡 一句话要点

ActiveGlasses：利用第一视角人类演示学习主动视觉操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 主动视觉 第一视角 零样本迁移 模仿学习

📋 核心要点

现有机器人操作学习方法依赖手持设备，增加操作负担，难以捕捉人类自然感知-操作行为。
ActiveGlasses系统利用智能眼镜上的立体相机，从第一视角人类演示中学习机器人操作。
实验表明，ActiveGlasses在遮挡和精确交互任务中实现了零样本迁移，优于现有基线方法。

📝 摘要（中文）

为了将机器人更广泛地应用于日常生活中，大规模的真实世界机器人数据收集至关重要。然而，现有的流程通常依赖于专门的手持设备来弥合具身差距，这不仅增加了操作员的负担并限制了可扩展性，而且难以捕捉人类日常交互中自然协调的感知-操作行为。为了解决这一挑战，本文提出了一种更自然的系统ActiveGlasses，该系统能够忠实地捕捉人类的操作和感知行为，同时实现到机器人平台的零样本迁移。ActiveGlasses使用安装在智能眼镜上的立体相机作为数据收集和策略推理的唯一感知设备：操作员在裸手演示期间佩戴它，并且在部署期间将相同的相机安装在6自由度感知臂上，以重现人类的主动视觉。为了实现零样本迁移，我们从演示中提取对象轨迹，并使用以对象为中心的点云策略来联合预测操作和头部运动。在涉及遮挡和精确交互的几个具有挑战性的任务中，ActiveGlasses实现了具有主动视觉的零样本迁移，在相同的硬件设置下始终优于强大的基线，并且可以推广到两个机器人平台。

🔬 方法详解

问题定义：现有机器人操作学习方法依赖于专门的手持设备，这些设备增加了操作员的负担，限制了数据收集的可扩展性，并且难以捕捉人类在日常交互中自然协调的感知-操作行为。这些方法无法很好地模拟人类的第一视角感知和主动视觉策略，导致机器人难以在复杂环境中进行操作。

核心思路：ActiveGlasses的核心思路是利用智能眼镜上的立体相机，从人类的第一视角演示中学习机器人操作策略。通过模仿人类的头部运动和操作行为，机器人可以更好地理解和执行任务。这种方法旨在弥合人类演示和机器人执行之间的差距，实现零样本迁移。

技术框架：ActiveGlasses系统包含两个主要阶段：数据收集和策略推理。在数据收集阶段，操作员佩戴智能眼镜进行裸手演示，立体相机记录下操作员的视角和动作。然后，从演示数据中提取对象轨迹。在策略推理阶段，将相同的立体相机安装在6自由度感知臂上，机器人通过观察场景并根据学习到的策略执行操作和头部运动。该策略基于对象中心点云，用于联合预测操作和头部运动。

关键创新：ActiveGlasses的关键创新在于使用智能眼镜进行第一视角数据收集，并利用对象中心点云策略实现零样本迁移。通过模仿人类的主动视觉行为，机器人可以更好地处理遮挡和不确定性。此外，该系统能够直接将人类演示迁移到机器人平台，无需进行额外的训练或调整。

关键设计：ActiveGlasses使用立体相机获取场景的点云数据。对象轨迹通过视觉算法从演示数据中提取。策略网络以对象中心点云作为输入，预测机器人的操作和头部运动。损失函数的设计旨在鼓励机器人模仿人类的操作和头部运动，并最小化预测误差。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

ActiveGlasses在多个具有挑战性的任务中进行了评估，包括涉及遮挡和精确交互的任务。实验结果表明，ActiveGlasses实现了零样本迁移，并且在相同的硬件设置下始终优于强大的基线方法。此外，ActiveGlasses可以推广到两个不同的机器人平台，证明了其泛化能力。具体而言，ActiveGlasses在任务成功率方面显著优于其他基线方法。

🎯 应用场景

ActiveGlasses技术可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化和医疗辅助机器人。通过学习人类的自然操作方式，机器人可以更好地适应复杂环境，并执行需要精细操作的任务。该技术还可以用于远程操作，使操作员能够通过智能眼镜控制远端机器人。

📄 摘要（原文）

Large-scale real-world robot data collection is a prerequisite for bringing robots into everyday deployment. However, existing pipelines often rely on specialized handheld devices to bridge the embodiment gap, which not only increases operator burden and limits scalability, but also makes it difficult to capture the naturally coordinated perception-manipulation behaviors of human daily interaction. This challenge calls for a more natural system that can faithfully capture human manipulation and perception behaviors while enabling zero-shot transfer to robotic platforms. We introduce ActiveGlasses, a system for learning robot manipulation from ego-centric human demonstrations with active vision. A stereo camera mounted on smart glasses serves as the sole perception device for both data collection and policy inference: the operator wears it during bare-hand demonstrations, and the same camera is mounted on a 6-DoF perception arm during deployment to reproduce human active vision. To enable zero-transfer, we extract object trajectories from demonstrations and use an object-centric point-cloud policy to jointly predict manipulation and head movement. Across several challenging tasks involving occlusion and precise interaction, ActiveGlasses achieves zero-shot transfer with active vision, consistently outperforms strong baselines under the same hardware setup, and generalizes across two robot platforms.

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理