ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

作者: Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Jason Ma, Dinesh Jayaraman

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-03-31

备注: ICRA 2025. Project website: https://zeromimic.github.io/

💡 一句话要点

ZeroMimic：从网络视频中蒸馏机器人操作技能，实现零样本迁移。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 机器人操作 模仿学习 视频理解 零样本学习 技能蒸馏

📋 核心要点

现有机器人操作学习依赖于在相同机器人、环境和对象上收集的演示数据，获取成本高昂。
ZeroMimic从网络视频中提取知识，生成图像目标条件技能策略，无需机器人特定数据。
实验表明，ZeroMimic在真实和模拟环境中，对多种操作任务和机器人具有良好的泛化能力。

📝 摘要（中文）

本文提出了一种名为ZeroMimic的系统，旨在从预先录制的大量人类操作视频数据集中提取有用的机器人技能策略，而无需额外的机器人特定演示或探索。ZeroMimic能够为多种常见的操作任务（如打开、关闭、倾倒、拾取放置、切割和搅拌）生成即时可部署的图像目标条件技能策略，这些策略能够处理不同的对象和各种未见过的任务设置。ZeroMimic利用了人类视频语义和几何视觉理解的最新进展，以及现代抓取能力检测器和模仿策略类。在流行的EpicKitchens数据集上训练后，ZeroMimic在各种真实和模拟厨房环境中，使用两种不同的机器人形态进行了评估，展示了其处理这些不同任务的强大能力。为了方便ZeroMimic策略在其他任务设置和机器人上的即插即用复用，作者发布了软件和策略检查点。

🔬 方法详解

问题定义：现有机器人操作模仿学习方法严重依赖于特定机器人和环境下的演示数据，收集成本高，泛化能力差。缺乏利用互联网上大量人类操作视频数据的有效方法，这些数据蕴含着丰富的操作技能知识。

核心思路：ZeroMimic的核心思路是从人类操作视频中提取语义和几何信息，并将其转化为机器人可以理解和执行的技能策略。通过模仿学习，将人类的操作行为迁移到机器人上，实现零样本的技能泛化。

技术框架：ZeroMimic的整体框架包括以下几个主要模块：1) 视频理解模块：利用现有的语义和几何视觉理解技术，从人类操作视频中提取场景信息、物体信息和操作动作信息。2) 抓取能力检测模块：使用抓取能力检测器，预测物体上适合抓取的区域。3) 模仿学习模块：使用图像目标条件策略，学习从当前状态到目标状态的操作策略。4) 策略部署模块：将学习到的策略部署到真实的机器人或模拟环境中进行测试。

关键创新：ZeroMimic的关键创新在于：1) 首次提出从大规模人类操作视频中蒸馏机器人操作技能的思想。2) 设计了一套完整的系统，能够将人类的操作行为转化为机器人可以执行的技能策略。3) 实现了零样本的技能泛化，即在没有机器人特定数据的情况下，也能在新的环境和对象上执行操作任务。

关键设计：ZeroMimic的关键设计包括：1) 使用EpicKitchens数据集进行训练，该数据集包含大量的人类第一视角厨房操作视频。2) 使用图像目标条件策略，将操作任务定义为从当前图像到目标图像的转换。3) 使用抓取能力检测器，辅助机器人选择合适的抓取位置。4) 采用模块化的设计，方便策略的复用和扩展。

🖼️ 关键图片

📊 实验亮点

ZeroMimic在真实和模拟厨房环境中进行了评估，结果表明，该系统能够成功地执行多种操作任务，如打开、关闭、倾倒、拾取放置、切割和搅拌。在不同的对象和任务设置下，ZeroMimic都表现出了良好的泛化能力。作者还发布了软件和策略检查点，方便其他研究者复现和使用。

🎯 应用场景

ZeroMimic具有广泛的应用前景，例如：1) 智能家居：机器人可以学习执行各种家务操作，如烹饪、清洁等。2) 工业自动化：机器人可以学习执行各种装配、搬运等任务。3) 医疗辅助：机器人可以辅助医生进行手术操作。该研究有望降低机器人操作技能学习的成本，加速机器人在各个领域的应用。

📄 摘要（原文）

Many recent advances in robotic manipulation have come through imitation learning, yet these rely largely on mimicking a particularly hard-to-acquire form of demonstrations: those collected on the same robot in the same room with the same objects as the trained policy must handle at test time. In contrast, large pre-recorded human video datasets demonstrating manipulation skills in-the-wild already exist, which contain valuable information for robots. Is it possible to distill a repository of useful robotic skill policies out of such data without any additional requirements on robot-specific demonstrations or exploration? We present the first such system ZeroMimic, that generates immediately deployable image goal-conditioned skill policies for several common categories of manipulation tasks (opening, closing, pouring, pick&place, cutting, and stirring) each capable of acting upon diverse objects and across diverse unseen task setups. ZeroMimic is carefully designed to exploit recent advances in semantic and geometric visual understanding of human videos, together with modern grasp affordance detectors and imitation policy classes. After training ZeroMimic on the popular EpicKitchens dataset of ego-centric human videos, we evaluate its out-of-the-box performance in varied real-world and simulated kitchen settings with two different robot embodiments, demonstrating its impressive abilities to handle these varied tasks. To enable plug-and-play reuse of ZeroMimic policies on other task setups and robots, we release software and policy checkpoints of our skill policies.

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理