OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation
作者: Jinhan Li, Yifeng Zhu, Yuqi Xie, Zhenyu Jiang, Mingyo Seo, Georgios Pavlakos, Yuke Zhu
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2024-10-15
备注: Accepted for oral presentation at 8th Annual Conference on Robot Learning. Project website: https://ut-austin-rpl.github.io/OKAMI/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
OKAMI:通过单视频模仿教人形机器人操作技能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 人形机器人 模仿学习 单视频模仿 对象感知 开放世界 视觉运动策略 机器人操作
📋 核心要点
- 现有方法难以让人形机器人在开放环境中仅通过单视频模仿学习操作技能,泛化性不足。
- OKAMI通过对象感知的重定向,使机器人能够模仿人类动作,并适应不同对象位置,实现更好的泛化。
- 实验表明,OKAMI优于现有方法,并能通过rollout轨迹训练闭环策略,无需人工干预即可达到较高成功率。
📝 摘要(中文)
本文研究了通过模仿单视频演示来教人形机器人操作技能的问题。我们提出了OKAMI,一种从单个RGB-D视频生成操作计划并推导出执行策略的方法。我们方法的核心是对象感知的重定向,这使得人形机器人能够模仿RGB-D视频中的人体动作,同时在部署期间调整到不同的对象位置。OKAMI使用开放世界视觉模型来识别任务相关的对象,并分别重定向身体动作和手部姿势。实验表明,OKAMI在不同的视觉和空间条件下实现了强大的泛化能力,优于最先进的基于观察的开放世界模仿基线。此外,OKAMI的rollout轨迹被用于训练闭环视觉运动策略,无需人工远程操作即可实现平均79.2%的成功率。
🔬 方法详解
问题定义:现有方法在让人形机器人通过单视频模仿学习操作技能时,面临着泛化性差的问题。机器人难以适应不同的视觉和空间条件,无法有效地识别和利用视频中的信息来完成任务。此外,依赖人工远程操作进行策略训练成本高昂。
核心思路:OKAMI的核心思路是利用对象感知的重定向,将人类在视频中的动作迁移到机器人身上,同时考虑到物体位置的差异。通过开放世界视觉模型识别任务相关对象,并分别处理身体动作和手部姿势,从而实现更好的泛化能力。
技术框架:OKAMI的整体框架包括以下几个阶段:1) 从RGB-D视频中提取人体和物体的姿态信息;2) 使用开放世界视觉模型识别任务相关的物体;3) 对人体动作和手部姿势进行对象感知的重定向,生成机器人的运动轨迹;4) 使用生成的运动轨迹进行rollout,并训练闭环视觉运动策略。
关键创新:OKAMI的关键创新在于对象感知的重定向方法,它能够使机器人模仿人类动作,并适应不同物体位置。与现有方法相比,OKAMI不需要人工远程操作,并且在开放世界环境中具有更好的泛化能力。
关键设计:OKAMI使用预训练的开放世界视觉模型(例如CLIP)来识别任务相关的对象。在重定向过程中,分别处理身体动作和手部姿势,以提高模仿的准确性。利用rollout轨迹训练闭环视觉运动策略时,采用强化学习算法(例如PPO)进行优化。
🖼️ 关键图片
📊 实验亮点
OKAMI在开放世界模仿任务中优于现有方法,并在不同的视觉和空间条件下实现了强大的泛化能力。通过rollout轨迹训练的闭环视觉运动策略,无需人工远程操作即可实现平均79.2%的成功率。这些结果表明,OKAMI是一种有效的人形机器人操作技能学习方法。
🎯 应用场景
OKAMI具有广泛的应用前景,例如在家庭服务、工业自动化和医疗保健等领域。它可以让人形机器人通过观看视频学习各种操作技能,从而提高机器人的自主性和适应性。此外,OKAMI还可以用于生成训练数据,降低机器人学习的成本。
📄 摘要(原文)
We study the problem of teaching humanoid robots manipulation skills by imitating from single video demonstrations. We introduce OKAMI, a method that generates a manipulation plan from a single RGB-D video and derives a policy for execution. At the heart of our approach is object-aware retargeting, which enables the humanoid robot to mimic the human motions in an RGB-D video while adjusting to different object locations during deployment. OKAMI uses open-world vision models to identify task-relevant objects and retarget the body motions and hand poses separately. Our experiments show that OKAMI achieves strong generalizations across varying visual and spatial conditions, outperforming the state-of-the-art baseline on open-world imitation from observation. Furthermore, OKAMI rollout trajectories are leveraged to train closed-loop visuomotor policies, which achieve an average success rate of 79.2% without the need for labor-intensive teleoperation. More videos can be found on our website https://ut-austin-rpl.github.io/OKAMI/.