Vision-based Manipulation from Single Human Video with Open-World Object Graphs
作者: Yifeng Zhu, Arisrei Lim, Peter Stone, Yuke Zhu
分类: cs.RO, cs.CV, cs.LG
发布日期: 2024-05-30 (更新: 2025-09-04)
备注: Extended version of paper adding results with RGB-only demonstration videos uploaded on 09/04/2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
ORION:基于单视角人类视频学习开放世界物体操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人操作 模仿学习 开放世界 物体图 单视角视频
📋 核心要点
- 现有机器人操作方法难以泛化到开放世界,尤其是在仅有少量甚至单个人类演示视频的情况下。
- ORION算法从单视角RGB/RGB-D视频中提取以物体为中心的操作计划,并以此为条件学习操作策略。
- 实验表明,ORION在不同任务和视频类型下均表现出良好的操作成功率,平均成功率达到74.4%。
📝 摘要(中文)
本文提出了一种以物体为中心的策略,用于从人类视频中学习基于视觉的操作技能。我们研究了在开放世界环境中通过模仿学习进行机器人操作的问题,即机器人从单个视频演示中学习操作新物体。我们介绍了一种名为ORION的算法,该算法通过从单个RGB或RGB-D视频中提取以物体为中心的操作计划,并推导出以提取的计划为条件的策略来解决该问题。我们的方法使机器人能够从日常移动设备捕获的视频中学习,并将策略推广到具有不同视觉背景、相机角度、空间布局和新物体实例的部署环境。我们使用RGB-D和仅RGB的演示视频,在短时程和长时程任务上系统地评估了我们的方法。在不同的任务和演示类型(RGB-D / RGB)中,我们观察到平均74.4%的成功率,证明了ORION在开放世界中从单个人类视频中学习的有效性。
🔬 方法详解
问题定义:论文旨在解决开放世界中,机器人仅通过单个人类视频演示学习操作新物体的难题。现有方法通常需要大量数据或难以泛化到新的环境和物体,限制了机器人在真实场景中的应用。
核心思路:论文的核心思路是从人类演示视频中提取以物体为中心的操作计划,并以此作为机器人的指导。通过关注物体及其关系,可以减少对环境和相机视角的依赖,提高泛化能力。
技术框架:ORION算法包含以下主要阶段:1) 从RGB或RGB-D视频中提取物体图,表示物体及其之间的关系;2) 基于物体图生成操作计划,描述操作的步骤和目标;3) 训练一个策略网络,该网络以操作计划为条件,控制机器人的动作。整体流程是从视频中提取知识,然后将知识转化为可执行的机器人策略。
关键创新:最重要的创新点在于将操作计划表示为以物体为中心的图结构,这种表示方法能够有效地捕捉操作的关键信息,并提高策略的泛化能力。与传统的直接模仿学习方法相比,ORION更加关注操作的本质,而非仅仅复制人类的动作。
关键设计:物体图的构建依赖于目标检测和关系预测模型。操作计划的生成可能涉及序列到序列的模型,将物体图转化为操作步骤序列。策略网络的设计需要考虑如何有效地利用操作计划的信息,例如可以使用注意力机制来关注与当前步骤相关的物体。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ORION算法在多个操作任务上取得了显著的成功率,平均达到74.4%。该算法能够从单个RGB或RGB-D视频中学习,并在不同的视觉背景、相机角度和物体实例下泛化。与直接模仿学习等基线方法相比,ORION在泛化能力和鲁棒性方面表现出明显的优势。
🎯 应用场景
该研究成果可应用于各种需要机器人进行物体操作的场景,例如家庭服务、工业自动化和医疗辅助。通过从人类演示视频中学习,机器人可以快速适应新的任务和环境,降低了机器人部署和维护的成本。未来,该技术有望实现更加智能和灵活的机器人系统。
📄 摘要(原文)
This work presents an object-centric approach to learning vision-based manipulation skills from human videos. We investigate the problem of robot manipulation via imitation in the open-world setting, where a robot learns to manipulate novel objects from a single video demonstration. We introduce ORION, an algorithm that tackles the problem by extracting an object-centric manipulation plan from a single RGB or RGB-D video and deriving a policy that conditions on the extracted plan. Our method enables the robot to learn from videos captured by daily mobile devices and to generalize the policies to deployment environments with varying visual backgrounds, camera angles, spatial layouts, and novel object instances. We systematically evaluate our method on both short-horizon and long-horizon tasks, using RGB-D and RGB-only demonstration videos. Across varied tasks and demonstration types (RGB-D / RGB), we observe an average success rate of 74.4%, demonstrating the efficacy of ORION in learning from a single human video in the open world. Additional materials can be found on our project website: https://ut-austin-rpl.github.io/ORION-release.