Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy for Visuomotor Imitation Learning

作者: George Jiayuan Gao, Tianyu Li, Nadia Figueroa

分类: cs.RO, cs.AI

发布日期: 2024-11-05 (更新: 2025-07-16)

备注: IROS 2025. Project Website: https://sites.google.com/view/ocr-penn

💡 一句话要点

提出基于对象关键点的逆策略恢复框架，提升视觉运动模仿学习在分布外场景的鲁棒性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉运动模仿学习 分布外泛化 对象中心表示 逆策略学习 机器人控制

📋 核心要点

行为克隆在分布外场景失效，因为其依赖大量训练数据覆盖，缺乏泛化能力。
提出对象中心恢复框架，通过学习逆策略引导系统返回训练分布，无需额外数据。
实验表明，该框架在分布外场景中性能提升显著，并具备自主收集数据持续学习的能力。

📝 摘要（中文）

本文提出了一种以对象为中心的恢复(OCR)框架，旨在解决视觉运动策略学习中分布外(OOD)场景的挑战。先前的行为克隆(BC)方法严重依赖大量标注数据覆盖，在不熟悉的空间状态下失效。我们的方法不依赖额外的数据收集，而是学习一种恢复策略，该策略由从原始训练数据中对象关键点流形梯度推断出的逆策略构建。恢复策略作为任何基础视觉运动BC策略的简单附加组件，与特定方法无关，引导系统返回到训练分布，以确保即使在OOD情况下也能成功完成任务。我们在模拟和真实机器人实验中证明了我们以对象为中心的框架的有效性，在OOD中实现了比基础策略77.7%的改进。此外，我们展示了OCR自主收集演示以进行持续学习的能力。总的来说，我们相信这个框架代表了朝着提高视觉运动策略在现实世界环境中鲁棒性迈出的一步。

🔬 方法详解

问题定义：现有的视觉运动模仿学习方法，特别是行为克隆(BC)，在训练数据分布内表现良好，但在遇到分布外(OOD)场景时，由于缺乏对未见过的状态的泛化能力，性能会显著下降。这些方法依赖于大量标注数据，难以覆盖所有可能的真实世界状态，导致在OOD情况下策略失效。因此，如何提高视觉运动策略在OOD场景下的鲁棒性是一个关键问题。

核心思路：本文的核心思路是学习一个恢复策略，该策略能够将系统从OOD状态引导回训练数据的分布范围内。这个恢复策略不是直接学习一个复杂的控制策略，而是学习一个逆策略，即给定当前状态和目标状态（训练数据分布内的状态），预测需要执行的动作。通过这种方式，即使系统处于OOD状态，恢复策略也能将其拉回熟悉的区域，从而提高整体的鲁棒性。

技术框架：整体框架包含两个主要部分：一个基础的视觉运动行为克隆(BC)策略和一个对象中心恢复(OCR)策略。BC策略负责在训练数据分布内执行任务，而OCR策略则在系统偏离训练分布时激活，引导系统返回。OCR策略通过以下步骤实现：1) 从训练数据中提取对象关键点，构建对象关键点流形；2) 学习一个逆策略，该策略能够根据当前状态和目标状态（即关键点流形上的点）预测动作；3) 在OOD情况下，使用逆策略生成恢复动作，将系统拉回训练分布。

关键创新：该方法最重要的创新点在于其对象中心的恢复策略。与传统的直接学习控制策略不同，该方法学习一个逆策略，该策略能够根据对象关键点流形梯度将系统拉回训练分布。这种方法具有以下优点：1) 不需要额外的数据收集，利用现有的训练数据即可学习恢复策略；2) 与特定的BC策略无关，可以作为任何BC策略的附加组件；3) 能够有效地处理OOD情况，提高整体的鲁棒性。

关键设计：关键设计包括：1) 对象关键点的选择和提取，需要选择能够有效描述对象状态的关键点；2) 逆策略的学习，可以使用各种机器学习方法，例如神经网络；3) 恢复策略的激活条件，需要设计一个合适的指标来判断系统是否处于OOD状态，例如基于重构误差或置信度评分。损失函数的设计需要考虑逆策略的准确性和恢复动作的有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在分布外场景中比基础策略提高了77.7%的性能。此外，该方法还展示了自主收集演示以进行持续学习的能力，进一步验证了其在实际应用中的潜力。在模拟和真实机器人实验中均取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于各种需要鲁棒视觉运动控制的机器人任务中，例如家庭服务机器人、工业自动化机器人和自动驾驶汽车。通过提高策略在未知环境中的适应能力，可以显著提升机器人的实用性和安全性，降低部署成本，并加速机器人在现实世界中的应用。

📄 摘要（原文）

We propose an object-centric recovery (OCR) framework to address the challenges of out-of-distribution (OOD) scenarios in visuomotor policy learning. Previous behavior cloning (BC) methods rely heavily on a large amount of labeled data coverage, failing in unfamiliar spatial states. Without relying on extra data collection, our approach learns a recovery policy constructed by an inverse policy inferred from the object keypoint manifold gradient in the original training data. The recovery policy serves as a simple add-on to any base visuomotor BC policy, agnostic to a specific method, guiding the system back towards the training distribution to ensure task success even in OOD situations. We demonstrate the effectiveness of our object-centric framework in both simulation and real robot experiments, achieving an improvement of 77.7\% over the base policy in OOD. Furthermore, we show OCR's capacity to autonomously collect demonstrations for continual learning. Overall, we believe this framework represents a step toward improving the robustness of visuomotor policies in real-world settings.

Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy for Visuomotor Imitation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理