On-Robot Reinforcement Learning with Goal-Contrastive Rewards

作者: Ondrej Biza, Thomas Weng, Lingfeng Sun, Karl Schmeckpeper, Tarik Kelestemur, Yecheng Jason Ma, Robert Platt, Jan-Willem van de Meent, Lawson L. S. Wong

分类: cs.RO, cs.LG

发布日期: 2024-10-25 (更新: 2025-05-14)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于目标对比奖励的机器人强化学习方法，提升样本效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting)

关键词: 机器人强化学习 奖励函数学习 目标对比学习 视频数据 跨具身迁移

📋 核心要点

现有强化学习在机器人上的应用受限于稀疏奖励和探索效率低，人工设计密集奖励函数成本高昂。
GCR通过被动视频学习密集奖励函数，结合隐式价值损失和目标对比损失，区分成功和失败轨迹。
实验表明，GCR提升了样本效率，使无模型强化学习能解决更多任务，并支持跨具身迁移。

📝 摘要（中文）

强化学习(RL)有潜力使机器人通过在现实世界中的自主行为进行学习。然而，由于在稀疏奖励信号下探索效率低下，RL在机器人上的运行成本可能过高。设计密集的奖励函数既费力又需要领域专业知识。本文提出了一种密集奖励函数学习方法GCR（目标对比奖励），该方法可以通过被动视频演示进行训练。通过使用无动作的视频，该方法更易于扩展，因为可以使用任意视频。GCR结合了两个损失函数：一个隐式价值损失函数，用于建模在遍历成功轨迹时奖励如何增加；以及一个目标对比损失，用于区分成功和失败的轨迹。在RoboMimic和MimicGen任务的模拟操作环境以及使用Franka机械臂和Spot四足机器人的真实世界中进行了实验。结果表明，GCR能够实现更高效的样本强化学习，使无模型强化学习能够解决的任务数量大约是基线奖励学习方法的两倍。还展示了从人类和其他机器人执行任务的视频中进行的正向跨具身迁移。

🔬 方法详解

问题定义：现有机器人强化学习方法在稀疏奖励环境下探索效率低，需要人工设计密集的奖励函数，这既耗时又需要领域专业知识。如何利用更易获取的无动作视频数据，学习有效的奖励函数，提升强化学习的样本效率，是本文要解决的问题。

核心思路：本文的核心思路是利用目标对比学习，从被动视频中学习奖励函数。通过区分成功和失败的轨迹，学习奖励函数，引导智能体朝着目标状态前进。这种方法避免了手动设计奖励函数的复杂性，并能够利用大量的无标注视频数据。

技术框架：GCR方法的整体框架包括以下几个主要步骤：1) 数据收集：收集包含任务演示的视频数据，这些视频不需要包含动作信息。2) 奖励函数学习：使用GCR方法，基于视频数据学习奖励函数。GCR方法包含两个损失函数：隐式价值损失函数和目标对比损失函数。3) 强化学习训练：使用学习到的奖励函数，训练机器人执行任务。

关键创新：GCR的关键创新在于其奖励函数学习方法，它结合了隐式价值损失和目标对比损失。隐式价值损失函数建模了奖励在成功轨迹上的增长，而目标对比损失函数则区分了成功和失败的轨迹。这种结合使得GCR能够学习到更有效的奖励函数，从而提升强化学习的样本效率。与现有方法相比，GCR可以直接利用无动作视频数据进行训练，降低了数据收集的成本。

关键设计：GCR的关键设计包括：1) 隐式价值损失函数：该损失函数通过比较相邻帧之间的状态差异来估计奖励的变化。2) 目标对比损失函数：该损失函数通过对比成功轨迹和失败轨迹，学习区分不同轨迹的奖励。3) 网络结构：GCR使用一个神经网络来学习奖励函数，该网络以状态作为输入，输出奖励值。具体的网络结构和参数设置需要根据具体的任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GCR方法在模拟和真实机器人环境中均取得了显著的性能提升。在RoboMimic和MimicGen任务中，GCR使无模型强化学习能够解决的任务数量大约是基线奖励学习方法的两倍。此外，GCR还展示了正向的跨具身迁移能力，可以利用人类和其他机器人的视频进行训练。

🎯 应用场景

该研究成果可应用于各种机器人任务，例如物体抓取、操作、导航等。通过利用大量的视频数据，可以降低机器人强化学习的成本，并提升其在复杂环境中的适应能力。该方法还具有跨具身迁移的潜力，可以利用人类或其他机器人的演示视频来训练机器人。

📄 摘要（原文）

Reinforcement Learning (RL) has the potential to enable robots to learn from their own actions in the real world. Unfortunately, RL can be prohibitively expensive, in terms of on-robot runtime, due to inefficient exploration when learning from a sparse reward signal. Designing dense reward functions is labour-intensive and requires domain expertise. In our work, we propose GCR (Goal-Contrastive Rewards), a dense reward function learning method that can be trained on passive video demonstrations. By using videos without actions, our method is easier to scale, as we can use arbitrary videos. GCR combines two loss functions, an implicit value loss function that models how the reward increases when traversing a successful trajectory, and a goal-contrastive loss that discriminates between successful and failed trajectories. We perform experiments in simulated manipulation environments across RoboMimic and MimicGen tasks, as well as in the real world using a Franka arm and a Spot quadruped. We find that GCR leads to a more-sample efficient RL, enabling model-free RL to solve about twice as many tasks as our baseline reward learning methods. We also demonstrate positive cross-embodiment transfer from videos of people and of other robots performing a task. Website: https://gcr-robot.github.io/.

On-Robot Reinforcement Learning with Goal-Contrastive Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理