When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

作者: Lakshita Dodeja, Ondrej Biza, Shivam Vats, Stephen Hart, Stefanie Tellex, Robin Walters, Karl Schmeckpeper, Thomas Weng

分类: cs.RO, cs.AI

发布日期: 2026-05-06

💡 一句话要点

Q2RL：从行为克隆中提取Q函数，用于机器人在线强化学习

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人学习 强化学习 行为克隆 离线到在线学习 Q函数 机器人操作 策略优化

📋 核心要点

现有离线到在线强化学习方法易受分布偏移影响，导致策略退化，无法有效利用行为克隆的先验知识。
Q2RL通过从行为克隆策略中提取Q函数，并使用Q门控机制平衡行为克隆和强化学习策略，实现高效的在线改进。
实验表明，Q2RL在操作任务中优于现有离线到在线学习方法，并在机器人上实现了显著的性能提升，成功率高达100%。

📝 摘要（中文）

行为克隆(BC)已成为机器人学习中一种非常有效的范例。然而，BC缺乏在收集演示数据后进行在线改进的自引导机制。现有的离线到在线学习方法通常会导致策略由于离线数据和在线学习之间的分布不匹配而替换先前学习到的良好动作。本文提出了Q2RL，即基于BC的Q值估计和Q门控强化学习算法，用于高效的离线到在线学习。我们的方法包括两个部分：（1）Q值估计，通过与环境进行少量交互步骤，从BC策略中提取Q函数；（2）Q门控，根据BC和RL策略各自的Q值在它们之间切换动作，从而收集用于RL策略训练的样本。在D4RL和robomimic基准测试中的操作任务中，Q2RL在成功率和收敛时间方面优于SOTA的离线到在线学习基线。Q2RL足够高效，可以应用于机器人在线强化学习设置中，在1-2小时的在线交互中，为接触丰富和高精度操作任务（如管道组装和装箱）学习鲁棒的策略，成功率高达100%，并且相对于原始BC策略提高了高达3.75倍。

🔬 方法详解

问题定义：论文旨在解决行为克隆（BC）策略在部署后难以在线改进的问题。现有离线到在线强化学习方法容易受到离线数据和在线数据分布不匹配的影响，导致策略性能下降，甚至覆盖掉BC策略中已经学到的优秀行为。

核心思路：论文的核心思路是从BC策略中提取Q函数，并利用该Q函数来指导在线强化学习过程。通过Q函数，可以评估BC策略和强化学习策略的优劣，并根据Q值选择合适的动作，从而避免盲目探索和策略退化。

技术框架：Q2RL算法包含两个主要阶段：（1）Q值估计（Q-Estimation）：利用少量与环境的交互，从BC策略中学习一个Q函数，用于评估不同动作的价值。（2）Q门控（Q-Gating）：根据BC策略和强化学习策略的Q值，选择执行哪个策略的动作。同时，使用选择的动作和环境反馈来训练强化学习策略。

关键创新：Q2RL的关键创新在于将行为克隆策略的知识迁移到强化学习过程中。通过Q值估计，可以有效地利用BC策略的先验知识，避免从零开始学习。Q门控机制则能够在探索和利用之间进行平衡，从而实现高效的在线改进。与现有方法相比，Q2RL能够更好地利用离线数据，并避免策略退化。

关键设计：Q值估计阶段，可以使用任何标准的Q学习算法，例如DQN或SAC。Q门控机制可以使用简单的阈值策略，例如，当强化学习策略的Q值高于BC策略的Q值时，选择执行强化学习策略的动作。损失函数方面，可以使用标准的Q学习损失函数和策略梯度损失函数。网络结构方面，可以使用任何适合任务的神经网络结构。

🖼️ 关键图片

📊 实验亮点

Q2RL在D4RL和robomimic基准测试中，成功率和收敛速度均优于SOTA离线到在线学习算法。在实际机器人实验中，Q2RL仅需1-2小时的在线交互，即可学习到鲁棒的策略，成功率高达100%，并且相对于原始BC策略提高了高达3.75倍。这些结果表明，Q2RL是一种高效且实用的机器人在线强化学习算法。

🎯 应用场景

Q2RL算法可应用于各种机器人操作任务，尤其适用于需要高精度和接触丰富的任务，如装配、抓取和操作。该方法能够显著减少机器人在线学习所需的时间，并提高策略的鲁棒性和泛化能力。未来，Q2RL可以扩展到更复杂的机器人任务和环境，例如自主导航和人机协作。

📄 摘要（原文）

Behavior Cloning (BC) has emerged as a highly effective paradigm for robot learning. However, BC lacks a self-guided mechanism for online improvement after demonstrations have been collected. Existing offline-to-online learning methods often cause policies to replace previously learned good actions due to a distribution mismatch between offline data and online learning. In this work, we propose Q2RL, Q-Estimation and Q-Gating from BC for Reinforcement Learning, an algorithm for efficient offline-to-online learning. Our method consists of two parts: (1) Q-Estimation extracts a Q-function from a BC policy using a few interaction steps with the environment, followed by online RL with (2) Q-Gating, which switches between BC and RL policy actions based on their respective Q-values to collect samples for RL policy training. Across manipulation tasks from D4RL and robomimic benchmarks, Q2RL outperforms SOTA offline-to-online learning baselines on success rate and time to convergence. Q2RL is efficient enough to be applied in an on-robot RL setting, learning robust policies for contact-rich and high precision manipulation tasks such as pipe assembly and kitting, in 1-2 hours of online interaction, achieving success rates of up to 100% and up to 3.75x improvement against the original BC policy. Code and video are available at https://pages.rai-inst.com/q2rl_website/

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理