Fine-tuning Behavioral Cloning Policies with Preference-Based Reinforcement Learning

📄 arXiv: 2509.26605v2 📥 PDF

作者: Maël Macuglia, Paul Friedrich, Giorgia Ramponi

分类: cs.AI, cs.LG

发布日期: 2025-09-30 (更新: 2025-10-13)

备注: 85 pages (11 + references and appendix), 9 figures. v2: added acknowledgements


💡 一句话要点

提出BRIDGE算法,结合离线专家数据与在线偏好学习微调机器人策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 行为克隆 偏好学习 机器人控制 离线学习

📋 核心要点

  1. 传统强化学习在机器人等领域应用受阻,主要挑战在于奖励函数设计困难和探索过程中的安全风险。
  2. 论文提出BRIDGE算法,结合离线专家数据学习初始策略,再利用在线偏好反馈进行微调,提升策略性能。
  3. 实验表明,BRIDGE算法在MuJoCo环境中优于单独的行为克隆和在线偏好学习,降低了后悔值,提高了样本效率。

📝 摘要(中文)

在机器人、工业和医疗保健领域部署强化学习(RL)面临两大障碍:难以指定精确的奖励函数,以及不安全且数据需求量大的探索风险。本文提出一个两阶段框架来解决这个问题,该框架首先从无奖励的专家演示数据集中学习一个安全的初始策略,然后使用基于偏好的人工反馈在线微调该策略。我们对这种离线到在线的方法进行了首次原理性分析,并引入了BRIDGE,一种通过不确定性加权目标整合两种信号的统一算法。我们推导了随离线演示数量减少的后悔界限,明确地将离线数据的数量与在线样本效率联系起来。我们在离散和连续控制的MuJoCo环境中验证了BRIDGE,表明它比独立的行为克隆和在线基于偏好的RL实现了更低的后悔值。我们的工作为设计更具样本效率的交互式智能体奠定了理论基础。

🔬 方法详解

问题定义:现有强化学习方法在机器人控制等领域应用时,面临奖励函数难以精确设计的问题,导致学习到的策略可能不符合预期甚至存在安全隐患。同时,从零开始的探索式学习需要大量数据,效率低下,且可能存在不安全行为。行为克隆虽然可以从专家数据中学习,但无法超越专家水平,且对数据质量要求高。

核心思路:论文的核心思路是结合离线行为克隆和在线偏好学习的优点。首先,利用离线专家数据学习一个安全的初始策略,避免从零开始探索带来的风险。然后,通过在线偏好学习,利用人类反馈对策略进行微调,克服行为克隆无法超越专家水平的局限性,并解决奖励函数设计困难的问题。

技术框架:BRIDGE算法包含两个主要阶段:1) 离线行为克隆阶段:利用专家演示数据训练一个初始策略,该策略作为后续在线微调的基础。2) 在线偏好学习阶段:智能体与环境交互,并向人类展示不同的轨迹片段。人类根据偏好对这些片段进行排序,智能体根据这些偏好信息更新策略。BRIDGE算法的关键在于如何将离线行为克隆和在线偏好学习的信息有效地结合起来。

关键创新:BRIDGE算法的关键创新在于提出了一个统一的目标函数,该函数通过不确定性加权的方式整合了离线行为克隆和在线偏好学习的信息。具体来说,对于离线数据,使用行为克隆损失函数进行约束;对于在线偏好数据,使用基于偏好的强化学习损失函数进行优化。不确定性加权机制根据离线数据的数量和质量,以及在线偏好反馈的置信度,动态调整两种损失函数的权重,从而实现更有效的策略学习。

关键设计:BRIDGE算法使用了一种基于高斯过程的偏好模型来建模人类的偏好。该模型可以估计每个轨迹片段的奖励值,并提供不确定性估计。在目标函数中,离线行为克隆损失函数的权重与离线数据的数量成正比,与高斯过程偏好模型的不确定性成反比。在线偏好学习损失函数的权重则与高斯过程偏好模型的置信度成正比。策略网络可以使用任何标准的深度强化学习架构,例如Actor-Critic网络。

📊 实验亮点

实验结果表明,BRIDGE算法在离散和连续控制的MuJoCo环境中均优于单独的行为克隆和在线偏好学习方法。具体来说,BRIDGE算法实现了更低的后悔值,表明其学习到的策略更接近最优策略。此外,BRIDGE算法的样本效率更高,即在相同数量的交互次数下,能够学习到更好的策略。这些结果验证了BRIDGE算法的有效性和优越性。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、医疗辅助等领域。通过结合离线专家数据和在线人类反馈,可以更安全、高效地训练智能体,解决复杂任务中的奖励函数设计难题。例如,在医疗机器人手术中,可以先从医生演示数据中学习基本操作,再通过医生在线反馈进行微调,最终实现更精准的手术操作。

📄 摘要(原文)

Deploying reinforcement learning (RL) in robotics, industry, and health care is blocked by two obstacles: the difficulty of specifying accurate rewards and the risk of unsafe, data-hungry exploration. We address this by proposing a two-stage framework that first learns a safe initial policy from a reward-free dataset of expert demonstrations, then fine-tunes it online using preference-based human feedback. We provide the first principled analysis of this offline-to-online approach and introduce BRIDGE, a unified algorithm that integrates both signals via an uncertainty-weighted objective. We derive regret bounds that shrink with the number of offline demonstrations, explicitly connecting the quantity of offline data to online sample efficiency. We validate BRIDGE in discrete and continuous control MuJoCo environments, showing it achieves lower regret than both standalone behavioral cloning and online preference-based RL. Our work establishes a theoretical foundation for designing more sample-efficient interactive agents.