Fine-tuning Behavioral Cloning Policies with Preference-Based Reinforcement Learning
作者: Maël Macuglia, Paul Friedrich, Giorgia Ramponi
分类: cs.AI, cs.LG
发布日期: 2025-09-30 (更新: 2025-10-13)
备注: 85 pages (11 + references and appendix), 9 figures. v2: added acknowledgements
💡 一句话要点
提出BRIDGE算法,结合离线专家数据与在线偏好学习微调策略,提升机器人控制效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 行为克隆 偏好学习 机器人控制 离线学习
📋 核心要点
- 传统强化学习在机器人等领域的应用受限于奖励函数设计困难和探索过程中的安全风险。
- 论文提出BRIDGE算法,利用离线专家数据学习初始策略,再通过在线偏好学习进行微调,实现安全高效的策略优化。
- 实验表明,BRIDGE算法在MuJoCo环境中优于单独的行为克隆和在线偏好学习方法,降低了后悔值。
📝 摘要(中文)
在机器人、工业和医疗保健领域部署强化学习(RL)面临两大障碍:难以指定准确的奖励函数,以及不安全且数据需求大的探索风险。本文提出一个两阶段框架来解决这个问题,该框架首先从无奖励的专家演示数据集中学习一个安全的初始策略,然后使用基于偏好的人工反馈在线微调该策略。我们对这种离线到在线的方法进行了首次有原则的分析,并引入了BRIDGE,一种通过不确定性加权目标整合两种信号的统一算法。我们推导了随着离线演示数量减少的后悔界限,明确地将离线数据的数量与在线样本效率联系起来。我们在离散和连续控制MuJoCo环境中验证了BRIDGE,表明它比独立的行为克隆和在线基于偏好的RL实现了更低的后悔值。我们的工作为设计更具样本效率的交互式智能体奠定了理论基础。
🔬 方法详解
问题定义:现有强化学习方法在机器人控制等领域应用时,面临奖励函数难以精确设计的问题,导致策略学习效果不佳。同时,在线探索过程存在安全风险,且需要大量样本数据,效率较低。行为克隆虽然可以从专家数据中学习策略,但无法适应新环境,泛化能力有限。
核心思路:论文的核心思路是将离线行为克隆与在线偏好学习相结合。首先,利用离线专家数据学习一个初步的、安全的策略,作为在线学习的起点。然后,通过人类提供的偏好反馈,对该策略进行微调,使其适应特定任务和环境。这种方法既利用了专家知识,又避免了从零开始探索的风险和低效。
技术框架:BRIDGE算法包含两个主要阶段:离线行为克隆阶段和在线偏好学习阶段。在离线阶段,利用专家演示数据训练一个初始策略。在在线阶段,智能体根据当前策略生成轨迹,并向人类请求对不同轨迹的偏好反馈。然后,利用这些反馈信息更新策略。BRIDGE算法的关键在于如何将离线学习的策略与在线偏好学习的信号进行有效融合。
关键创新:BRIDGE算法的关键创新在于提出了一种不确定性加权的目标函数,用于整合离线行为克隆和在线偏好学习的信号。该目标函数根据离线数据的数量和在线反馈的不确定性,动态地调整两种信号的权重。当离线数据较少或在线反馈较为确定时,在线偏好学习的权重较高;反之,离线行为克隆的权重较高。这种自适应的权重调整机制能够有效地平衡两种信号,提高学习效率和策略性能。
关键设计:BRIDGE算法使用高斯过程来建模策略的不确定性。离线行为克隆阶段使用标准的行为克隆损失函数。在线偏好学习阶段,使用Bradley-Terry模型将人类偏好转化为奖励信号。整体目标函数是不确定性加权的离线行为克隆损失和在线偏好学习奖励之和。具体来说,不确定性通过高斯过程的方差来估计,并用于调整两种损失的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BRIDGE算法在离散和连续控制的MuJoCo环境中,相较于单独的行为克隆和在线偏好学习方法,实现了更低的后悔值。具体而言,BRIDGE算法在多个任务上都取得了显著的性能提升,证明了其有效性。实验结果还验证了理论分析的正确性,即离线数据的数量与在线样本效率之间存在明确的联系。
🎯 应用场景
该研究成果可应用于机器人控制、自动驾驶、医疗辅助等领域。通过结合专家知识和人类反馈,可以更安全、高效地训练智能体,解决复杂任务中的奖励函数设计难题。例如,在医疗康复机器人中,可以利用患者的运动数据学习初始策略,然后根据医生的反馈进行个性化调整,提高康复效果。
📄 摘要(原文)
Deploying reinforcement learning (RL) in robotics, industry, and health care is blocked by two obstacles: the difficulty of specifying accurate rewards and the risk of unsafe, data-hungry exploration. We address this by proposing a two-stage framework that first learns a safe initial policy from a reward-free dataset of expert demonstrations, then fine-tunes it online using preference-based human feedback. We provide the first principled analysis of this offline-to-online approach and introduce BRIDGE, a unified algorithm that integrates both signals via an uncertainty-weighted objective. We derive regret bounds that shrink with the number of offline demonstrations, explicitly connecting the quantity of offline data to online sample efficiency. We validate BRIDGE in discrete and continuous control MuJoCo environments, showing it achieves lower regret than both standalone behavioral cloning and online preference-based RL. Our work establishes a theoretical foundation for designing more sample-efficient interactive agents.