PREFINE: Preference-Based Implicit Reward and Cost Fine-Tuning for Safety Alignment

📄 arXiv: 2605.21225v1 📥 PDF

作者: Richa Verma, Bavish Kulur, Sanjay Chawla, Balaraman Ravindran

分类: cs.LG, cs.AI

发布日期: 2026-05-20

备注: Accepted at AAMAS 2026 as a full paper


💡 一句话要点

PREFINE:基于偏好的隐式奖励与代价微调,实现安全对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 安全对齐 偏好学习 直接偏好优化 连续控制

📋 核心要点

  1. 现有方法难以在不从头训练的情况下,将安全约束融入预训练强化学习策略中,尤其是在代价以偏好形式给出时。
  2. PREFINE通过构建策略采样的反事实轨迹,建立偏好对比,并利用改进的DPO算法,联合优化奖励保持和安全对齐。
  3. 实验表明,PREFINE在保持奖励的同时,显著降低了约束违反和灾难性失败,且数据和计算效率优于离线RL和模仿学习。

📝 摘要(中文)

本文旨在通过引入代价约束,使预训练的强化学习(RL)策略具备安全意识,而无需从头开始重新训练。与数值编码代价不同,我们假设代价以偏好的形式给出。给定一个奖励优化的策略和一个小规模的偏好数据集(包含低代价的偏好轨迹和高代价的非偏好轨迹),我们的目标是微调策略,使其生成低代价的行为,同时保持高奖励。不同于语言模型中的标准RLHF(其中偏好是针对相同提示的不同响应定义的),我们的设置涉及连续控制环境中的轨迹级偏好。我们提出了PREFINE:一种基于偏好的隐式奖励和代价微调方法,用于安全对齐,它改编了直接偏好优化(DPO),DPO目前广泛用于LLM微调,并将其应用于序列决策场景。PREFINE构建了策略采样的反事实轨迹,以建立有意义的偏好对比,并联合优化奖励保持和安全对齐。实验结果表明,PREFINE将约束违反和灾难性失败减少了60%以上,同时保持了原始奖励行为。与完全离线RL或模仿学习相比,PREFINE产生的策略以显著提高的数据和计算效率实现了低代价、高奖励的性能,从而弥合了连续域中偏好对齐和安全策略适应之间的差距。

🔬 方法详解

问题定义:论文旨在解决如何将安全约束融入到预训练的强化学习策略中,使其在连续控制环境中生成低代价行为,同时保持高奖励。现有方法要么需要从头开始重新训练策略,计算成本高昂;要么难以处理以偏好形式给出的代价信息,缺乏灵活性。

核心思路:论文的核心思路是将代价信息表示为轨迹级别的偏好,并利用偏好学习的方法来微调预训练策略。通过构建策略采样的反事实轨迹,建立有意义的偏好对比,从而引导策略学习低代价的行为。这种方法避免了从头训练,提高了数据和计算效率。

技术框架:PREFINE方法主要包含以下几个阶段:1) 收集偏好数据:收集包含偏好轨迹(低代价)和非偏好轨迹(高代价)的数据集。2) 构建反事实轨迹:利用当前策略采样生成反事实轨迹,用于建立偏好对比。3) 偏好优化:使用改进的DPO算法,根据偏好数据和反事实轨迹,联合优化奖励保持和安全对齐。

关键创新:PREFINE的关键创新在于将DPO算法从语言模型领域迁移到连续控制的强化学习领域,并针对轨迹级别的偏好进行了改进。通过构建反事实轨迹,有效地利用了偏好信息,实现了安全对齐。此外,PREFINE避免了显式地定义代价函数,而是通过隐式的方式学习代价信息,提高了灵活性。

关键设计:PREFINE使用DPO的变体作为优化算法。DPO的目标是学习一个策略,使得偏好轨迹的概率相对于非偏好轨迹的概率更高。PREFINE的关键在于如何构建用于对比的轨迹。论文通过策略采样生成反事实轨迹,并将其与偏好数据进行对比。损失函数的设计目标是最大化偏好轨迹的概率,同时最小化非偏好轨迹的概率,并加入正则化项以保持原始策略的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PREFINE方法在多个连续控制任务中,能够显著降低约束违反和灾难性失败,降低幅度超过60%,同时保持了原始奖励行为。与离线RL和模仿学习相比,PREFINE在数据和计算效率方面具有显著优势,能够以更少的样本和更低的计算成本实现更好的性能。

🎯 应用场景

PREFINE方法可应用于各种需要安全约束的强化学习任务,例如自动驾驶、机器人控制、资源管理等。通过利用少量偏好数据,可以快速地将预训练策略调整为安全策略,降低了开发成本和风险。该方法在人机协作、高风险环境等领域具有重要的应用价值。

📄 摘要(原文)

We address the problem of making a pre-trained reinforcement learning (RL) policy safety-aware by incorporating cost constraints without retraining it from scratch. While costs could be numerically encoded, we assume a more general setting is when costs are provided as preferences. Given a reward-optimized policy and a small dataset of preferred (low-cost) and dispreferred (high-cost) trajectories, our goal is to fine-tune the policy to generate low-cost behaviors while retaining high rewards. Unlike standard RLHF in language models, where preferences are defined over responses to the same prompt, our setting involves trajectory-level preferences in continuous control environments. We introduce PREFINE: Preference-based Implicit Reward and Cost Fine-Tuning for Safety Alignment which is a preference-based fine-tuning method that adapts Direct Preference Optimization (DPO), which is now widely used for LLM fine-tuning, to the sequential decision making setting. PREFINE constructs policy-sampled counterfactual trajectories to establish meaningful preference contrasts and jointly optimizes for reward retention and safety alignment. Empirically, PREFINE reduces constraint violations and catastrophic failures by over 60% while maintaining original reward behavior. PREFINE produces policies that achieve low-cost, high-reward performance with significantly improved data and computational efficiency compared to full offline RL or imitation learning, bridging preference alignment and safe policy adaptation in continuous domains.