PREFINE: Preference-Based Implicit Reward and Cost Fine-Tuning for Safety Alignment

作者: Richa Verma, Bavish Kulur, Sanjay Chawla, Balaraman Ravindran

分类: cs.LG, cs.AI

发布日期: 2026-05-20

备注: Accepted at AAMAS 2026 as a full paper

💡 一句话要点

PREFINE：基于偏好的隐式奖励与代价微调，实现安全对齐

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 安全对齐 偏好学习 直接偏好优化 连续控制

📋 核心要点

现有方法难以在不从头训练的情况下，将安全约束融入预训练强化学习策略中，尤其是在代价以偏好形式给出时。
PREFINE通过构建策略采样的反事实轨迹，建立偏好对比，并利用改进的DPO算法，联合优化奖励保持和安全对齐。
实验表明，PREFINE在保持奖励的同时，显著降低了约束违反和灾难性失败，且数据和计算效率优于离线RL和模仿学习。

📝 摘要（中文）

本文旨在通过引入代价约束，使预训练的强化学习（RL）策略具备安全意识，而无需从头开始重新训练。与数值编码代价不同，我们假设代价以偏好的形式给出。给定一个奖励优化的策略和一个小规模的偏好数据集（包含低代价的偏好轨迹和高代价的非偏好轨迹），我们的目标是微调策略，使其生成低代价的行为，同时保持高奖励。不同于语言模型中的标准RLHF（其中偏好是针对相同提示的不同响应定义的），我们的设置涉及连续控制环境中的轨迹级偏好。我们提出了PREFINE：一种基于偏好的隐式奖励和代价微调方法，用于安全对齐，它改编了直接偏好优化（DPO），DPO目前广泛用于LLM微调，并将其应用于序列决策场景。PREFINE构建了策略采样的反事实轨迹，以建立有意义的偏好对比，并联合优化奖励保持和安全对齐。实验结果表明，PREFINE将约束违反和灾难性失败减少了60%以上，同时保持了原始奖励行为。与完全离线RL或模仿学习相比，PREFINE产生的策略以显著提高的数据和计算效率实现了低代价、高奖励的性能，从而弥合了连续域中偏好对齐和安全策略适应之间的差距。

🔬 方法详解

问题定义：论文旨在解决如何将安全约束融入到预训练的强化学习策略中，使其在连续控制环境中生成低代价行为，同时保持高奖励。现有方法要么需要从头开始重新训练策略，计算成本高昂；要么难以处理以偏好形式给出的代价信息，缺乏灵活性。

核心思路：论文的核心思路是将代价信息表示为轨迹级别的偏好，并利用偏好学习的方法来微调预训练策略。通过构建策略采样的反事实轨迹，建立有意义的偏好对比，从而引导策略学习低代价的行为。这种方法避免了从头训练，提高了数据和计算效率。

技术框架：PREFINE方法主要包含以下几个阶段：1) 收集偏好数据：收集包含偏好轨迹（低代价）和非偏好轨迹（高代价）的数据集。2) 构建反事实轨迹：利用当前策略采样生成反事实轨迹，用于建立偏好对比。3) 偏好优化：使用改进的DPO算法，根据偏好数据和反事实轨迹，联合优化奖励保持和安全对齐。

关键创新：PREFINE的关键创新在于将DPO算法从语言模型领域迁移到连续控制的强化学习领域，并针对轨迹级别的偏好进行了改进。通过构建反事实轨迹，有效地利用了偏好信息，实现了安全对齐。此外，PREFINE避免了显式地定义代价函数，而是通过隐式的方式学习代价信息，提高了灵活性。

关键设计：PREFINE使用DPO的变体作为优化算法。DPO的目标是学习一个策略，使得偏好轨迹的概率相对于非偏好轨迹的概率更高。PREFINE的关键在于如何构建用于对比的轨迹。论文通过策略采样生成反事实轨迹，并将其与偏好数据进行对比。损失函数的设计目标是最大化偏好轨迹的概率，同时最小化非偏好轨迹的概率，并加入正则化项以保持原始策略的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PREFINE方法在多个连续控制任务中，能够显著降低约束违反和灾难性失败，降低幅度超过60%，同时保持了原始奖励行为。与离线RL和模仿学习相比，PREFINE在数据和计算效率方面具有显著优势，能够以更少的样本和更低的计算成本实现更好的性能。

🎯 应用场景

PREFINE方法可应用于各种需要安全约束的强化学习任务，例如自动驾驶、机器人控制、资源管理等。通过利用少量偏好数据，可以快速地将预训练策略调整为安全策略，降低了开发成本和风险。该方法在人机协作、高风险环境等领域具有重要的应用价值。

📄 摘要（原文）

We address the problem of making a pre-trained reinforcement learning (RL) policy safety-aware by incorporating cost constraints without retraining it from scratch. While costs could be numerically encoded, we assume a more general setting is when costs are provided as preferences. Given a reward-optimized policy and a small dataset of preferred (low-cost) and dispreferred (high-cost) trajectories, our goal is to fine-tune the policy to generate low-cost behaviors while retaining high rewards. Unlike standard RLHF in language models, where preferences are defined over responses to the same prompt, our setting involves trajectory-level preferences in continuous control environments. We introduce PREFINE: Preference-based Implicit Reward and Cost Fine-Tuning for Safety Alignment which is a preference-based fine-tuning method that adapts Direct Preference Optimization (DPO), which is now widely used for LLM fine-tuning, to the sequential decision making setting. PREFINE constructs policy-sampled counterfactual trajectories to establish meaningful preference contrasts and jointly optimizes for reward retention and safety alignment. Empirically, PREFINE reduces constraint violations and catastrophic failures by over 60% while maintaining original reward behavior. PREFINE produces policies that achieve low-cost, high-reward performance with significantly improved data and computational efficiency compared to full offline RL or imitation learning, bridging preference alignment and safe policy adaptation in continuous domains.

PREFINE: Preference-Based Implicit Reward and Cost Fine-Tuning for Safety Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理