Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization

📄 arXiv: 2410.19933v2 📥 PDF

作者: Xiyue Peng, Hengquan Guo, Jiawei Zhang, Dongqing Zou, Ziyu Shao, Honghao Wei, Xin Liu

分类: cs.LG, cs.AI, cs.CY

发布日期: 2024-10-25 (更新: 2025-02-27)


💡 一句话要点

提出RePO算法,通过矫正策略优化提升强化学习中基于人类反馈的安全性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 安全对齐 策略优化 大型语言模型

📋 核心要点

  1. 现有LLM安全对齐方法存在“安全补偿”问题,即期望安全约束可能导致部分回复不安全。
  2. RePO算法通过对每个prompt施加严格安全约束,并使用矫正策略梯度来解决安全补偿问题。
  3. 实验结果表明,RePO算法显著提升了LLM的安全性,优于现有基线方法。

📝 摘要(中文)

在对齐大型语言模型(LLM)时,平衡有用性和安全性(无害性)是一个关键挑战。目前的方法通常将这两个目标解耦,为有用性和安全性训练单独的偏好模型,同时将安全性构建为约束马尔可夫决策过程(CMDP)框架内的约束。本文指出,在使用广泛采用的期望安全约束进行LLM安全对齐时,存在一个潜在问题,即“安全补偿”,其中约束在期望上得到满足,但单个提示可能会权衡安全性,导致一些响应过于严格,而另一些响应仍然不安全。为了解决这个问题,我们提出了矫正策略优化(RePO),它用施加在每个提示上的关键安全约束取代了期望安全约束。RePO的核心是由矫正策略梯度驱动的策略更新机制,该机制惩罚每个提示的严格安全违规行为,从而提高几乎所有提示的安全性。我们的实验表明,RePO优于强大的基线方法,并显著增强了LLM安全对齐。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)安全对齐中存在的“安全补偿”问题。现有方法通常使用期望安全约束,即在总体上满足安全要求,但允许个别prompt的回复在安全性上有所牺牲,导致部分回复过于保守,而另一些回复仍然存在安全风险。这种方法无法保证每个prompt的回复都是安全的,存在潜在的安全隐患。

核心思路:RePO的核心思路是将期望安全约束替换为关键安全约束,即要求每个prompt的回复都必须满足安全约束。为了实现这一目标,RePO采用矫正策略梯度,对违反安全约束的prompt进行惩罚,从而引导策略向更安全的方向优化。通过这种方式,RePO能够确保LLM在每个prompt上都表现出足够的安全性,避免安全补偿现象的发生。

技术框架:RePO算法的整体框架基于强化学习,具体流程如下:1) 收集人类反馈数据,包括对LLM回复的安全性评估;2) 使用人类反馈数据训练安全偏好模型;3) 使用安全偏好模型作为奖励函数,通过强化学习优化LLM的策略;4) 在策略优化过程中,使用矫正策略梯度惩罚违反安全约束的prompt,确保每个prompt的回复都满足安全要求。

关键创新:RePO算法的关键创新在于使用矫正策略梯度来优化策略。传统的策略梯度方法只考虑期望奖励,而忽略了单个prompt的安全约束。矫正策略梯度则通过对违反安全约束的prompt进行惩罚,将安全约束纳入策略优化过程中,从而确保每个prompt的回复都满足安全要求。这是RePO算法能够有效解决安全补偿问题的关键。

关键设计:RePO算法的关键设计包括:1) 安全偏好模型的选择,需要选择能够准确评估LLM回复安全性的模型;2) 矫正策略梯度的计算方式,需要设计合适的惩罚函数,以平衡安全性和有用性;3) 策略优化算法的选择,可以选择TRPO、PPO等常用的策略优化算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RePO算法在LLM安全对齐方面优于现有的基线方法。具体来说,RePO算法能够显著降低LLM生成不安全回复的概率,同时保持LLM的有用性。实验数据表明,RePO算法在多个安全指标上取得了显著提升,证明了其有效性和优越性。

🎯 应用场景

RePO算法可应用于各种需要保证安全性的LLM应用场景,例如:智能客服、内容生成、代码生成等。通过RePO算法,可以有效提高LLM的安全性,避免生成有害、不当或具有误导性的内容,从而提升用户体验和降低潜在风险。该研究对于构建安全可靠的LLM系统具有重要意义。

📄 摘要(原文)

Balancing helpfulness and safety (harmlessness) is a critical challenge in aligning large language models (LLMs). Current approaches often decouple these two objectives, training separate preference models for helpfulness and safety, while framing safety as a constraint within a constrained Markov Decision Process (CMDP) framework. This paper identifies a potential issue when using the widely adopted expected safety constraints for LLM safety alignment, termed "safety compensation", where the constraints are satisfied on expectation, but individual prompts may trade off safety, resulting in some responses being overly restrictive while others remain unsafe. To address this issue, we propose Rectified Policy Optimization (RePO), which replaces the expected safety constraint with critical safety constraints imposed on every prompt. At the core of RePO is a policy update mechanism driven by rectified policy gradients, which penalizes the strict safety violation of every prompt, thereby enhancing safety across nearly all prompts. Our experiments demonstrate that RePO outperforms strong baseline methods and significantly enhances LLM safety alignment.