Policy Gradient Primal-Dual Method for Safe Reinforcement Learning from Human Feedback

📄 arXiv: 2604.19024v1 📥 PDF

作者: Qiang Liu, Adrienne Kline, Ermin Wei

分类: cs.LG

发布日期: 2026-04-21


💡 一句话要点

提出基于策略梯度原始-对偶方法的安全RLHF算法,解决无限时域约束下的安全强化学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 安全强化学习 人类反馈 策略梯度 原始-对偶方法 约束马尔可夫决策过程

📋 核心要点

  1. 现有Safe RLHF方法依赖于拟合固定时域奖励模型,缺乏对无限时域交互场景的建模能力。
  2. 论文提出基于策略梯度原始-对偶方法的Safe RLHF算法,无需拟合奖励模型,支持灵活轨迹长度训练。
  3. 该算法在无限时域折扣CMDP下实现了全局收敛保证,并在策略梯度迭代等方面具有多项式收敛速率。

📝 摘要(中文)

安全人类反馈强化学习(Safe RLHF)最近在开发有益且无害的大型语言模型方面取得了经验上的成功,它将人类对有用性和无害性的偏好分离开来。现有方法通常依赖于从人类反馈中拟合固定时域的奖励模型,并且仅在经验上得到验证。本文将安全RLHF建模为一个无限时域折扣约束马尔可夫决策过程(CMDP),因为人类可能会在持续的交互序列中与模型交互,而不是在单个有限episode中。我们提出了两种不需要奖励模型拟合的安全RLHF算法,并且与先前假设固定长度轨迹的工作不同,该算法支持灵活的轨迹长度进行训练。这两种算法都基于原始-对偶方法,并在策略梯度迭代、轨迹样本长度和人类偏好查询方面实现了具有多项式速率的全局收敛保证。据我们所知,这是第一项研究人类反馈下无限时域折扣CMDP并建立全局非渐近收敛性的工作。

🔬 方法详解

问题定义:论文旨在解决无限时域折扣约束马尔可夫决策过程(CMDP)下的安全人类反馈强化学习(Safe RLHF)问题。现有方法主要依赖于拟合固定时域的奖励模型,这限制了它们在实际应用中处理持续交互序列的能力。此外,现有方法缺乏理论上的收敛性保证。

核心思路:论文的核心思路是利用原始-对偶方法直接优化策略,避免了拟合奖励模型的步骤。通过将Safe RLHF建模为无限时域CMDP,可以更好地捕捉人类与模型之间的长期交互关系。原始-对偶方法能够同时优化策略和约束的拉格朗日乘子,从而保证策略在满足安全约束的同时,最大化期望回报。

技术框架:整体框架包含以下几个关键部分:1) 与环境交互生成轨迹;2) 从人类反馈中获取偏好信息;3) 利用策略梯度方法更新策略;4) 利用原始-对偶方法更新拉格朗日乘子。该框架不需要显式地拟合奖励模型,而是直接利用人类反馈来指导策略学习。

关键创新:论文的关键创新在于:1) 将Safe RLHF建模为无限时域折扣CMDP,更符合实际应用场景;2) 提出了基于策略梯度原始-对偶方法的Safe RLHF算法,避免了奖励模型拟合,并支持灵活的轨迹长度;3) 首次在无限时域折扣CMDP下建立了全局非渐近收敛性保证。

关键设计:算法的关键设计包括:1) 使用策略梯度方法更新策略,利用人类反馈的偏好信息来指导策略的改进;2) 使用原始-对偶方法更新拉格朗日乘子,确保策略满足安全约束;3) 针对无限时域CMDP,设计了合适的奖励函数和约束函数;4) 算法的具体参数设置(如学习率、折扣因子等)需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了两种Safe RLHF算法,并在理论上证明了其全局收敛性,这是现有方法所不具备的。虽然摘要中没有明确给出具体的实验数据,但强调了该算法在策略梯度迭代、轨迹样本长度和人类偏好查询方面实现了具有多项式速率的全局收敛保证,表明其具有较好的效率和可扩展性。

🎯 应用场景

该研究成果可应用于开发更安全、更可靠的大型语言模型,例如,可以用于训练聊天机器人,使其在提供有用信息的同时,避免生成有害或不当内容。此外,该方法还可以应用于其他需要考虑安全约束的强化学习任务,如自动驾驶、机器人控制等。

📄 摘要(原文)

Safe Reinforcement Learning from Human Feedback (Safe RLHF) has recently achieved empirical success in developing helpful and harmless large language models by decoupling human preferences regarding helpfulness and harmlessness. Existing approaches typically rely on fitting fixed horizon reward models from human feedback and have only been validated empirically. In this paper, we formulate safe RLHF as an infinite horizon discounted Con- strained Markov Decision Process (CMDP), since humans may interact with the model over a continuing sequence of interactions rather than within a single finite episode. We propose two Safe RLHF algorithms that do not require reward model fitting and, in contrast to prior work assuming fixed-length trajectories, support flexible trajectory lengths for training. Both algo- rithms are based on the primal-dual method and achieve global convergence guarantees with polynomial rates in terms of policy gradient iterations, trajectory sample lengths, and human preference queries. To the best of our knowledge, this is the first work to study infinite horizon discounted CMDP under human feedback and establish global, non-asymptotic convergence.