Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

作者: Yining Li, Peizhong Ju, Ness Shroff

分类: cs.LG, cs.AI

发布日期: 2026-02-25

💡 一句话要点

提出乐观原始-对偶算法，解决多目标安全LLM对齐的末次迭代收敛问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 大语言模型对齐 安全RLHF 原始-对偶算法

📋 核心要点

现有RLHF方法在策略参数化下，标准原始-对偶方法可能表现出不稳定性或发散，难以保证末次迭代收敛。
论文提出乐观原始-对偶（OPD）算法，通过预测性更新原始变量和对偶变量，稳定鞍点动态，实现末次迭代收敛。
理论分析表明，OPD算法能有效减轻约束对齐目标中的振荡，并为参数化策略下的收敛性提供了保证。

📝 摘要（中文）

本文提出了一种用于安全RLHF的通用原始-对偶框架，该框架统一了包括safe-RLHF、one-shot和multi-shot方法在内的广泛的现有对齐算法。在此框架的基础上，我们引入了一种乐观原始-对偶（OPD）算法，该算法结合了原始变量和对偶变量的预测性更新，以稳定鞍点动态。我们为所提出的方法建立了末次迭代收敛保证，涵盖了分布空间中的精确策略优化以及收敛到最优解的邻域，其差距与参数化策略下的近似误差和偏差有关。我们的分析表明，乐观性在减轻约束对齐目标固有的振荡方面起着至关重要的作用，从而弥合了约束RL和实际RLHF之间的关键理论差距。

🔬 方法详解

问题定义：论文旨在解决大规模语言模型（LLM）对齐中的安全强化学习问题，特别是当使用人类反馈进行强化学习（RLHF）时，如何保证算法的收敛性，尤其是在实际应用中策略参数化的情况下，标准原始-对偶方法可能出现的末次迭代不稳定或发散问题。现有的RLHF方法，如safe-RLHF等，虽然在实践中有效，但在理论上缺乏对末次迭代收敛性的保证，尤其是在非凸-凹的策略空间中。

核心思路：论文的核心思路是引入“乐观”更新机制，即在更新原始变量和对偶变量时，使用预测性的更新，从而稳定鞍点动态。这种“乐观”策略旨在减轻约束优化问题中固有的振荡现象，从而改善收敛性。通过构建一个通用的原始-对偶框架，论文能够统一现有的多种RLHF算法，并在此基础上设计OPD算法。

技术框架：论文构建了一个通用的原始-对偶框架，用于安全RLHF。该框架包含以下主要模块：1) 原始问题定义，即最大化奖励的同时满足安全约束；2) 对偶问题定义，引入拉格朗日乘子来处理约束；3) 原始变量（策略）和对偶变量（拉格朗日乘子）的迭代更新；4) OPD算法，使用预测性更新来稳定鞍点动态。整体流程是，首先定义原始和对偶问题，然后使用OPD算法迭代更新策略和拉格朗日乘子，最终收敛到满足安全约束的最优策略。

关键创新：论文的最重要的技术创新点在于提出了乐观原始-对偶（OPD）算法，该算法通过预测性更新原始变量和对偶变量，有效地稳定了鞍点动态，从而保证了末次迭代的收敛性。与现有方法相比，OPD算法的关键区别在于其“乐观”的更新策略，这种策略能够减轻约束优化问题中的振荡，从而改善收敛性。此外，论文还提供了一个通用的原始-对偶框架，可以统一现有的多种RLHF算法。

关键设计：OPD算法的关键设计包括：1) 使用预测性更新来估计下一个迭代点的原始变量和对偶变量；2) 基于预测的变量来更新当前的原始变量和对偶变量；3) 仔细选择学习率，以保证收敛性。具体的损失函数包括奖励函数和约束违反项，通过拉格朗日乘子进行加权。网络结构取决于具体的RLHF应用，但通常包括一个策略网络和一个价值网络。

📊 实验亮点

论文为提出的OPD算法建立了末次迭代收敛保证，涵盖了分布空间中的精确策略优化以及收敛到最优解的邻域，其差距与参数化策略下的近似误差和偏差有关。分析表明，乐观性在减轻约束对齐目标固有的振荡方面起着至关重要的作用，从而弥合了约束RL和实际RLHF之间的关键理论差距。具体的实验结果（如有）将在后续论文中给出。

🎯 应用场景

该研究成果可广泛应用于各种需要安全约束的大语言模型对齐场景，例如：对话系统、文本生成、内容审核等。通过保证算法的收敛性，可以提高LLM在实际应用中的稳定性和可靠性，避免生成有害或不符合要求的文本，从而提升用户体验和安全性。未来，该方法可以进一步扩展到更复杂的约束条件和更广泛的LLM应用领域。

📄 摘要（原文）

Reinforcement Learning from Human Feedback (RLHF) plays a significant role in aligning Large Language Models (LLMs) with human preferences. While RLHF with expected reward constraints can be formulated as a primal-dual optimization problem, standard primal-dual methods only guarantee convergence with a distributional policy where the saddle-point problem is in convex-concave form. Moreover, standard primal-dual methods may exhibit instability or divergence in the last iterate under policy parameterization in practical applications. In this work, we propose a universal primal-dual framework for safe RLHF that unifies a broad class of existing alignment algorithms, including safe-RLHF, one-shot, and multi-shot based methods. Building on this framework, we introduce an optimistic primal-dual (OPD) algorithm that incorporates predictive updates for both primal and dual variables to stabilize saddle-point dynamics. We establish last-iterate convergence guarantees for the proposed method, covering both exact policy optimization in the distributional space and convergence to a neighborhood of the optimal solution whose gap is related to approximation error and bias under parameterized policies. Our analysis reveals that optimism plays a crucial role in mitigating oscillations inherent to constrained alignment objectives, thereby closing a key theoretical gap between constrained RL and practical RLHF.

Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理