Primal-Dual Direct Preference Optimization for Constrained LLM Alignment
作者: Yihan Du, Seo Taek Kong, R. Srikant
分类: cs.LG
发布日期: 2025-10-07
💡 一句话要点
提出Primal-Dual DPO方法,用于约束大型语言模型对齐,提升安全性和效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 约束对齐 直接偏好优化 原始-对偶方法 安全对齐
📋 核心要点
- 现有LLM安全对齐方法存在训练成本高、依赖先验知识等问题,难以有效约束模型输出。
- 提出Primal-Dual DPO方法,利用奖励偏好数据和成本偏好数据,在约束条件下优化LLM。
- 实验表明,该方法在PKU-SafeRLHF数据集上有效,降低了内存和计算成本,无需额外先验知识。
📝 摘要(中文)
大型语言模型的广泛应用对安全性提出了更高的要求,例如减少有害内容和虚假信息,并避免违反规则和法律的禁用词。现有的安全对齐方法要么需要训练奖励和成本模型,导致高昂的内存和计算成本,要么需要关于最优解的先验知识。为此,本文研究了LLM中的约束对齐问题,即在限制潜在不安全内容的成本低于阈值的情况下,最大化输出奖励。我们提出了一种新颖的原始-对偶DPO方法,该方法首先使用标准DPO在奖励偏好数据上训练模型以提供奖励信息,然后采用重新排列的拉格朗日DPO目标,利用提供的奖励信息在成本偏好数据上微调LLM。我们的方法显著降低了内存和计算成本,并且不需要额外的先验知识。此外,我们对输出策略的次优性和约束违反建立了严格的理论保证。我们还通过结合探索奖励将我们的方法扩展到在线数据设置,这使我们的方法能够探索未覆盖的提示-响应空间,然后提供摆脱对偏好数据覆盖依赖的理论结果。在广泛使用的偏好数据集PKU-SafeRLHF上的实验结果证明了我们方法的有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的约束对齐问题,即在保证模型输出安全(例如,避免生成有害内容或违反法律法规的内容)的前提下,最大化模型输出的奖励。现有方法的主要痛点在于需要训练额外的奖励和成本模型,这带来了巨大的内存和计算开销,或者需要预先知道最优解的信息,这在实际应用中往往难以获得。
核心思路:论文的核心思路是采用原始-对偶方法,将约束优化问题转化为无约束优化问题,并利用Direct Preference Optimization (DPO) 的框架进行求解。具体来说,首先使用标准的DPO方法在奖励偏好数据上训练模型,得到奖励信息;然后,利用拉格朗日对偶的思想,将成本约束纳入优化目标,并使用重新排列的拉格朗日DPO目标在成本偏好数据上微调LLM。
技术框架:整体框架包含两个主要阶段:1) 奖励模型训练阶段:使用标准DPO在奖励偏好数据上训练LLM,得到奖励模型。2) 约束对齐阶段:使用重新排列的拉格朗日DPO目标,在成本偏好数据上微调LLM,同时考虑奖励和成本约束。此外,论文还提出了一个在线数据设置,通过引入探索奖励来鼓励模型探索未知的提示-响应空间。
关键创新:最重要的技术创新点在于提出了一个原始-对偶DPO框架,该框架能够有效地解决LLM的约束对齐问题,同时避免了训练额外的奖励和成本模型,降低了内存和计算成本。此外,该方法不需要关于最优解的先验知识,更具实用性。
关键设计:论文的关键设计包括:1) 重新排列的拉格朗日DPO目标函数,该函数能够将奖励和成本约束有效地结合起来。2) 在线数据设置中的探索奖励,该奖励能够鼓励模型探索未知的提示-响应空间,提高模型的泛化能力。具体的损失函数形式和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
在PKU-SafeRLHF数据集上的实验结果表明,该方法能够有效地实现LLM的约束对齐,在保证模型输出奖励的同时,显著降低了不安全内容的生成。与现有方法相比,该方法降低了内存和计算成本,并且不需要额外的先验知识,具有更好的实用性。
🎯 应用场景
该研究成果可应用于各种需要安全保障的LLM应用场景,例如:智能客服、内容生成、教育辅导等。通过约束LLM的输出,可以有效避免生成有害、虚假或违反法律法规的内容,提高LLM的可靠性和安全性,从而促进LLM的广泛应用。
📄 摘要(原文)
The widespread application of Large Language Models (LLMs) imposes increasing demands on safety, such as reducing harmful content and fake information, and avoiding certain forbidden tokens due to rules and laws. While there have been several recent works studying safe alignment of LLMs, these works either require the training of reward and cost models and incur high memory and computational costs, or need prior knowledge about the optimal solution. Motivated by this fact, we study the problem of constrained alignment in LLMs, i.e., maximizing the output reward while restricting the cost due to potentially unsafe content to stay below a threshold. For this problem, we propose a novel primal-dual DPO approach, which first trains a model using standard DPO on reward preference data to provide reward information, and then adopts a rearranged Lagrangian DPO objective utilizing the provided reward information to fine-tune LLMs on cost preference data. Our approach significantly reduces memory and computational costs, and does not require extra prior knowledge. Moreover, we establish rigorous theoretical guarantees on the suboptimality and constraint violation of the output policy. We also extend our approach to an online data setting by incorporating exploration bonuses, which enables our approach to explore uncovered prompt-response space, and then provide theoretical results that get rid of the dependence on preference data coverage. Experimental results on the widely-used preference dataset PKU-SafeRLHF demonstrate the effectiveness of our approach.