Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization
作者: Audrey Huang, Wenhao Zhan, Tengyang Xie, Jason D. Lee, Wen Sun, Akshay Krishnamurthy, Dylan J. Foster
分类: cs.AI, cs.CL, cs.LG
发布日期: 2024-07-18 (更新: 2025-02-18)
💡 一句话要点
提出χPO算法,通过χ²散度正则化解决离线对齐中的过优化问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型对齐 离线强化学习 过优化 χ²散度 正则化 偏好优化 DPO 单策略集中性
📋 核心要点
- 现有RLHF等对齐方法存在过优化问题,导致模型质量下降,KL正则化不足以解决此问题。
- 提出χPO算法,通过χ²散度正则化,隐式实现面对不确定性的悲观原则,缓解过优化。
- χPO仅需修改DPO目标函数中的对数链接函数,且具有单策略集中性的样本复杂度保证。
📝 摘要(中文)
语言模型对齐方法,如基于人类反馈的强化学习(RLHF),在语言模型能力方面取得了显著进展,但受到过优化现象的限制,即语言模型的质量在对齐过程中会下降。由于模型优化了离线奖励模型的性能,因此会过度拟合不准确之处,并偏离数据所涵盖的首选响应。为了抑制这种分布偏移,KL正则化被广泛应用于现有的离线对齐方法中,但过优化仍然损害性能。本文首先从理论上深入了解这些经验观察的来源,表明KL正则化不足以防止过拟合,然后提出以下问题:是否可以设计一种有效的算法,该算法在理论上能够抵抗过优化?本文提出了一种新的离线对齐算法,$χ^2$-Preference Optimization ($χ$PO)。$χ$PO是对Direct Preference Optimization (DPO)的一行代码修改,仅涉及修改DPO目标中的对数链接函数。尽管这种修改很小,$χ$PO通过$χ^2$散度进行正则化,隐式地实现了面对不确定性的悲观原则——$χ^2$散度比KL正则化更有效地量化不确定性——并且在理论上减轻了过优化,实现了基于单策略集中性的样本复杂度保证——这是离线强化学习的黄金标准。$χ$PO的简单性和强大的保证使其成为第一个实用且通用的离线对齐算法,该算法在理论上能够抵抗过优化。
🔬 方法详解
问题定义:现有基于人类反馈的强化学习(RLHF)等语言模型对齐方法在离线对齐时,容易出现过优化问题。模型为了最大化离线奖励模型的预测,会过度拟合奖励模型中的噪声和偏差,导致生成结果偏离真实人类偏好,模型质量下降。KL正则化被广泛使用以限制这种分布偏移,但效果有限,无法有效阻止过优化。
核心思路:论文的核心思路是利用χ²散度进行正则化,替代传统的KL散度。χ²散度能够更有效地量化模型的不确定性,从而在优化过程中,引导模型更加保守,避免过度拟合奖励模型中的噪声。这种方法隐式地实现了“面对不确定性的悲观原则”,即在不确定性较高的情况下,模型倾向于选择更保守、更稳健的策略。
技术框架:χPO算法是在Direct Preference Optimization (DPO)的基础上进行改进的。DPO是一种直接优化偏好模型的算法,它通过最大化人类偏好数据的似然性来训练语言模型。χPO保留了DPO的整体框架,包括偏好数据的收集和DPO的目标函数。关键的区别在于,χPO修改了DPO目标函数中的对数链接函数,从而引入了χ²散度正则化。
关键创新:最重要的技术创新点是使用χ²散度替代KL散度进行正则化。与KL散度相比,χ²散度对分布差异更加敏感,能够更有效地捕捉模型的不确定性。这种替换使得χPO能够更好地平衡模型性能和泛化能力,从而缓解过优化问题。此外,论文还提供了理论证明,表明χPO具有单策略集中性的样本复杂度保证,这是离线强化学习中的一个重要性质。
关键设计:χPO的关键设计在于修改DPO的目标函数。具体来说,DPO的目标函数通常包含一个对数链接函数,用于将奖励模型的输出映射到偏好概率。χPO通过修改这个对数链接函数,引入了χ²散度正则化。这种修改非常简单,只需要一行代码的改动,但却能够显著提升算法的性能。具体的修改细节需要在论文中查找。
📊 实验亮点
χPO算法通过简单的修改,在DPO的基础上实现了显著的性能提升。论文提供了理论证明,表明χPO具有单策略集中性的样本复杂度保证,这是离线强化学习中的一个重要性质。实验结果(具体数据未知)表明,χPO能够有效缓解过优化问题,提高模型的泛化能力和鲁棒性,优于传统的KL正则化方法。
🎯 应用场景
χPO算法可广泛应用于各种需要离线对齐的语言模型训练场景,例如对话系统、文本生成、代码生成等。该算法能够有效缓解过优化问题,提高模型的泛化能力和鲁棒性,从而生成更符合人类偏好、更高质量的内容。此外,该算法的理论保证使其在安全性和可靠性要求较高的应用中更具优势。
📄 摘要(原文)
Language model alignment methods such as reinforcement learning from human feedback (RLHF) have led to impressive advances in language model capabilities, but are limited by a widely observed phenomenon known as overoptimization, where the quality of the language model degrades over the course of the alignment process. As the model optimizes performance with respect to an offline reward model, it overfits to inaccuracies and drifts away from preferred responses covered by the data. To discourage such distribution shift, KL-regularization is widely employed in existing offline alignment methods, but overoptimization continues to harm performance. Lending theoretical insight into the source of these empirical observations, we first show that the KL-regularization is too weak to prevent overfitting, then raise the following question: is it possible to design an efficient algorithm that is provably robust to overoptimization? We address this question with a new algorithm for offline alignment, $χ^2$-Preference Optimization ($χ$PO). $χ$PO is a one-line change to Direct Preference Optimization (DPO; Rafailov et al., 2023), which only involves modifying the logarithmic link function in the DPO objective. Despite this minimal change, $χ$PO implicitly implements the principle of pessimism in the face of uncertainty via regularization with the $χ^2$-divergence -- which quantifies uncertainty more effectively than KL-regularization -- and provably alleviates overoptimization, achieving sample-complexity guarantees based on single-policy concentrability -- the gold standard in offline reinforcement learning. $χ$PO's simplicity and strong guarantees make it the first practical and general-purpose offline alignment algorithm that is provably robust to overoptimization.