Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models
作者: Inoussa Mouiche
分类: cs.LG
发布日期: 2026-05-04
备注: 21 pages
💡 一句话要点
提出Gradient-Gated DPO,稳定语言模型偏好优化过程,缓解概率坍塌问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 偏好优化 语言模型对齐 直接偏好优化 梯度门控 概率坍塌 强化学习 人类反馈
📋 核心要点
- DPO在对齐语言模型时存在“挤压效应”,导致概率质量集中在高置信度预测,抑制其他响应。
- Gate-DPO通过门控机制调节被拒绝响应的梯度,衰减有害梯度,稳定训练过程,避免概率坍塌。
- 实验表明,Gate-DPO能有效减少挤压效应,提升选择响应的概率,且小模型也能超越大模型。
📝 摘要(中文)
偏好优化已成为将大型语言模型与人类反馈对齐的核心范式。直接偏好优化(DPO)通过直接优化成对偏好简化了从人类反馈中进行强化学习的过程,无需奖励建模和策略优化。然而,最近的研究表明,DPO表现出一种挤压效应,即应用于被拒绝响应的负梯度将概率质量集中在高置信度预测上,同时抑制了替代响应。即使在简单的softmax模型中也会出现这种现象,并可能导致训练期间的系统性概率坍塌。我们引入了Gradient-Gated Preference Optimization (Gate-DPO),这是一种通过根据模型的概率几何调整被拒绝梯度来稳定训练的方法。当更新针对极低概率的响应时,门控会衰减有害梯度,同时保留标准优化行为。Gate-DPO解决了这种优化病理,而无需修改底层偏好目标,并且与现有的方法(如扩展SFT、IPO和Cal-DPO)互补。跨多种架构和偏好数据集的实验表明,Gate-DPO始终如一地减少挤压并提高选择响应的可能性。质量动态分析进一步揭示了更健康的优化行为,改善了首选响应并减少了对整个分布的抑制。值得注意的是,较小的门控模型可以表现出比更大的非门控模型更强的选择响应改进,这表明控制梯度动态,而不是单独的规模,是稳定和有效对齐的关键。
🔬 方法详解
问题定义:DPO(Direct Preference Optimization)在训练过程中会产生“挤压效应”,即模型倾向于过度自信地预测,将概率质量集中在少量高置信度的响应上,而抑制其他可能的响应。这种现象会导致模型生成的多样性降低,泛化能力减弱,甚至出现概率坍塌,严重影响模型的性能。现有方法难以有效解决这一问题,尤其是在训练数据不足或模型容量有限的情况下。
核心思路:Gate-DPO的核心思路是引入一个梯度门控机制,用于调节被拒绝响应的梯度。当模型对某个响应的预测概率极低时,认为该响应的梯度可能是有害的,因此通过门控机制衰减这部分梯度,避免模型过度调整。这样可以防止模型过度自信,保留一定的探索空间,从而稳定训练过程。
技术框架:Gate-DPO的整体框架与DPO类似,仍然是直接优化pairwise偏好。主要区别在于,在计算损失函数时,对被拒绝响应的梯度进行门控处理。具体流程如下:1) 收集人类偏好数据,形成pairwise对比数据;2) 使用语言模型对chosen和rejected响应进行打分;3) 计算DPO损失函数,并在计算rejected响应的梯度时,应用门控机制;4) 使用梯度更新模型参数。
关键创新:Gate-DPO最关键的创新在于梯度门控机制。它不是直接修改DPO的优化目标,而是通过调整梯度来影响优化过程,从而避免了对原始偏好目标的破坏。这种方法简单有效,易于实现,并且可以与其他稳定DPO训练的方法(如extended SFT、IPO和Cal-DPO)结合使用。
关键设计:Gate-DPO的关键设计在于门控函数的选择。论文中没有明确给出门控函数的具体形式,但强调了门控函数需要根据模型的概率几何进行设计,即根据模型对rejected响应的预测概率来确定门控强度。一种可能的实现方式是使用sigmoid函数,将预测概率映射到0到1之间,作为门控系数。此外,还需要设置一个阈值,用于判断哪些响应的概率过低,需要进行门控。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gate-DPO在多个数据集和模型架构上均能有效减少挤压效应,提高选择响应的概率。更重要的是,使用Gate-DPO训练的小模型可以取得比未使用Gate-DPO训练的大模型更好的性能,这表明控制梯度动态比单纯增加模型规模更重要。例如,在某个实验中,使用Gate-DPO的小模型比未使用Gate-DPO的大模型Chosen-response likelihood提升了X%。
🎯 应用场景
Gate-DPO可应用于各种需要对齐人类偏好的大型语言模型,例如对话系统、文本生成、代码生成等。通过稳定训练过程,提高模型生成质量和多样性,减少有害或不符合人类价值观的输出,从而提升用户体验和安全性。该方法尤其适用于资源受限的场景,例如小规模数据集或小模型训练。
📄 摘要(原文)
Preference optimization has become a central paradigm for aligning large language models with human feedback. Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback by directly optimizing pairwise preferences, removing the need for reward modeling and policy optimization. However, recent work shows that DPO exhibits a squeezing effect, where negative gradients applied to rejected responses concentrate probability mass on high-confidence predictions while suppressing alternative responses. This phenomenon arises even in simple softmax models and can lead to systematic probability collapse during training. We introduce Gradient-Gated Preference Optimization (Gate-DPO), a method that stabilizes training by modulating rejected gradients according to the model's probability geometry. When updates target extremely low-probability responses, the gate attenuates harmful gradients while preserving standard optimization behavior. Gate-DPO addresses this optimization pathology without modifying the underlying preference objective and is complementary to existing methods such as extended SFT, IPO, and Cal-DPO. Experiments across multiple architectures and preference datasets show that Gate-DPO consistently reduces squeezing and improves chosen-response likelihood. Mass-dynamics analysis further reveals healthier optimization behavior, with improved preferred responses and reduced suppression of the overall distribution. Notably, smaller gated models can exhibit stronger chosen-response improvements than larger ungated models, suggesting that controlling gradient dynamics, rather than scale alone, is key to stable and efficient alignment.