SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

📄 arXiv: 2602.02383v1 📥 PDF

作者: Maksim Afanasyev, Illarion Iov

分类: cs.LG

发布日期: 2026-02-02


💡 一句话要点

SLIME:稳定似然隐式边际强化,用于偏好优化,解决LLM对齐中的“遗忘”和“格式崩溃”问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏好优化 人类反馈强化学习 模型对齐 生成质量

📋 核心要点

  1. 现有直接偏好优化方法在LLM对齐中存在目标不匹配问题,即优化相对边际可能损害生成质量,导致“遗忘”和“格式崩溃”。
  2. SLIME通过引入锚定项、稳定惩罚项和双边际机制,将偏好学习与生成质量解耦,从而稳定LLM的生成能力。
  3. 实验表明,SLIME在LLM对齐任务中,相较于现有方法,取得了更好的性能,并保持了更高的生成稳定性。

📝 摘要(中文)

直接偏好优化方法作为一种计算高效的替代方案,正逐渐取代基于人类反馈的强化学习(RLHF),用于对齐大型语言模型(LLM)。最新的方法通过推导隐式奖励函数简化了对齐过程,但它们常常面临一个关键的目标不匹配问题:优化选择和拒绝响应之间的相对边际并不能保证保留选择响应的绝对似然。这可能导致“遗忘”,即模型为了满足边际约束而降低高质量输出的概率,以及由过度惩罚拒绝序列引起的“格式崩溃”。本文提出了SLIME(稳定似然隐式边际强化),一种无需参考的对齐目标,旨在将偏好学习与生成质量解耦。SLIME包含一个三管齐下的目标:(1)一个锚定项,用于最大化首选响应的似然;(2)一个稳定惩罚项,防止拒绝token的概率崩溃为零;(3)一个双边际机制,结合硬约束和软约束,用于精确的边界塑造。实验结果表明,SLIME在保持更高生成稳定性的同时,实现了优于最先进基线的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)对齐过程中,直接偏好优化(DPO)方法存在的“遗忘”和“格式崩溃”问题。现有DPO方法仅关注选择和拒绝响应之间的相对边际,忽略了选择响应本身的似然,导致模型为了满足偏好约束而降低高质量输出的概率,并过度惩罚拒绝序列,从而损害生成质量。

核心思路:SLIME的核心思路是将偏好学习与生成质量解耦。通过引入一个锚定项来最大化首选响应的似然,确保模型不会“遗忘”高质量的生成;同时,引入一个稳定惩罚项,防止拒绝token的概率崩溃为零,避免过度惩罚;最后,采用双边际机制,结合硬约束和软约束,更精确地塑造偏好边界。

技术框架:SLIME是一个参考无关的对齐目标,不需要额外的参考模型。其整体框架包含三个主要组成部分:1) 锚定项:最大化首选响应的似然,防止“遗忘”;2) 稳定惩罚项:防止拒绝token的概率崩溃为零,避免过度惩罚;3) 双边际机制:结合硬约束和软约束,精确塑造偏好边界。这三个部分共同构成SLIME的损失函数,用于训练LLM。

关键创新:SLIME最重要的技术创新在于其三管齐下的目标,有效地将偏好学习与生成质量解耦。与现有DPO方法相比,SLIME不仅关注相对偏好,还关注首选响应的绝对似然,并采取措施防止过度惩罚,从而避免了“遗忘”和“格式崩溃”问题。这种解耦的思想是SLIME能够取得更好性能的关键。

关键设计:SLIME的关键设计包括:1) 锚定项的权重:需要仔细调整,以平衡偏好学习和生成质量;2) 稳定惩罚项的系数:控制防止拒绝token概率崩溃的程度;3) 双边际机制中的硬约束和软约束的比例:影响偏好边界的形状。具体的损失函数形式如下(此处省略具体公式,因为无法在JSON中完美呈现公式),包含首选响应的似然、拒绝响应的似然、稳定惩罚项和边际约束项。这些参数和损失函数的设计共同决定了SLIME的性能。

📊 实验亮点

实验结果表明,SLIME在LLM对齐任务中取得了优于现有基线的性能,同时保持了更高的生成稳定性。具体而言,SLIME在多个评估指标上都取得了显著提升,并且有效缓解了“遗忘”和“格式崩溃”问题。相较于现有方法,SLIME能够生成更高质量、更一致的文本。

🎯 应用场景

SLIME可应用于各种需要从人类反馈中学习的LLM对齐任务,例如对话生成、文本摘要、代码生成等。通过稳定LLM的生成能力,SLIME可以提高生成内容的质量、一致性和安全性,从而在智能客服、内容创作、软件开发等领域发挥重要作用。未来,SLIME可以进一步扩展到多模态场景,例如图像生成和视频生成。

📄 摘要(原文)

Direct preference optimization methods have emerged as a computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) for aligning Large Language Models (LLMs). Latest approaches have streamlined the alignment process by deriving implicit reward functions, yet they often suffer from a critical objective mismatch: optimizing the relative margin between chosen and rejected responses does not guarantee the preservation of the chosen response's absolute likelihood. This can lead to unlearning'', where the model degrades the probability of high-quality outputs to satisfy margin constraints, andformatting collapse'' caused by the over-penalization of rejected sequences. In this work, we introduce SLIME (Stabilized Likelihood Implicit Margin Enforcement), a reference-free alignment objective designed to decouple preference learning from generation quality. SLIME incorporates a three-pronged objective: (1) an anchoring term to maximize the likelihood of preferred responses; (2) a stabilizing penalty that prevents the probabilities of rejected tokens from collapsing to zero; and (3) a dual-margin mechanism that combines hard and soft constraints for precise boundary shaping. Our results demonstrate that SLIME achieves superior performance compared to state-of-the-art baselines while maintaining higher generation stability.