Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization

📄 arXiv: 2507.07725v1 📥 PDF

作者: Zhijin Dong

分类: cs.CL, cs.AI

发布日期: 2025-07-10

🔗 代码/项目: GITHUB


💡 一句话要点

提出选择性对齐策略Selective-DPO,提升LLM偏好优化效率与准确性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏好优化 后训练对齐 选择性对齐 token级别优化

📋 核心要点

  1. 现有LLM对齐方法忽略了token重要性差异,导致计算冗余和对齐效果不佳。
  2. Selective-DPO通过token级log-probability差异,选择高影响力token进行优化,提升效率。
  3. 实验表明,Selective-DPO在多个基准测试中优于传统DPO和蒸馏方法,验证有效性。

📝 摘要(中文)

大型语言模型(LLM)的后训练对齐至关重要,但并非所有token对模型性能的贡献均等。本文提出了一种选择性对齐策略,优先考虑偏好对中具有高影响力的token,利用当前策略与参考模型之间的token级log-probability差异。通过关注这些信息丰富的token,我们的方法降低了计算开销并提高了对齐保真度。我们进一步探讨了参考模型质量的作用,表明更强的参考模型能够显著提高token选择的准确性和整体优化效果。在Arena-Hard和MT-Bench等基准测试上的综合实验验证了我们的Selective-DPO方法优于标准DPO和基于蒸馏的基线方法。我们的研究结果强调了token级优化和参考模型选择在推进LLM偏好对齐方面的重要性。代码已在https://github.com/Dongzhijin/SDPO上发布。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)对齐方法,如直接偏好优化(DPO),在训练过程中平等地对待所有token。然而,并非所有token都对模型的性能有相同的贡献。这种一视同仁的处理方式导致了计算资源的浪费,并且可能降低对齐的准确性,因为噪声token会干扰优化过程。因此,如何有效地识别并利用对模型性能影响最大的token成为了一个关键问题。

核心思路:本文的核心思路是选择性地关注那些对模型行为影响最大的token。具体来说,通过比较当前策略模型和参考模型在每个token上的log-probability差异,来确定哪些token包含的信息量最大。这些信息量大的token被认为是“高影响力”的token,应该在优化过程中给予更高的权重。这种选择性对齐策略旨在提高训练效率,并提升对齐的保真度。

技术框架:Selective-DPO方法主要包含以下几个阶段:1) 数据准备:收集包含偏好对的数据集,每个偏好对包含一个胜出(chosen)的回复和一个失败(rejected)的回复。2) Token重要性评估:对于每个偏好对,计算当前策略模型和参考模型在每个token上的log-probability差异。差异越大,表示该token包含的信息量越大。3) Token选择:基于log-probability差异,选择top-k个高影响力token。4) DPO优化:使用DPO损失函数,仅对选定的token进行优化。

关键创新:该方法最重要的创新点在于引入了token级别的选择性对齐策略。与传统的DPO方法不同,Selective-DPO不是平等地对待所有token,而是根据其对模型行为的影响程度进行选择性优化。这种方法能够更有效地利用计算资源,并提高对齐的准确性。此外,该研究还强调了参考模型质量的重要性,表明更强的参考模型能够提高token选择的准确性。

关键设计:Selective-DPO的关键设计包括:1) Log-probability差异计算:使用当前策略模型和参考模型计算每个token的log-probability差异,作为token重要性的度量。2) Top-k选择:选择top-k个log-probability差异最大的token进行优化。k是一个超参数,需要根据具体任务进行调整。3) DPO损失函数:使用标准的DPO损失函数,但仅对选定的token进行优化。损失函数的设计与原始DPO保持一致,以确保优化过程的稳定性。

📊 实验亮点

实验结果表明,Selective-DPO在Arena-Hard和MT-Bench等基准测试中显著优于标准DPO和基于蒸馏的基线方法。例如,在Arena-Hard上,Selective-DPO的性能提升了XX%,在MT-Bench上,Selective-DPO的得分提高了YY%。这些结果验证了Selective-DPO方法的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于提升大型语言模型的对齐效果和训练效率。例如,在对话系统、文本生成、代码生成等领域,可以利用Selective-DPO方法,使模型更好地符合人类偏好,生成更安全、更可靠的内容。此外,该方法还可以应用于模型蒸馏,将大型模型的知识迁移到小型模型,同时保持对齐效果。

📄 摘要(原文)

Post-training alignment of large language models (LLMs) is a critical challenge, as not all tokens contribute equally to model performance. This paper introduces a selective alignment strategy that prioritizes high-impact tokens within preference pairs, leveraging token-level log-probability differences between the current policy and a reference model. By focusing on these informative tokens, our approach reduces computational overhead and enhances alignment fidelity. We further explore the role of reference model quality, demonstrating that stronger reference models significantly improve token selection accuracy and overall optimization effectiveness. Comprehensive experiments on benchmarks such as Arena-Hard and MT-Bench validate the superiority of our Selective-DPO method over standard DPO and distillation-based baselines. Our findings highlight the importance of token-level optimization and reference model selection in advancing preference alignment for LLMs. The code is available at https://github.com/Dongzhijin/SDPO.