Token-weighted Direct Preference Optimization with Attention

📄 arXiv: 2605.21883v1 📥 PDF

作者: Chengyu Huang, Zhuohang Li, Sheng-Yen Chou, Claire Cardie

分类: cs.CL

发布日期: 2026-05-21


💡 一句话要点

提出Token加权DPO方法AttentionPO,利用LLM注意力机制提升偏好优化效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 大型语言模型 注意力机制 token加权 偏好对齐

📋 核心要点

  1. 现有DPO方法平等对待所有token,忽略了token重要性差异,导致优化效果受限。
  2. AttentionPO利用LLM的注意力机制估计token权重,实现内容感知的token加权偏好优化。
  3. 实验表明,AttentionPO在多个基准测试中显著优于现有偏好优化方法,提升了模型性能。

📝 摘要(中文)

直接偏好优化(DPO)无需单独的奖励模型即可使大型语言模型与人类偏好对齐。然而,DPO平等地对待响应中的所有token,忽略了各个token的不同重要性。现有的token级别PO方法使用基于token位置的启发式函数或由单独训练的模型给出的概率估计来计算token权重,这缺乏鲁棒性并产生额外的训练成本。相比之下,我们提出了Token加权DPO (TwDPO)——一种基于token加权RL的新型训练目标——以及AttentionPO——TwDPO的一个实例,它使用来自LLM本身的注意力来估计token权重。AttentionPO提示LLM充当成对判断器,并检查模型在比较响应时关注的位置。这种设计使AttentionPO具有内容感知能力,根据响应内容调整权重,并且高效,每个示例仅产生两次额外的前向传递。实验结果表明,AttentionPO显著提高了AlpacaEval、MT-Bench和ArenaHard的性能,超过了现有的偏好优化方法。

🔬 方法详解

问题定义:DPO(Direct Preference Optimization)方法在对齐大型语言模型与人类偏好时,对所有token一视同仁,忽略了不同token对于整体偏好判断的重要性。例如,关键的事实性token或逻辑推理token可能比填充词更重要。现有token级别的偏好优化方法,要么依赖于启发式规则(如token位置),要么需要额外训练的模型来估计token权重,这些方法鲁棒性较差,且增加了训练成本。

核心思路:AttentionPO的核心思想是利用LLM自身的能力来判断token的重要性。具体来说,它将LLM视为一个pairwise judge,通过分析LLM在比较两个响应时对不同token的注意力分布,来估计每个token的权重。这种方法无需额外的模型或启发式规则,直接利用了LLM内部的知识。

技术框架:AttentionPO是Token-weighted DPO (TwDPO)的一个具体实现。TwDPO是一个通用的token加权偏好优化框架,其核心是修改DPO的训练目标,引入token级别的权重。AttentionPO使用LLM的注意力机制来计算这些权重。整体流程如下:1) 给定一个prompt和两个响应(胜者和败者);2) 使用LLM生成两个响应;3) 使用LLM计算两个响应的注意力分布;4) 基于注意力分布计算token权重;5) 使用token权重修改DPO损失函数,进行模型训练。

关键创新:AttentionPO的关键创新在于使用LLM自身的注意力机制来估计token权重。这与现有方法的本质区别在于:1) 内容感知:权重是基于响应内容动态调整的,而不是固定的或基于启发式的;2) 高效:无需额外训练模型,只需两次额外的前向传递即可获得注意力分布;3) 自适应:LLM可以根据自身的知识和能力来判断token的重要性。

关键设计:AttentionPO的关键设计包括:1) 使用LLM的哪一层注意力头?论文可能探索了不同层的注意力头,并选择了效果最佳的;2) 如何将注意力权重转化为token权重?例如,可以直接使用注意力值,或者进行归一化处理;3) 如何修改DPO损失函数?论文需要明确给出修改后的损失函数公式,以及如何将token权重融入到损失函数中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AttentionPO在AlpacaEval、MT-Bench和ArenaHard等多个基准测试中显著优于现有的偏好优化方法。例如,在AlpacaEval上,AttentionPO的胜率提高了X%(具体数据需要在论文中查找)。这些结果表明,AttentionPO能够更有效地对齐LLM与人类偏好,提升模型的整体性能。

🎯 应用场景

AttentionPO具有广泛的应用前景,可以应用于各种需要对齐人类偏好的大型语言模型训练任务中。例如,可以用于提升对话系统的流畅性和一致性,提高文本生成模型的创造性和相关性,以及改进代码生成模型的正确性和效率。该方法还可以应用于其他序列生成任务,例如机器翻译和文本摘要。

📄 摘要(原文)

Direct Preference Optimization (DPO) aligns Large Language Models with human preferences without the need for a separate reward model. However, DPO treats all tokens in responses equally, neglecting the differing importance of individual tokens. Existing token-level PO methods compute the token weights using either token-position-based heuristic functions or probability estimates given by a separately trained model, which lacks robustness and incurs extra training cost. In contrast, we propose Token-weighted DPO (TwDPO) -- a novel training objective grounded on token-weighted RL -- and AttentionPO -- an instantiation of TwDPO that uses attention from the LLM itself to estimate token weights. AttentionPO prompts the LLM to serve as a pairwise judge and check where the model attends when comparing the responses. This design makes AttentionPO content-aware, adjusting weights based on response content, and efficient, incurring only two extra forward passes per example. Experiment results show that AttentionPO significantly improves performance on AlpacaEval, MT-Bench, and ArenaHard, surpassing existing Preference Optimization methods.