Token-weighted Direct Preference Optimization with Attention

作者: Chengyu Huang, Zhuohang Li, Sheng-Yen Chou, Claire Cardie

分类: cs.CL

发布日期: 2026-05-21

💡 一句话要点

提出Token加权DPO方法AttentionPO，利用LLM注意力机制提升偏好优化效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 大型语言模型 注意力机制 token加权 偏好对齐

📋 核心要点

现有DPO方法平等对待所有token，忽略了token重要性差异，导致优化效果受限。
AttentionPO利用LLM的注意力机制估计token权重，实现内容感知的token加权偏好优化。
实验表明，AttentionPO在多个基准测试中显著优于现有偏好优化方法，提升了模型性能。

📝 摘要（中文）

直接偏好优化(DPO)无需单独的奖励模型即可使大型语言模型与人类偏好对齐。然而，DPO平等地对待响应中的所有token，忽略了各个token的不同重要性。现有的token级别PO方法使用基于token位置的启发式函数或由单独训练的模型给出的概率估计来计算token权重，这缺乏鲁棒性并产生额外的训练成本。相比之下，我们提出了Token加权DPO (TwDPO)——一种基于token加权RL的新型训练目标——以及AttentionPO——TwDPO的一个实例，它使用来自LLM本身的注意力来估计token权重。AttentionPO提示LLM充当成对判断器，并检查模型在比较响应时关注的位置。这种设计使AttentionPO具有内容感知能力，根据响应内容调整权重，并且高效，每个示例仅产生两次额外的前向传递。实验结果表明，AttentionPO显著提高了AlpacaEval、MT-Bench和ArenaHard的性能，超过了现有的偏好优化方法。

🔬 方法详解

问题定义：DPO（Direct Preference Optimization）方法在对齐大型语言模型与人类偏好时，对所有token一视同仁，忽略了不同token对于整体偏好判断的重要性。例如，关键的事实性token或逻辑推理token可能比填充词更重要。现有token级别的偏好优化方法，要么依赖于启发式规则（如token位置），要么需要额外训练的模型来估计token权重，这些方法鲁棒性较差，且增加了训练成本。

核心思路：AttentionPO的核心思想是利用LLM自身的能力来判断token的重要性。具体来说，它将LLM视为一个pairwise judge，通过分析LLM在比较两个响应时对不同token的注意力分布，来估计每个token的权重。这种方法无需额外的模型或启发式规则，直接利用了LLM内部的知识。

技术框架：AttentionPO是Token-weighted DPO (TwDPO)的一个具体实现。TwDPO是一个通用的token加权偏好优化框架，其核心是修改DPO的训练目标，引入token级别的权重。AttentionPO使用LLM的注意力机制来计算这些权重。整体流程如下：1) 给定一个prompt和两个响应（胜者和败者）；2) 使用LLM生成两个响应；3) 使用LLM计算两个响应的注意力分布；4) 基于注意力分布计算token权重；5) 使用token权重修改DPO损失函数，进行模型训练。

关键创新：AttentionPO的关键创新在于使用LLM自身的注意力机制来估计token权重。这与现有方法的本质区别在于：1) 内容感知：权重是基于响应内容动态调整的，而不是固定的或基于启发式的；2) 高效：无需额外训练模型，只需两次额外的前向传递即可获得注意力分布；3) 自适应：LLM可以根据自身的知识和能力来判断token的重要性。

关键设计：AttentionPO的关键设计包括：1) 使用LLM的哪一层注意力头？论文可能探索了不同层的注意力头，并选择了效果最佳的；2) 如何将注意力权重转化为token权重？例如，可以直接使用注意力值，或者进行归一化处理；3) 如何修改DPO损失函数？论文需要明确给出修改后的损失函数公式，以及如何将token权重融入到损失函数中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AttentionPO在AlpacaEval、MT-Bench和ArenaHard等多个基准测试中显著优于现有的偏好优化方法。例如，在AlpacaEval上，AttentionPO的胜率提高了X%（具体数据需要在论文中查找）。这些结果表明，AttentionPO能够更有效地对齐LLM与人类偏好，提升模型的整体性能。

🎯 应用场景

AttentionPO具有广泛的应用前景，可以应用于各种需要对齐人类偏好的大型语言模型训练任务中。例如，可以用于提升对话系统的流畅性和一致性，提高文本生成模型的创造性和相关性，以及改进代码生成模型的正确性和效率。该方法还可以应用于其他序列生成任务，例如机器翻译和文本摘要。

📄 摘要（原文）

Direct Preference Optimization (DPO) aligns Large Language Models with human preferences without the need for a separate reward model. However, DPO treats all tokens in responses equally, neglecting the differing importance of individual tokens. Existing token-level PO methods compute the token weights using either token-position-based heuristic functions or probability estimates given by a separately trained model, which lacks robustness and incurs extra training cost. In contrast, we propose Token-weighted DPO (TwDPO) -- a novel training objective grounded on token-weighted RL -- and AttentionPO -- an instantiation of TwDPO that uses attention from the LLM itself to estimate token weights. AttentionPO prompts the LLM to serve as a pairwise judge and check where the model attends when comparing the responses. This design makes AttentionPO content-aware, adjusting weights based on response content, and efficient, incurring only two extra forward passes per example. Experiment results show that AttentionPO significantly improves performance on AlpacaEval, MT-Bench, and ArenaHard, surpassing existing Preference Optimization methods.

Token-weighted Direct Preference Optimization with Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理