TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching

📄 arXiv: 2605.12288v1 📥 PDF

作者: Truong Nguyen, Tien-Phat Nguyen, Linh Ngo Van, Duy Minh Ho Nguyen, Khoa Doan, Trung Le

分类: cs.CL, cs.AI

发布日期: 2026-05-12


💡 一句话要点

TokenRatio:通过比例匹配实现原则性的Token级别偏好优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 token级别优化 强化学习 语言模型对齐 Bregman散度

📋 核心要点

  1. 现有DPO方法在序列级别建模偏好,忽略了token生成过程的token级别决策特性,导致次优。
  2. 提出Token-level Bregman Preference Optimization (TBPO),通过token级别的Bradley-Terry模型和Bregman散度密度比匹配,实现token级别偏好优化。
  3. 实验表明,TBPO在指令跟随、帮助性/无害性和摘要任务中,提高了对齐质量、训练稳定性和输出多样性。

📝 摘要(中文)

直接偏好优化(DPO)是一种广泛使用的无强化学习方法,用于从成对偏好中对齐语言模型,但它对完整序列的偏好进行建模,即使生成是由每个token的决策驱动的。现有的token级别扩展通常将序列级别的Bradley-Terry目标分解到各个时间步,使得每个前缀(状态层面)的最优性变得隐式。我们研究了如何仅使用标准序列级别的成对比较来恢复token级别的偏好最优性。我们引入了Token级别Bregman偏好优化(TBPO),它假设了一个基于前缀的下一个token动作的token级别Bradley-Terry偏好模型,并推导出一个Bregman散度密度比匹配目标,该目标推广了logistic/DPO损失,同时保留了token级别模型所诱导的最优策略,并保持了类似DPO的简单性。我们介绍了两种实例化:TBPO-Q,它显式地学习了一个轻量级的状态基线,以及TBPO-A,它通过优势归一化消除了基线。在指令跟随、帮助性/无害性和摘要基准测试中,相对于强大的序列级别和token级别基线,TBPO提高了对齐质量和训练稳定性,并增加了输出多样性。

🔬 方法详解

问题定义:现有Direct Preference Optimization (DPO)方法虽然在序列级别取得了不错的效果,但其建模的是整个序列的偏好,而语言模型的生成过程实际上是基于每个token的决策。这种序列级别的建模忽略了token级别的细粒度信息,导致训练出来的模型可能并非token级别最优。现有的token级别扩展方法通常只是简单地将序列级别的目标分解到各个时间步,缺乏对每个前缀状态的最优性保证。

核心思路:论文的核心思路是将偏好建模放在token级别,即基于给定的前缀(prefix),对下一个token的选择进行偏好建模。具体来说,论文假设了一个token级别的Bradley-Terry偏好模型,该模型基于当前prefix,对所有可能的下一个token动作进行排序。通过优化这个token级别的偏好模型,可以更好地控制生成过程,并获得token级别最优的策略。

技术框架:TBPO的整体框架可以分为以下几个步骤:1. 使用pairwise比较数据,即对于给定的prompt,模型生成两个不同的response,并由人工或者其他方式给出偏好排序。2. 基于token级别的Bradley-Terry偏好模型,构建Bregman散度密度比匹配目标函数。3. 使用优化算法(例如梯度下降)优化该目标函数,从而更新语言模型的参数。论文提出了两种TBPO的实例化:TBPO-Q和TBPO-A,它们的主要区别在于是否显式地学习一个状态基线。

关键创新:TBPO的关键创新在于将偏好建模从序列级别转移到token级别,并提出了相应的优化目标。与现有的token级别扩展方法不同,TBPO通过Bregman散度密度比匹配,保证了token级别偏好模型的最优性。此外,TBPO还保持了DPO的简单性,易于实现和训练。

关键设计:TBPO的关键设计包括:1. Token级别的Bradley-Terry偏好模型:该模型基于当前prefix,对所有可能的下一个token动作进行排序。2. Bregman散度密度比匹配目标函数:该目标函数用于优化token级别的偏好模型,并保证其最优性。3. TBPO-Q和TBPO-A两种实例化:TBPO-Q显式地学习一个状态基线,而TBPO-A通过优势归一化消除了基线。具体损失函数的设计和参数设置需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TBPO在指令跟随、帮助性/无害性和摘要任务中,相对于强大的序列级别和token级别基线,显著提高了对齐质量和训练稳定性,并增加了输出多样性。具体性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于各种需要对齐语言模型的场景,例如指令跟随、对话生成、文本摘要等。通过token级别的偏好优化,可以提高生成文本的质量、安全性、可控性和多样性。该方法在人机交互、智能客服、内容创作等领域具有重要的应用价值,并有望推动语言模型在实际应用中的进一步发展。

📄 摘要(原文)

Direct Preference Optimization (DPO) is a widely used RL-free method for aligning language models from pairwise preferences, but it models preferences over full sequences even though generation is driven by per-token decisions. Existing token-level extensions typically decompose a sequence-level Bradley-Terry objective across timesteps, leaving per-prefix (state-wise) optimality implicit. We study how to recover token-level preference optimality using only standard sequence-level pairwise comparisons. We introduce Token-level Bregman Preference Optimization (TBPO), which posits a token-level Bradley-Terry preference model over next-token actions conditioned on the prefix, and derive a Bregman-divergence density-ratio matching objective that generalizes the logistic/DPO loss while preserving the optimal policy induced by the token-level model and maintaining DPO-like simplicity. We introduce two instantiations: TBPO-Q, which explicitly learns a lightweight state baseline, and TBPO-A, which removes the baseline through advantage normalization. Across instruction following, helpfulness/harmlessness, and summarization benchmarks, TBPO improves alignment quality and training stability and increases output diversity relative to strong sequence-level and token-level baselines.