Selective Preference Optimization via Token-Level Reward Function Estimation

作者: Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Erxue Min, Sophia Ananiadou

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-08-24 (更新: 2025-09-05)

备注: Accepted by the EMNLP 2025 main conference

期刊: https://aclanthology.org/2025.emnlp-main.359/

💡 一句话要点

提出SePO，通过token级奖励函数估计实现高效选择性偏好优化。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 偏好优化 token选择 奖励函数估计 大型语言模型对齐 弱到强泛化

📋 核心要点

现有token级对齐方法要么效率低，要么token选择策略复杂且昂贵。
SePO通过训练oracle模型估计token级奖励函数，实现高效的关键token选择。
实验表明，SePO仅优化30%的关键token，性能显著优于基线，并能有效泛化。

📝 摘要（中文）

本文提出了一种新的选择性对齐策略——选择性偏好优化（SePO），专注于高效的关键token选择。SePO首创了一种基于直接偏好优化（DPO）的token选择方法，该方法训练一个oracle模型来估计目标数据上的token级奖励函数。此方法适用于任何具有响应级注释的现有对齐数据集，并能够以小规模oracle模型和训练数据实现经济高效的token选择。估计的奖励函数用于对目标数据集中的所有token进行评分，仅选择关键token来使用无参考模型的对比目标函数来监督目标策略模型。在三个公共评估基准上的大量实验表明，SePO仅通过优化目标数据集上30%的关键token，就显著优于具有竞争力的基线方法。SePO在弱到强泛化上的应用表明，弱oracle模型可以有效地监督参数多达16.8倍的强策略模型。SePO还可以有效地从分布外数据中选择关键token，以增强强策略模型并缓解过度优化问题。

🔬 方法详解

问题定义：现有token级对齐方法存在效率和成本问题。简单地对所有token进行优化会引入噪声，降低训练效率。而复杂的关键token选择策略又会增加计算成本，限制了其应用范围。因此，如何高效且经济地选择关键token进行优化是一个亟待解决的问题。

核心思路：SePO的核心思路是利用一个小型oracle模型来学习一个token级别的奖励函数，该函数能够评估每个token的重要性。通过奖励函数对token进行排序，选择奖励值高的token作为关键token，从而实现有选择性的优化。这种方法旨在减少噪声token的干扰，提高训练效率，并降低计算成本。

技术框架：SePO的整体框架包括以下几个主要阶段：1) Oracle模型训练：使用DPO训练一个小型oracle模型，使其能够预测目标数据上每个token的奖励值。2) Token评分：使用训练好的oracle模型对目标数据集中的所有token进行评分，得到每个token的奖励值。3) 关键Token选择：根据token的奖励值，选择排名靠前的token作为关键token。4) 策略模型优化：使用选择的关键token，通过一个无参考模型的对比目标函数来监督目标策略模型的训练。

关键创新：SePO的关键创新在于提出了一种基于DPO的token级奖励函数估计方法，用于关键token的选择。与现有方法相比，SePO无需复杂的token选择策略，而是通过学习的方式自动识别关键token。此外，SePO使用小型oracle模型进行奖励函数估计，降低了计算成本。

关键设计：SePO的关键设计包括：1) 使用DPO作为oracle模型的训练方法，DPO是一种稳定的、无参考模型的偏好优化方法。2) 使用小规模的oracle模型，降低计算成本。3) 使用对比目标函数进行策略模型优化，鼓励模型生成与关键token相关的文本。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SePO在三个公共评估基准上显著优于竞争基线方法。具体来说，SePO仅通过优化目标数据集上30%的关键token，就取得了优越的性能。此外，SePO在弱到强泛化上的应用表明，弱oracle模型可以有效地监督参数多达16.8倍的强策略模型，并且SePO可以有效地从分布外数据中选择关键token，以增强强策略模型并缓解过度优化问题。

🎯 应用场景

SePO可应用于各种需要对大型语言模型进行对齐的任务，例如指令遵循、对话生成和文本摘要。通过选择性地优化关键token，SePO能够提高模型的性能和效率，并缓解过度优化问题。此外，SePO在弱到强泛化方面的应用表明，它可以利用小规模的弱模型来指导大规模强模型的训练，降低训练成本。

📄 摘要（原文）

Recent advancements in large language model alignment leverage token-level supervisions to perform fine-grained preference optimization. However, existing token-level alignment methods either optimize on all available tokens, which can be noisy and inefficient, or perform selective training with complex and expensive key token selection strategies. In this work, we propose Selective Preference Optimization (SePO), a novel selective alignment strategy that centers on efficient key token selection. SePO proposes the first token selection method based on Direct Preference Optimization (DPO), which trains an oracle model to estimate a token-level reward function on the target data. This method applies to any existing alignment datasets with response-level annotations and enables cost-efficient token selection with small-scale oracle models and training data. The estimated reward function is then utilized to score all tokens within the target dataset, where only the key tokens are selected to supervise the target policy model with a reference model-free contrastive objective function. Extensive experiments on three public evaluation benchmarks show that SePO significantly outperforms competitive baseline methods by only optimizing 30% key tokens on the target dataset. SePO applications on weak-to-strong generalization show that weak oracle models effectively supervise strong policy models with up to 16.8x more parameters. SePO also effectively selects key tokens from out-of-distribution data to enhance strong policy models and alleviate the over-optimization problem.

Selective Preference Optimization via Token-Level Reward Function Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理