FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings

作者: Tong Liu, Xiao Yu, Wenxuan Zhou, Jindong Gu, Volker Tresp

分类: cs.CL, cs.AI

发布日期: 2025-01-11 (更新: 2025-07-28)

备注: ACL 2025

💡 一句话要点

FocalPO：通过关注正确排序偏好来增强偏好优化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 偏好优化 大型语言模型 直接偏好优化 人类对齐 Focal Loss

📋 核心要点

DPO训练虽然梯度侧重于错误排序的偏好对，但实际提升效果有限，未能有效纠正这些错误。
FocalPO通过降低错误排序样本的权重，并提升正确排序样本的权重，从而优化模型训练。
实验表明，FocalPO在Alpaca Eval 2.0等基准测试中优于DPO及其变体，证明了其有效性。

📝 摘要（中文）

直接偏好优化（DPO）等高效的偏好优化算法已成为将大型语言模型（LLM）与人类偏好对齐的热门方法。这些算法隐式地将LLM视为奖励模型，并侧重于训练它以纠正错误排序的偏好对。然而，最近的研究表明，尽管DPO的梯度强调这些情况，但DPO训练很少改善这些错误排序的偏好对。我们引入了FocalPO，一种DPO变体，它反而降低了错误排序偏好对的权重，并优先增强模型对已经可以正确排序的偏好对的理解。受到视觉任务中使用的Focal Loss的启发，FocalPO通过向DPO损失添加一个调节因子来动态缩放DPO损失来实现这一点。我们的实验表明，在使用Mistral-Base-7B和Llama-3-Instruct-8B等模型时，FocalPO在Alpaca Eval 2.0等流行的基准测试中超越了DPO及其变体，且引入的超参数是固定的。此外，我们通过实验揭示了FocalPO如何影响对正确和错误样本组的训练，进一步强调了其有效性。

🔬 方法详解

问题定义：现有直接偏好优化（DPO）算法在训练大型语言模型（LLM）与人类偏好对齐时，虽然侧重于纠正错误排序的偏好对，但实际效果不佳，未能有效提升模型对这些错误排序样本的理解和纠正能力。这导致训练效率低下，模型性能提升受限。

核心思路：FocalPO的核心思路是借鉴计算机视觉中的Focal Loss，通过动态调整损失权重，降低错误排序样本的权重，同时提升正确排序样本的权重。这样可以使模型更加关注已经能够正确排序的样本，从而更好地学习人类偏好，并最终提升整体性能。

技术框架：FocalPO的整体框架与DPO类似，仍然是基于偏好数据的训练方法。主要区别在于损失函数的计算方式。FocalPO在DPO的损失函数基础上，引入了一个调节因子，该因子基于模型对样本排序的置信度动态调整损失权重。具体来说，对于模型已经能够正确排序的样本，调节因子会降低其损失权重；对于模型错误排序的样本，调节因子会提升其损失权重。

关键创新：FocalPO的关键创新在于引入了基于置信度的动态权重调整机制。与DPO平等对待所有样本不同，FocalPO能够根据模型对样本的理解程度，自适应地调整损失权重，从而更加有效地利用训练数据，提升模型性能。这种方法能够使模型更加关注有价值的样本，避免在错误样本上浪费计算资源。

关键设计：FocalPO的关键设计在于调节因子的计算方式。论文中采用了一种基于模型输出概率的调节因子，该因子能够反映模型对样本排序的置信度。具体来说，调节因子可以表示为 (1 - p)^γ，其中 p 是模型对样本排序的置信度，γ 是一个超参数，用于控制权重调整的强度。通过调整 γ 的值，可以控制FocalPO对正确和错误排序样本的关注程度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FocalPO在Alpaca Eval 2.0基准测试中显著优于DPO及其变体。例如，在使用Mistral-Base-7B和Llama-3-Instruct-8B等模型时，FocalPO在Alpaca Eval 2.0上的胜率均高于DPO。更重要的是，FocalPO在固定超参数的情况下，仍然能够取得优异的性能，表明其具有良好的鲁棒性和泛化能力。

🎯 应用场景

FocalPO可应用于各种需要将大型语言模型与人类偏好对齐的场景，例如对话系统、文本生成、代码生成等。通过提升模型对人类偏好的理解能力，可以生成更符合人类期望、更安全、更可靠的文本内容。该方法具有广泛的应用前景，能够提升人工智能系统的用户体验和实际价值。

📄 摘要（原文）

Efficient preference optimization algorithms such as Direct Preference Optimization (DPO) have become a popular approach in aligning large language models (LLMs) with human preferences. These algorithms implicitly treat the LLM as a reward model, and focus on training it to correct misranked preference pairs. However, recent work~\citep{chen2024preference} empirically finds that DPO training \textit{rarely improves these misranked preference pairs}, despite its gradient emphasizing on these cases. We introduce FocalPO, a DPO variant that instead \textit{down-weighs} misranked preference pairs and prioritizes enhancing the model's understanding of pairs that it can already rank correctly. Inspired by Focal Loss used in vision tasks, FocalPO achieves this by adding a modulating factor to dynamically scale DPO loss. Our experiment demonstrates that FocalPO surpasses DPO and its variants on popular benchmarks like Alpaca Eval 2.0 using Mistral-Base-7B and Llama-3-Instruct-8B, with the introduced hyperparameter fixed. Additionally, we empirically reveals how FocalPO affects training on correct and incorrect sample groups, further underscoring its effectiveness.

FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理