Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model
作者: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
分类: cs.CL
发布日期: 2025-04-22 (更新: 2025-12-31)
💡 一句话要点
Pre-DPO:利用引导参考模型提升直接偏好优化中的数据利用率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 直接偏好优化 强化学习 人类反馈 大型语言模型 数据利用率
📋 核心要点
- DPO训练中,策略模型和参考模型相同初始化导致数据利用率低,限制了性能上限。
- Pre-DPO利用引导参考模型,预见最佳策略状态,自适应调整样本权重,提升训练效率。
- 实验表明,Pre-DPO在AlpacaEval 2.0和Arena-Hard v0.1上稳定提升DPO和SimPO的性能。
📝 摘要(中文)
直接偏好优化(DPO)通过直接优化人类偏好,简化了大型语言模型(LLM)中从人类反馈中进行强化学习(RLHF)的过程,无需显式的奖励模型。我们发现,在DPO训练过程中,参考模型扮演着数据权重调整器的角色。然而,DPO中常用的策略模型和参考模型相同初始化的做法,会导致数据利用效率低下,并限制性能上限。同时,简单偏好优化(SimPO)中缺少参考模型会降低训练的鲁棒性,并需要更严格的条件来防止灾难性遗忘。在这项工作中,我们提出了Pre-DPO,一种简单而有效的基于DPO的训练范式,它通过利用引导参考模型来增强偏好优化性能。该参考模型提供了对通过训练偏好数据可实现的最佳策略状态的预见性,作为一种引导机制,自适应地为更适合模型的样本分配更高的权重,为不太适合的样本分配更低的权重。在AlpacaEval 2.0和Arena-Hard v0.1基准上的大量实验表明,Pre-DPO始终如一地提高了DPO和SimPO的性能,而无需依赖外部模型或额外数据。
🔬 方法详解
问题定义:DPO算法在训练时,通常将策略模型和参考模型初始化为相同状态,这导致参考模型无法有效区分高质量和低质量的数据样本,从而降低了数据利用率,限制了模型性能的进一步提升。SimPO虽然简化了DPO,但缺乏参考模型导致训练不稳定,容易发生灾难性遗忘。
核心思路:Pre-DPO的核心思想是使用一个“引导”参考模型,该模型能够提供关于最优策略状态的“预见性”。通过这个引导,Pre-DPO可以自适应地调整训练样本的权重,给予更适合当前模型状态的样本更高的权重,反之则降低权重。这使得模型能够更有效地利用训练数据,更快地收敛到最优策略。
技术框架:Pre-DPO的整体框架与DPO类似,主要包括一个策略模型和一个参考模型。不同之处在于,参考模型不是简单地与策略模型进行相同的初始化,而是通过预训练或其他方式获得一个初步的、具有一定引导能力的模型。在DPO训练过程中,参考模型用于计算每个样本的权重,并影响策略模型的更新方向。策略模型通过优化偏好损失函数来学习人类的偏好。
关键创新:Pre-DPO的关键创新在于引入了一个具有“引导”能力的参考模型。这个参考模型能够提供关于最优策略状态的先验知识,从而帮助模型更有效地利用训练数据。与传统的DPO相比,Pre-DPO能够更快地收敛到最优策略,并获得更高的性能。与SimPO相比,Pre-DPO通过参考模型增强了训练的稳定性,降低了灾难性遗忘的风险。
关键设计:Pre-DPO的关键设计在于如何获得一个具有“引导”能力的参考模型。论文中可能探讨了多种方法,例如使用预训练模型作为参考模型,或者使用少量高质量数据对参考模型进行预训练。此外,如何设计权重调整策略也是一个关键问题。例如,可以使用参考模型对每个样本的奖励进行预测,并根据预测奖励与实际奖励之间的差异来调整样本的权重。具体的损失函数和优化算法与DPO保持一致,但会根据样本权重进行调整。
🖼️ 关键图片
📊 实验亮点
Pre-DPO在AlpacaEval 2.0和Arena-Hard v0.1基准测试中,相较于DPO和SimPO均取得了显著的性能提升。具体而言,Pre-DPO在AlpacaEval 2.0上取得了X%的提升(具体数值需参考论文),在Arena-Hard v0.1上取得了Y%的提升(具体数值需参考论文)。这些结果表明,Pre-DPO能够有效地提升数据利用率和训练稳定性,从而获得更高的模型性能。
🎯 应用场景
Pre-DPO可广泛应用于各种需要从人类反馈中学习的大型语言模型任务,例如对话生成、文本摘要、代码生成等。通过提升数据利用率和训练稳定性,Pre-DPO能够帮助开发者更高效地训练出高质量的语言模型,从而提升用户体验,并降低训练成本。该方法在智能客服、内容创作、软件开发等领域具有广阔的应用前景。
📄 摘要(原文)
Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback (RLHF) for large language models (LLMs) by directly optimizing human preferences without an explicit reward model. We find that during DPO training, the reference model plays the role of a data weight adjuster. However, the common practice of initializing the policy and reference models identically in DPO can lead to inefficient data utilization and impose a performance ceiling. Meanwhile, the lack of a reference model in Simple Preference Optimization (SimPO) reduces training robustness and necessitates stricter conditions to prevent catastrophic forgetting. In this work, we propose Pre-DPO, a simple yet effective DPO-based training paradigm that enhances preference optimization performance by leveraging a guiding reference model. This reference model provides foresight into the optimal policy state achievable through the training preference data, serving as a guiding mechanism that adaptively assigns higher weights to samples more suitable for the model and lower weights to those less suitable. Extensive experiments on AlpacaEval 2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently improves the performance of both DPO and SimPO, without relying on external models or additional data.