Minor DPO reject penalty to increase training robustness

📄 arXiv: 2408.09834v3 📥 PDF

作者: Shiming Xie, Hong Chen, Fred Yu, Zeye Sun, Xiuyu Wu, Yingfan Hu

分类: cs.AI

发布日期: 2024-08-19 (更新: 2024-08-30)

备注: 8 pages, 19 figures


💡 一句话要点

提出MinorDPO,通过引入reject惩罚增强DPO训练的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 DPO 人类偏好 强化学习 语言模型微调 鲁棒性 reject惩罚

📋 核心要点

  1. 现有DPO方法在简化RLHF流程的同时,可能牺牲了训练的稳定性和与原始RL算法的对齐程度。
  2. MinorDPO的核心思想是在DPO的损失函数中引入一个针对被拒绝样本的惩罚项,从而更贴近原始RL算法的目标。
  3. 论文通过实验验证了MinorDPO能够提高偏好优化过程的稳定性,并可能带来更好的性能。

📝 摘要(中文)

本文研究了从人类偏好中学习的大规模语言模型(LLM)微调方法,旨在更好地将预训练LLM与下游任务的人类偏好对齐。过去通常使用基于人类反馈的强化学习(RLHF)算法来优化LLM策略,使其与这些偏好对齐,同时避免偏离原始模型过远。最近,直接偏好优化(DPO)被提出,它以简化的无RL方法解决对齐问题。DPO使用选择和拒绝数据的偏好对,将相对对数概率建模为隐式奖励函数,并直接使用简单的二元交叉熵目标优化LLM策略。DPO非常直接且易于理解,在大多数情况下表现高效且良好。本文分析了DPO中β的工作机制,揭示了其与RL算法的语法差异,并理解了DPO简化带来的潜在不足。基于这些见解,我们提出了MinorDPO,它更好地与原始RL算法对齐,并提高了偏好优化过程的稳定性。

🔬 方法详解

问题定义:DPO方法旨在通过直接优化语言模型来对齐人类偏好,避免了复杂的强化学习过程。然而,DPO的简化可能导致训练不稳定,并且与原始RL算法的目标存在偏差。具体来说,DPO可能对被拒绝的样本处理不够充分,导致模型更容易受到噪声数据的影响,或者在某些情况下无法充分利用人类偏好信息。

核心思路:MinorDPO的核心思路是在DPO的损失函数中引入一个针对被拒绝样本的惩罚项。这个惩罚项旨在鼓励模型更加明确地区分选择的样本和拒绝的样本,从而提高训练的鲁棒性和稳定性。通过更精细地处理被拒绝的样本,MinorDPO试图更好地模拟原始RL算法的行为,并减少DPO简化带来的潜在问题。

技术框架:MinorDPO沿用了DPO的整体框架,仍然使用选择和拒绝数据的偏好对进行训练。主要的区别在于损失函数的修改。DPO使用标准的二元交叉熵损失,而MinorDPO在二元交叉熵损失的基础上,增加了一个与被拒绝样本相关的惩罚项。这个惩罚项的具体形式可以根据不同的实验设置进行调整。

关键创新:MinorDPO的关键创新在于引入了针对被拒绝样本的惩罚项,从而更贴近原始RL算法的目标。与DPO相比,MinorDPO能够更精细地处理人类偏好信息,并提高训练的鲁棒性和稳定性。这种方法在不引入复杂强化学习过程的前提下,提高了偏好对齐的性能。

关键设计:MinorDPO的关键设计在于惩罚项的具体形式。一种可能的实现方式是,对被拒绝样本的损失进行加权,使其在总损失中占据更大的比例。另一种方式是引入一个额外的损失项,专门用于惩罚模型对被拒绝样本的错误预测。具体参数的选择需要根据实验结果进行调整,以达到最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了MinorDPO,通过引入reject惩罚增强DPO训练的鲁棒性。虽然摘要中没有明确给出具体的性能数据和提升幅度,但强调了MinorDPO更好地与原始RL算法对齐,并提高了偏好优化过程的稳定性。具体的实验结果需要在论文正文中查找。

🎯 应用场景

MinorDPO可应用于各种需要从人类偏好中学习的语言模型微调任务,例如对话系统、文本生成、代码生成等。通过提高训练的鲁棒性和稳定性,MinorDPO可以帮助模型更好地对齐人类偏好,生成更符合人类期望的文本内容。该方法具有广泛的应用前景,可以提升各种下游任务的性能。

📄 摘要(原文)

Learning from human preference is a paradigm used in large-scale language model (LLM) fine-tuning step to better align pretrained LLM to human preference for downstream task. In the past it uses reinforcement learning from human feedback (RLHF) algorithm to optimize the LLM policy to align with these preferences and not to draft too far from the original model. Recently, Direct Preference Optimization (DPO) has been proposed to solve the alignment problem with a simplified RL-free method. Using preference pairs of chosen and reject data, DPO models the relative log probability as implicit reward function and optimize LLM policy using a simple binary cross entropy objective directly. DPO is quite straight forward and easy to be understood. It perform efficiently and well in most cases. In this article, we analyze the working mechanism of $β$ in DPO, disclose its syntax difference between RL algorithm and DPO, and understand the potential shortage brought by the DPO simplification. With these insights, we propose MinorDPO, which is better aligned to the original RL algorithm, and increase the stability of preference optimization process.