Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback

作者: Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi

分类: cs.CL

发布日期: 2024-06-13 (更新: 2024-10-07)

备注: Neurips 2024 camera-ready

🔗 代码/项目: GITHUB | GITHUB | HUGGINGFACE

💡 一句话要点

系统性解耦偏好学习各因素，揭示数据质量、算法选择等对语言模型性能的影响

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 偏好学习 强化学习 语言模型 PPO DPO 奖励模型 指令遵循

📋 核心要点

现有偏好学习方法在数据、算法和评估上差异大，难以确定各因素对语言模型性能的具体影响。
该研究系统性地分析了偏好数据、学习算法、奖励模型和训练提示四个核心因素，并提出了优化偏好学习的方案。
实验表明，高质量偏好数据对性能提升最大，PPO算法在数学和通用领域表现优于DPO，且奖励模型规模的提升在数学评估中收益明显。

📝 摘要（中文）

从偏好反馈中学习已成为提升现代语言模型生成质量和性能的关键步骤。然而，基于偏好的学习方法在数据、学习算法和评估方式上差异巨大，难以区分各方面的影响。本文识别了偏好学习的四个核心方面：偏好数据、学习算法、奖励模型和策略训练提示，并系统地研究了这些组成部分对下游模型性能的影响，提出了一个用于偏好反馈学习的有效方案。研究表明，所有方面都对性能至关重要，其中更好的偏好数据带来最大的改进，其次是学习算法的选择、改进的奖励模型的使用，最后是用于策略训练的额外无标签提示。值得注意的是，PPO在数学领域优于DPO高达2.5%，在通用领域优于1.2%。高质量的偏好数据在指令遵循和真实性方面带来高达8%的改进。尽管扩大奖励模型规模在数学评估中带来了高达5%的显著收益，但在其他类别中观察到的改进却很小。

🔬 方法详解

问题定义：论文旨在解决在偏好学习中，由于数据、算法、奖励模型和训练提示等因素的混杂，难以确定每个因素对最终语言模型性能的具体影响的问题。现有方法缺乏系统性的分析，难以指导偏好学习的实践。

核心思路：论文的核心思路是将偏好学习过程解耦为四个核心组成部分：偏好数据、学习算法、奖励模型和策略训练提示。通过控制变量法，分别研究每个组成部分对下游模型性能的影响，从而确定每个因素的重要性，并为偏好学习提供指导。

技术框架：整体框架包括以下几个主要阶段： 1. 数据收集：收集不同质量和类型的偏好数据。 2. 奖励模型训练：使用偏好数据训练奖励模型，用于评估语言模型的输出质量。 3. 策略训练：使用不同的学习算法（如PPO和DPO）和训练提示，优化语言模型的策略。 4. 评估：在各种下游任务上评估训练后的语言模型的性能，并分析不同因素的影响。

关键创新：论文的关键创新在于其系统性的解耦分析方法，能够量化不同因素对偏好学习的影响。此外，论文还发现了一些反直觉的结果，例如，高质量偏好数据的重要性远高于其他因素，以及奖励模型规模的提升在不同任务上的收益差异很大。

关键设计：论文的关键设计包括： 1. 偏好数据：设计了不同质量和类型的偏好数据，例如，人工标注的偏好数据和自动生成的偏好数据。 2. 学习算法：比较了PPO和DPO两种主流的偏好学习算法。 3. 奖励模型：训练了不同规模的奖励模型，并研究了模型规模对性能的影响。 4. 策略训练提示：使用了不同的训练提示，例如，额外的无标签提示，以提高策略训练的效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，高质量的偏好数据对指令遵循和真实性有高达8%的提升。PPO算法在数学领域优于DPO高达2.5%，在通用领域优于1.2%。尽管扩大奖励模型规模在数学评估中带来了高达5%的显著收益，但在其他类别中观察到的改进却很小。这些结果强调了数据质量和算法选择在偏好学习中的重要性。

🎯 应用场景

该研究成果可应用于各种需要从人类反馈中学习的语言模型任务，例如对话生成、文本摘要、代码生成等。通过优化偏好数据的质量、选择合适的学习算法和奖励模型，可以显著提高语言模型的性能和用户满意度。该研究为偏好学习的实践提供了有价值的指导，有助于开发更智能、更人性化的语言模型。

📄 摘要（原文）

Learning from preference feedback has emerged as an essential step for improving the generation quality and performance of modern language models (LMs). Despite its widespread use, the way preference-based learning is applied varies wildly, with differing data, learning algorithms, and evaluations used, making disentangling the impact of each aspect difficult. In this work, we identify four core aspects of preference-based learning: preference data, learning algorithm, reward model, and policy training prompts, systematically investigate the impact of these components on downstream model performance, and suggest a recipe for strong learning for preference feedback. Our findings indicate that all aspects are important for performance, with better preference data leading to the largest improvements, followed by the choice of learning algorithm, the use of improved reward models, and finally the use of additional unlabeled prompts for policy training. Notably, PPO outperforms DPO by up to 2.5% in math and 1.2% in general domains. High-quality preference data leads to improvements of up to 8% in instruction following and truthfulness. Despite significant gains of up to 5% in mathematical evaluation when scaling up reward models, we surprisingly observe marginal improvements in other categories. We publicly release the code used for training (https://github.com/hamishivi/EasyLM) and evaluating (https://github.com/allenai/open-instruct) our models, along with the models and datasets themselves (https://huggingface.co/collections/allenai/tulu-v25-suite-66676520fd578080e126f618).

Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理