SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

作者: Tianjian Li, Daniel Khashabi

分类: cs.CL

发布日期: 2025-05-05

备注: To appear in ICML 2025

💡 一句话要点

SIMPLEMIX：一种简单有效的混合策略，提升语言模型偏好学习效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 语言模型 偏好学习 在线学习 离线学习 数据混合 人机对齐 强化学习 直接偏好优化

📋 核心要点

现有偏好学习方法在利用在线和离线数据时存在局限性，未能充分挖掘二者在不同任务上的互补优势。
SIMPLEMIX 核心思想是简单地混合在线和离线数据，以结合二者在推理和开放式任务上的优势。
实验结果表明，SIMPLEMIX 在多个基准测试中显著优于现有的在线、离线以及混合策略，提升了语言模型的对齐效果。

📝 摘要（中文）

为了使语言模型与人类偏好对齐，通常依赖于成对偏好数据集。尽管一些研究表明在线数据在偏好学习方面始终优于离线数据，但其他研究表明在线数据的优势可能取决于任务。本文旨在系统地探索在线和离线数据之间的相互作用。研究表明，在线和离线数据在偏好优化方面具有互补优势：在线数据对于数学和编码等推理任务特别有效，而离线数据在创意写作和个人推荐等开放式任务中表现更好。基于这些发现，我们提出了一种名为SIMPLEMIX的方法，通过简单地混合这两种数据源来结合在线和离线偏好学习的互补优势。在各种任务和基准测试中的实验结果表明，SIMPLEMIX 显著提高了语言模型的对齐效果。具体而言，SIMPLEMIX 在 Alpaca Eval 2.0 上比在线 DPO 和离线 DPO 平均提高了 6.03%，并且优于先前更复杂的在线和离线数据组合方法，例如 HyPO 和 DPO-Mix-P，平均提高了 3.05%。

🔬 方法详解

问题定义：现有语言模型偏好学习方法，要么只使用在线数据，要么只使用离线数据，或者使用复杂的混合策略。这些方法忽略了在线数据和离线数据在不同任务上的互补优势。在线数据擅长推理任务，而离线数据擅长开放式任务。因此，如何有效地结合在线和离线数据，充分利用它们的优势，是一个亟待解决的问题。

核心思路：SIMPLEMIX 的核心思路是，既然在线和离线数据在不同类型的任务上表现出互补的优势，那么最简单直接的方法就是将它们混合在一起进行训练。这种混合策略能够让模型同时学习到在线数据的推理能力和离线数据的开放性，从而在各种任务上都取得更好的效果。

技术框架：SIMPLEMIX 的整体框架非常简单。它首先收集在线和离线的偏好数据，然后将这些数据混合在一起，最后使用混合后的数据训练语言模型。训练过程可以使用现有的偏好学习算法，例如 DPO (Direct Preference Optimization)。整个流程的关键在于数据混合的比例，需要根据具体的任务和数据集进行调整。

关键创新：SIMPLEMIX 最重要的创新点在于它的简洁性。它摒弃了复杂的混合策略，而是采用了一种简单直接的数据混合方法。这种方法不仅易于实现，而且效果显著，证明了在偏好学习中，简单往往是最有效的。与现有方法的本质区别在于，SIMPLEMIX 更加注重利用数据的内在特性，而不是依赖复杂的算法设计。

关键设计：SIMPLEMIX 的关键设计在于在线和离线数据的混合比例。论文中可能探讨了不同的混合比例对模型性能的影响，并提出了选择最佳混合比例的策略。此外，损失函数仍然可以使用标准的 DPO 损失函数，无需进行额外的修改。具体的网络结构取决于所使用的语言模型，SIMPLEMIX 可以与各种语言模型兼容。

🖼️ 关键图片

📊 实验亮点

SIMPLEMIX 在 Alpaca Eval 2.0 上比在线 DPO 和离线 DPO 平均提高了 6.03%，并且优于先前更复杂的在线和离线数据组合方法，例如 HyPO 和 DPO-Mix-P，平均提高了 3.05%。这些结果表明，SIMPLEMIX 是一种简单而有效的偏好学习方法，能够显著提升语言模型的对齐效果。

🎯 应用场景

SIMPLEMIX 可应用于各种需要语言模型与人类偏好对齐的场景，例如对话系统、内容生成、推荐系统等。通过结合在线和离线数据，SIMPLEMIX 可以提升语言模型在不同任务上的表现，使其更加符合人类的期望和需求。该方法具有广泛的应用前景，有望推动人机交互和人工智能的发展。

📄 摘要（原文）

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理