When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets
作者: Aladin Djuhera, Farhan Ahmed, Swanand Ravindra Kadhe, Syed Zawad, Heiko Ludwig, Holger Boche
分类: cs.CL, cs.AI
发布日期: 2025-11-14
💡 一句话要点
系统性分析并优化偏好优化数据集,提升LLM对齐效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 直接偏好优化 数据集质量评估 数据混合 大型语言模型对齐 奖励模型
📋 核心要点
- 现有开源DPO数据集缺乏系统性比较,难以理解偏好选择标准和质量。
- 利用Magpie框架进行细粒度数据分析,揭示数据集在任务类型和奖励边距上的差异。
- 构建UltraMix数据集,通过选择性混合和去噪,在更小规模上超越现有最佳数据集。
📝 摘要(中文)
大型语言模型(LLM)的对齐是后训练的核心目标,通常通过奖励建模和强化学习方法实现。直接偏好优化(DPO)已成为一种广泛采用的技术,它在优于不太有利的补全上微调LLM。虽然大多数前沿LLM没有公开其策划的偏好对,但更广泛的LLM社区已经发布了几个开源DPO数据集,包括TuluDPO、ORPO、UltraFeedback、HelpSteer和Code-Preference-Pairs。然而,由于高昂的计算成本和缺乏丰富质量的注释,系统性的比较仍然很少,这使得理解偏好是如何选择的、它们跨越的任务类型以及它们在每个样本级别上如何反映人类判断变得困难。在这项工作中,我们提出了第一个全面的、以数据为中心的流行开源DPO语料库分析。我们利用Magpie框架来注释每个样本的任务类别、输入质量和偏好奖励,这是一种基于奖励模型的信号,用于验证偏好顺序,而无需依赖人工注释。这使得能够对跨数据集的偏好质量进行可扩展的、细粒度的检查,揭示奖励边距中的结构性和质量差异。基于这些见解,我们系统地策划了一个新的DPO混合UltraMix,它有选择地从所有五个语料库中提取,同时删除噪声或冗余样本。UltraMix比性能最佳的单个数据集小30%,但在关键基准测试中超过了它的性能。我们公开发布所有注释、元数据和我们策划的混合,以促进未来以数据为中心的偏好优化研究。
🔬 方法详解
问题定义:论文旨在解决开源直接偏好优化(DPO)数据集缺乏系统性比较和质量控制的问题。现有方法难以有效评估和利用这些数据集,因为缺乏对偏好选择标准、任务类型覆盖和人类判断一致性的深入理解,导致模型训练效果受限。
核心思路:论文的核心思路是通过数据中心的方法,对现有DPO数据集进行全面分析和质量评估,从而构建一个高质量、低噪声的混合数据集。通过自动化标注和奖励模型验证,揭示数据集的结构性和质量差异,并有选择地混合和去噪,以提升模型训练效果。
技术框架:整体框架包括以下几个主要阶段:1) 数据收集:收集现有的开源DPO数据集,如TuluDPO、ORPO、UltraFeedback等。2) 数据标注:使用Magpie框架对每个样本进行任务类别、输入质量和偏好奖励的自动化标注。3) 数据分析:分析标注数据,揭示不同数据集在任务类型、奖励边距和噪声水平上的差异。4) 数据混合与去噪:基于分析结果,有选择地混合不同数据集,并去除噪声和冗余样本,构建UltraMix数据集。5) 模型训练与评估:使用UltraMix数据集训练LLM,并在关键基准测试中评估其性能。
关键创新:最重要的技术创新点在于对DPO数据集进行系统性的数据中心分析和质量评估。通过自动化标注和奖励模型验证,能够大规模地评估数据集的质量,并发现潜在的问题。此外,通过有选择地混合和去噪,构建了一个高质量的混合数据集,能够在更小规模上超越现有最佳数据集的性能。
关键设计:关键设计包括:1) 使用Magpie框架进行自动化标注,降低人工成本。2) 使用奖励模型验证偏好顺序,避免依赖人工标注。3) 基于数据分析结果,设计合理的混合策略,平衡不同数据集的优势。4) 通过去除噪声和冗余样本,提高数据质量和训练效率。
🖼️ 关键图片
📊 实验亮点
UltraMix数据集比最佳的单个数据集小30%,但在关键基准测试中表现更优。这表明通过数据中心的方法,可以显著提升DPO数据集的质量和效率。论文公开发布了所有注释、元数据和UltraMix数据集,为后续研究提供了宝贵的资源。
🎯 应用场景
该研究成果可应用于提升大型语言模型的对齐效果,尤其是在资源受限的情况下。高质量的偏好优化数据集能够帮助模型更好地理解人类意图,生成更符合人类价值观的文本。此外,该研究方法也为其他类型数据集的质量评估和优化提供了借鉴。
📄 摘要(原文)
Aligning large language models (LLMs) is a central objective of post-training, often achieved through reward modeling and reinforcement learning methods. Among these, direct preference optimization (DPO) has emerged as a widely adopted technique that fine-tunes LLMs on preferred completions over less favorable ones. While most frontier LLMs do not disclose their curated preference pairs, the broader LLM community has released several open-source DPO datasets, including TuluDPO, ORPO, UltraFeedback, HelpSteer, and Code-Preference-Pairs. However, systematic comparisons remain scarce, largely due to the high computational cost and the lack of rich quality annotations, making it difficult to understand how preferences were selected, which task types they span, and how well they reflect human judgment on a per-sample level. In this work, we present the first comprehensive, data-centric analysis of popular open-source DPO corpora. We leverage the Magpie framework to annotate each sample for task category, input quality, and preference reward, a reward-model-based signal that validates the preference order without relying on human annotations. This enables a scalable, fine-grained inspection of preference quality across datasets, revealing structural and qualitative discrepancies in reward margins. Building on these insights, we systematically curate a new DPO mixture, UltraMix, that draws selectively from all five corpora while removing noisy or redundant samples. UltraMix is 30% smaller than the best-performing individual dataset yet exceeds its performance across key benchmarks. We publicly release all annotations, metadata, and our curated mixture to facilitate future research in data-centric preference optimization.