WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

📄 arXiv: 2501.18511v2 📥 PDF

作者: Benjamin Feuer, Chinmay Hegde

分类: cs.LG, cs.CL

发布日期: 2025-01-30 (更新: 2025-05-23)

备注: ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

WILDCHAT-50M:通过大规模合成数据提升语言模型后训练效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语言模型 后训练 合成数据 聊天数据集 开源模型

📋 核心要点

  1. 语言模型后训练技术(如DPO、蒸馏)受限于大规模对比分析合成数据生成模型和LLM评判模型的难度。
  2. 论文核心在于构建大规模公共聊天数据集WILDCHAT-50M,包含50多个开源模型的回复,用于后训练技术研究。
  3. 实验表明,基于WILDCHAT-50M构建的RE-WILD模型,仅用少量样本就超越了现有SFT混合模型Tulu-3。

📝 摘要(中文)

本文介绍了WILDCHAT-50M,迄今为止最大的公共聊天数据集,旨在促进语言模型(LLM)后训练技术的研究。后训练,如DPO和知识蒸馏,能够优化模型行为并解锁新技能,但支持这些技术的开放科学仍处于起步阶段。WILDCHAT-50M扩展了现有的WildChat数据集,不仅包含GPT的回复,还包括来自50多个不同开源模型的回复,模型参数规模从0.5B到104B不等。通过广泛的对比分析,展示了该数据集的潜力。利用该数据集创建了RE-WILD,一个公共SFT混合模型,仅使用Tulu-3 SFT混合模型40%的样本量,就超越了后者。数据集、样本和代码已公开。

🔬 方法详解

问题定义:现有语言模型后训练技术,如DPO和知识蒸馏,在优化模型行为和解锁新技能方面具有潜力。然而,由于缺乏大规模、高质量的合成数据,以及对不同数据生成模型和LLM评判模型的系统性比较分析,阻碍了该领域的发展。现有方法难以进行充分的实验和评估,限制了后训练技术的进步。

核心思路:论文的核心思路是通过构建一个大规模、多样化的公共聊天数据集WILDCHAT-50M,为后训练技术的研究提供充足的数据支持。该数据集包含来自多个不同规模和架构的开源模型的回复,从而能够进行更全面的对比分析,并促进更有效的后训练方法的设计。

技术框架:WILDCHAT-50M数据集的构建基于现有的WildChat数据集,并进行了扩展。主要流程包括:1) 收集来自50多个开源语言模型的回复,这些模型的参数规模从0.5B到104B不等;2) 对收集到的数据进行清洗和整理,确保数据质量;3) 将数据集公开发布,供研究人员使用。基于该数据集,作者还构建了一个名为RE-WILD的SFT混合模型,并与现有模型进行比较。

关键创新:WILDCHAT-50M数据集是目前最大的公共聊天数据集,包含了来自大量不同开源模型的回复,这使得研究人员能够进行更全面的对比分析,并探索更有效的后训练方法。RE-WILD模型的成功表明,利用WILDCHAT-50M数据集可以有效地提升SFT模型的性能。

关键设计:RE-WILD模型的构建采用了SFT混合策略,具体的技术细节(如混合比例、训练参数等)在论文中未详细说明,属于未知信息。数据集的构建过程中,数据清洗和整理的策略也未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于WILDCHAT-50M数据集构建的RE-WILD模型,仅使用Tulu-3 SFT混合模型40%的样本量,就超越了后者。这一结果突出了WILDCHAT-50M数据集在提升SFT模型性能方面的潜力。具体的性能指标和对比结果在论文中未详细说明,属于未知信息。

🎯 应用场景

WILDCHAT-50M数据集可广泛应用于语言模型后训练领域,例如指令微调、奖励模型训练、对话生成等。该数据集能够促进开源语言模型的发展,并为研究人员提供一个评估和比较不同后训练技术的平台。未来,基于该数据集的研究有望提升语言模型的性能和安全性,使其在各种实际应用中发挥更大的作用。

📄 摘要(原文)

Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.