SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

📄 arXiv: 2407.06654v1 📥 PDF

作者: Nan He, Weichen Xiong, Hanwen Liu, Yi Liao, Lei Ding, Kai Zhang, Guohua Tang, Xiao Han, Wei Yang

分类: cs.CL, cs.AI

发布日期: 2024-07-09

备注: 12 pages, 7 figures


💡 一句话要点

提出SoftDedup方法,通过数据重加权加速大语言模型预训练,提升训练效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 数据去重 数据重加权 数据共性

📋 核心要点

  1. 现有大语言模型预训练受重复数据影响,传统去重方法可能损失信息且忽略重复程度差异。
  2. SoftDedup通过降低高共性数据的采样权重实现软去重,保持数据完整性并区分重复程度。
  3. 实验表明,SoftDedup能显著提升训练效率,减少训练步骤,并提高下游任务的准确率。

📝 摘要(中文)

大型语言模型(LLM)的有效性常受到其庞大预训练数据集中重复数据的阻碍。现有方法主要集中在检测和删除重复数据,但这样做存在丢失有价值信息的风险,并且忽略了重复程度的差异。为了解决这个问题,我们提出了一种软去重方法,该方法在保持数据集完整性的同时,选择性地降低具有高共性的数据的采样权重。我们方法的核心是“数据共性”的概念,我们引入该指标以使用n-gram模型测量样本的出现概率来量化重复程度。经验分析表明,该方法显著提高了训练效率,在所需的训练步骤减少至少26%的情况下,实现了可比的困惑度分数。此外,当训练相同的时间时,它将平均少样本下游任务准确率提高了1.77%。重要的是,即使在经过严格去重的数据集上,该方法也能持续提高性能,表明其有潜力补充现有方法,并成为LLM的标准预训练流程。

🔬 方法详解

问题定义:大语言模型预训练数据集通常包含大量重复数据,这些重复数据会降低训练效率,浪费计算资源。传统的硬去重方法,例如直接删除重复样本,可能会丢失有价值的信息,并且无法区分不同程度的重复数据,导致次优的训练效果。

核心思路:SoftDedup的核心思想是,不直接删除重复数据,而是通过降低重复程度高的数据的采样权重,从而在训练过程中减少这些数据的影响。这种软去重的方式既能避免信息损失,又能有效降低重复数据带来的负面影响。核心在于量化“数据共性”,即数据重复的程度,并以此作为调整采样权重的依据。

技术框架:SoftDedup方法主要包含以下几个阶段:1) 数据共性计算:使用n-gram模型计算数据集中每个样本的出现概率,以此量化样本的“数据共性”。出现概率越高,表示该样本的重复程度越高。2) 权重调整:根据计算出的数据共性,调整每个样本的采样权重。数据共性高的样本,其采样权重会被降低;数据共性低的样本,其采样权重保持不变或略微提升。3) 预训练:使用调整后的采样权重进行大语言模型的预训练。在每个训练步骤中,根据样本的权重进行采样,从而实现软去重的效果。

关键创新:SoftDedup的关键创新在于提出了“数据共性”的概念,并将其用于指导数据重加权。与传统的硬去重方法相比,SoftDedup是一种更加温和、灵活的去重方式,能够更好地平衡数据质量和数据多样性。此外,SoftDedup可以与现有的硬去重方法结合使用,进一步提升预训练效果。

关键设计:数据共性的计算使用n-gram模型,n的选择需要根据数据集的特点进行调整。采样权重的调整可以使用多种函数,例如线性函数、指数函数等。论文中具体使用的函数形式和参数设置未知。损失函数保持不变,仍然使用标准的语言模型预训练损失函数,例如交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SoftDedup方法在保持困惑度不变的情况下,能够将预训练所需的训练步骤减少至少26%。此外,在相同训练时长下,SoftDedup能够将平均少样本下游任务准确率提高1.77%。更重要的是,即使在经过严格去重的数据集上,SoftDedup仍然能够持续提高性能,表明其具有很强的通用性和有效性。

🎯 应用场景

SoftDedup方法可广泛应用于大语言模型的预训练,尤其是在数据规模庞大且包含大量重复数据的情况下。该方法能够有效提升预训练效率,降低计算成本,并提高模型的泛化能力。此外,SoftDedup还可以应用于其他机器学习任务,例如图像分类、目标检测等,只要数据集中存在重复或冗余信息,就可以通过SoftDedup进行数据重加权,从而提升模型性能。

📄 摘要(原文)

The effectiveness of large language models (LLMs) is often hindered by duplicated data in their extensive pre-training datasets. Current approaches primarily focus on detecting and removing duplicates, which risks the loss of valuable information and neglects the varying degrees of duplication. To address this, we propose a soft deduplication method that maintains dataset integrity while selectively reducing the sampling weight of data with high commonness. Central to our approach is the concept of "data commonness", a metric we introduce to quantify the degree of duplication by measuring the occurrence probabilities of samples using an n-gram model. Empirical analysis shows that this method significantly improves training efficiency, achieving comparable perplexity scores with at least a 26% reduction in required training steps. Additionally, it enhances average few-shot downstream accuracy by 1.77% when trained for an equivalent duration. Importantly, this approach consistently improves performance, even on rigorously deduplicated datasets, indicating its potential to complement existing methods and become a standard pre-training process for LLMs.