SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

作者: Nan He, Weichen Xiong, Hanwen Liu, Yi Liao, Lei Ding, Kai Zhang, Guohua Tang, Xiao Han, Wei Yang

分类: cs.CL, cs.AI

发布日期: 2024-07-09

备注: 12 pages, 7 figures

💡 一句话要点

提出SoftDedup方法，通过数据重加权加速大语言模型预训练，提升训练效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 数据去重 数据重加权 数据共性

📋 核心要点

现有大语言模型预训练受重复数据影响，传统去重方法可能损失信息且忽略重复程度差异。
SoftDedup通过降低高共性数据的采样权重实现软去重，保持数据完整性并区分重复程度。
实验表明，SoftDedup能显著提升训练效率，减少训练步骤，并提高下游任务的准确率。

📝 摘要（中文）

大型语言模型（LLM）的有效性常受到其庞大预训练数据集中重复数据的阻碍。现有方法主要集中在检测和删除重复数据，但这样做存在丢失有价值信息的风险，并且忽略了重复程度的差异。为了解决这个问题，我们提出了一种软去重方法，该方法在保持数据集完整性的同时，选择性地降低具有高共性的数据的采样权重。我们方法的核心是“数据共性”的概念，我们引入该指标以使用n-gram模型测量样本的出现概率来量化重复程度。经验分析表明，该方法显著提高了训练效率，在所需的训练步骤减少至少26%的情况下，实现了可比的困惑度分数。此外，当训练相同的时间时，它将平均少样本下游任务准确率提高了1.77%。重要的是，即使在经过严格去重的数据集上，该方法也能持续提高性能，表明其有潜力补充现有方法，并成为LLM的标准预训练流程。

🔬 方法详解

问题定义：大语言模型预训练数据集通常包含大量重复数据，这些重复数据会降低训练效率，浪费计算资源。传统的硬去重方法，例如直接删除重复样本，可能会丢失有价值的信息，并且无法区分不同程度的重复数据，导致次优的训练效果。

核心思路：SoftDedup的核心思想是，不直接删除重复数据，而是通过降低重复程度高的数据的采样权重，从而在训练过程中减少这些数据的影响。这种软去重的方式既能避免信息损失，又能有效降低重复数据带来的负面影响。核心在于量化“数据共性”，即数据重复的程度，并以此作为调整采样权重的依据。

技术框架：SoftDedup方法主要包含以下几个阶段：1) 数据共性计算：使用n-gram模型计算数据集中每个样本的出现概率，以此量化样本的“数据共性”。出现概率越高，表示该样本的重复程度越高。2) 权重调整：根据计算出的数据共性，调整每个样本的采样权重。数据共性高的样本，其采样权重会被降低；数据共性低的样本，其采样权重保持不变或略微提升。3) 预训练：使用调整后的采样权重进行大语言模型的预训练。在每个训练步骤中，根据样本的权重进行采样，从而实现软去重的效果。

关键创新：SoftDedup的关键创新在于提出了“数据共性”的概念，并将其用于指导数据重加权。与传统的硬去重方法相比，SoftDedup是一种更加温和、灵活的去重方式，能够更好地平衡数据质量和数据多样性。此外，SoftDedup可以与现有的硬去重方法结合使用，进一步提升预训练效果。

关键设计：数据共性的计算使用n-gram模型，n的选择需要根据数据集的特点进行调整。采样权重的调整可以使用多种函数，例如线性函数、指数函数等。论文中具体使用的函数形式和参数设置未知。损失函数保持不变，仍然使用标准的语言模型预训练损失函数，例如交叉熵损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SoftDedup方法在保持困惑度不变的情况下，能够将预训练所需的训练步骤减少至少26%。此外，在相同训练时长下，SoftDedup能够将平均少样本下游任务准确率提高1.77%。更重要的是，即使在经过严格去重的数据集上，SoftDedup仍然能够持续提高性能，表明其具有很强的通用性和有效性。

🎯 应用场景

SoftDedup方法可广泛应用于大语言模型的预训练，尤其是在数据规模庞大且包含大量重复数据的情况下。该方法能够有效提升预训练效率，降低计算成本，并提高模型的泛化能力。此外，SoftDedup还可以应用于其他机器学习任务，例如图像分类、目标检测等，只要数据集中存在重复或冗余信息，就可以通过SoftDedup进行数据重加权，从而提升模型性能。

📄 摘要（原文）

The effectiveness of large language models (LLMs) is often hindered by duplicated data in their extensive pre-training datasets. Current approaches primarily focus on detecting and removing duplicates, which risks the loss of valuable information and neglects the varying degrees of duplication. To address this, we propose a soft deduplication method that maintains dataset integrity while selectively reducing the sampling weight of data with high commonness. Central to our approach is the concept of "data commonness", a metric we introduce to quantify the degree of duplication by measuring the occurrence probabilities of samples using an n-gram model. Empirical analysis shows that this method significantly improves training efficiency, achieving comparable perplexity scores with at least a 26% reduction in required training steps. Additionally, it enhances average few-shot downstream accuracy by 1.77% when trained for an equivalent duration. Importantly, this approach consistently improves performance, even on rigorously deduplicated datasets, indicating its potential to complement existing methods and become a standard pre-training process for LLMs.

SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理