Reformulation for Pretraining Data Augmentation

📄 arXiv: 2502.04235v2 📥 PDF

作者: Xintong Hao, Ruijie Zhu, Ge Zhang, Ke Shen, Chenggang Li

分类: cs.CL

发布日期: 2025-02-06 (更新: 2025-05-19)

备注: Dataset released https://huggingface.co/datasets/ByteDance-Seed/mga-fineweb-edu


💡 一句话要点

提出大规模体裁-受众(MGA)重构方法,缓解预训练数据重复问题,提升大语言模型扩展性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 预训练 大型语言模型 数据重构 体裁-受众 模型扩展 合成数据

📋 核心要点

  1. 大型语言模型扩展受限于数据稀缺和重复数据导致的性能下降,成为关键瓶颈。
  2. 提出MGA重构方法,通过系统地将现有语料库转化为多样化的变体,减轻重复数据的影响。
  3. 实验表明,MGA在扩展场景中优于数据重复和上采样,有效提升模型性能。

📝 摘要(中文)

大型语言模型的能力令人印象深刻,但其持续扩展不仅受到数据稀缺的严重阻碍,还受到训练过程中过度数据重复导致的性能下降的影响。为了克服这一关键瓶颈,我们提出了一种大规模体裁-受众(MGA)重构方法,这是一种受合成数据方法启发的轻量级且可扩展的数据增强技术。MGA系统地将现有语料库重构为多样化的、上下文丰富的变体,以减轻重复的负面影响。我们引入了这种方法以及由此产生的7700亿token的MGACorpus。通过实验验证了其核心优势,即在扩展场景(高达130亿参数)中,相对于数据重复和上采样,MGA表现出更优越的性能。此外,全面的分析研究了提示工程在生成质量中的作用,并揭示了使用标准损失指标评估模型能力的细微差别。我们的工作表明,MGA提供了一条可靠的途径来大幅增强训练数据集,有效地缓解重复瓶颈,并实现大型语言模型更高效的扩展。

🔬 方法详解

问题定义:现有大型语言模型在训练过程中,由于数据重复利用,导致模型性能下降,阻碍了模型进一步扩展。数据增强方法通常计算成本高昂,难以应用于大规模预训练。

核心思路:借鉴合成数据的思想,通过对现有语料库进行重构,生成多样化的、上下文丰富的变体,从而缓解数据重复问题。核心在于利用体裁和受众的组合来指导重构过程,生成更具多样性的数据。

技术框架:MGA方法的核心是体裁-受众(Genre-Audience)的组合。首先,确定一系列体裁(例如新闻、小说、科技博客)和受众(例如儿童、专家、普通读者)。然后,针对每个体裁-受众组合,设计相应的重构策略。例如,将一篇新闻报道改写成面向儿童的故事,或者将一篇科技博客改写成面向专家的技术报告。通过这种方式,可以系统地生成大量多样化的数据。

关键创新:MGA方法的创新之处在于其系统化的重构策略,通过体裁和受众的组合,能够有效地生成多样化的数据,从而缓解数据重复问题。与传统的数据增强方法相比,MGA更加轻量级和可扩展,能够应用于大规模预训练。

关键设计:MGA的关键设计在于体裁和受众的选择以及相应的重构策略。体裁和受众的选择需要根据具体的应用场景进行调整。重构策略的设计需要考虑到体裁和受众的特点,以生成高质量的数据。论文中使用了7700亿token的MGACorpus进行实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在高达130亿参数的模型上,MGA方法在扩展场景中表现出优于数据重复和上采样的性能。通过使用MGACorpus进行预训练,模型能够更好地泛化到未见过的数据,并且对重复数据的敏感性更低。此外,论文还分析了提示工程在生成质量中的作用,并揭示了使用标准损失指标评估模型能力的细微差别。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的预训练阶段,通过MGA方法生成更多样化的训练数据,从而提高模型的泛化能力和鲁棒性。该方法尤其适用于数据资源有限或存在重复数据问题的场景,有助于降低训练成本,提升模型性能,加速大模型的迭代。

📄 摘要(原文)

Despite the impressive capabilities of large language models across various tasks, their continued scaling is severely hampered not only by data scarcity but also by the performance degradation associated with excessive data repetition during training. To overcome this critical bottleneck, we propose the Massive Genre-Audience(MGA) reformulation method, a lightweight and scalable data augmentation technique inspired by synthetic data methodologies. MGA systematically reformulates existing corpora into diverse, contextually-rich variations to mitigate the negative effects of repetition, and we introduce this approach along with the resulting 770 billion token MGACorpus in this work. We experimentally validate its core benefit by demonstrating superior performance against data repetition and upsampling in scaling scenarios (up to 13B parameters). Furthermore, comprehensive analysis investigates the role of prompt engineering in generation quality and reveals nuances in evaluating model capabilities using standard loss metrics. Our work shows that MGA provides a reliable pathway to substantially augment training datasets, effectively alleviating repetition bottlenecks and enabling more efficient scaling of large language models.