Synthetic Pre-Pre-Training Improves Language Model Robustness to Noisy Pre-Training Data
作者: Xu Guo, Runyu Peng, Jian Tong, Yunhua Zhou, Haijun Lv, Zhihui Lu, Qipeng Guo
分类: cs.CL
发布日期: 2026-05-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出合成数据预预训练(PPT)方法,显著提升大语言模型对噪声预训练数据的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 预训练 数据鲁棒性 合成数据 模型优化 注意力机制
📋 核心要点
- 现有大模型预训练依赖大规模网络语料,其中固有的噪声数据会干扰模型学习有效特征,导致性能下降且难以通过简单的数据清洗完全解决。
- 论文提出一种轻量级的预预训练(PPT)阶段,利用具有可学习时间结构的合成数据进行初始化,引导模型在后续预训练中形成抗噪的优化轨迹。
- 实验证明该方法在不同噪声水平下均能提升鲁棒性,1B模型在节省近一半预训练数据的情况下,仍能达到与基线模型相同的最终损失水平。
📝 摘要(中文)
大语言模型(LLM)的预训练高度依赖网络规模的语料库,但这些数据集中固有的噪声往往会掩盖有意义的模式,从而降低模型性能。尽管数据清洗能缓解这一问题,但无法完全消除噪声,导致预训练语料在实际应用中依然存在噪声。因此,本文研究了一种基于具有可学习时间结构的合成数据的轻量级“预预训练”(PPT)阶段,旨在帮助模型在后续的预训练(PT)阶段抵御噪声数据。实验表明,在各种噪声干扰设置下,该方法始终能提高模型对噪声的鲁棒性,且在噪声水平越高时,相对增益越显著。对于1B参数模型,仅使用65M token的合成PPT阶段,即可在达到与基线相同最终损失的同时,减少高达49%的自然文本预训练数据需求。机制分析表明,PPT并非直接抑制对噪声token的注意力,而是引导模型在预训练过程中逐渐降低对受损token的注意力权重,从而抑制噪声自建模并优化训练轨迹。
🔬 方法详解
问题定义:论文旨在解决大语言模型预训练阶段中,由于网络语料不可避免的噪声干扰,导致模型学习效率低下及性能受损的问题。现有数据清洗方法虽能缓解,但无法根除噪声对模型参数更新的负面影响。
核心思路:引入一个轻量级的“预预训练”(PPT)阶段。通过在正式预训练前,让模型在结构化、无噪声的合成数据上进行训练,使其预先学习到高质量的语言模式,从而在后续面对噪声数据时具备更强的抗干扰能力。
技术框架:整体流程分为两个阶段:首先是PPT阶段,使用具有可学习时间结构的合成数据对模型进行初始化;其次是标准的PT阶段,模型在包含噪声的自然语言语料上进行训练。PPT阶段仅需极少量的token(如65M)。
关键创新:该方法的核心在于利用合成数据塑造模型的优化轨迹。机制分析显示,PPT并非简单地屏蔽噪声,而是通过调整注意力机制,使模型在训练过程中能够自动识别并降低对受损token的关注度,从而抑制噪声的自建模过程。
关键设计:PPT阶段采用具有时间结构特征的合成数据,这种设计能够模拟语言的连贯性与逻辑性,为模型提供一个“干净”的起始点。通过对比实验发现,这种初始化方式能够显著改变模型在后续预训练中的损失下降曲线,实现数据效率的提升。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该方法在不同噪声干扰设置下均表现出卓越的鲁棒性。对于1B参数模型,仅需65M token的PPT阶段,即可在达到基线模型相同损失的前提下,减少高达49%的自然文本预训练数据需求。随着噪声水平的增加,该方法带来的相对性能增益愈发明显,验证了其在处理大规模噪声语料时的显著优势。
🎯 应用场景
该研究适用于资源受限或语料质量难以保证的大模型训练场景。通过引入轻量级PPT阶段,开发者可以在不增加额外计算负担的前提下,显著提升模型对低质量数据的容忍度,降低对海量高质量清洗数据的依赖,对于构建垂直领域或小规模语言模型具有重要的工程价值。
📄 摘要(原文)
Large language models (LLMs) rely on web-scale corpora for pre-training. The noise inherent in these datasets tends to obscure meaningful patterns and ultimately degrade model performance. Data curation mitigates but cannot eliminate such noise, so pre-training corpora remain noisy in practice. We therefore study whether a lightweight pre-pre-training (PPT) stage based on synthetic data with learnable temporal structure helps resist noisy data during the pre-training (PT) stage. Across various corruption settings, our method consistently improves robustness to noise during PT, with larger relative gains at higher noise levels. For a 1B-parameter model, a synthetic PPT stage with only 65M tokens achieves the same final loss as the baseline while using up to 49\% fewer natural-text PT tokens across different noise levels. Mechanistic analyses suggest PPT does not immediately suppress attention to noisy tokens. Rather, PPT-initialized models gradually downweight attention between corrupted tokens during noisy PT. This indicates that synthetic PPT inhibits noise self-modeling and shapes the subsequent optimization trajectory. Code is available at https://github.com/guox18/formal-language-prepretraining.