Synthetic Pre-Pre-Training Improves Language Model Robustness to Noisy Pre-Training Data

作者: Xu Guo, Runyu Peng, Jian Tong, Yunhua Zhou, Haijun Lv, Zhihui Lu, Qipeng Guo

分类: cs.CL

发布日期: 2026-05-11

🔗 代码/项目: GITHUB

💡 一句话要点

提出合成数据预预训练（PPT）方法，显著提升大语言模型对噪声预训练数据的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 数据鲁棒性 合成数据 模型优化 注意力机制

📋 核心要点

现有大模型预训练依赖大规模网络语料，其中固有的噪声数据会干扰模型学习有效特征，导致性能下降且难以通过简单的数据清洗完全解决。
论文提出一种轻量级的预预训练（PPT）阶段，利用具有可学习时间结构的合成数据进行初始化，引导模型在后续预训练中形成抗噪的优化轨迹。
实验证明该方法在不同噪声水平下均能提升鲁棒性，1B模型在节省近一半预训练数据的情况下，仍能达到与基线模型相同的最终损失水平。

📝 摘要（中文）

大语言模型（LLM）的预训练高度依赖网络规模的语料库，但这些数据集中固有的噪声往往会掩盖有意义的模式，从而降低模型性能。尽管数据清洗能缓解这一问题，但无法完全消除噪声，导致预训练语料在实际应用中依然存在噪声。因此，本文研究了一种基于具有可学习时间结构的合成数据的轻量级“预预训练”（PPT）阶段，旨在帮助模型在后续的预训练（PT）阶段抵御噪声数据。实验表明，在各种噪声干扰设置下，该方法始终能提高模型对噪声的鲁棒性，且在噪声水平越高时，相对增益越显著。对于1B参数模型，仅使用65M token的合成PPT阶段，即可在达到与基线相同最终损失的同时，减少高达49%的自然文本预训练数据需求。机制分析表明，PPT并非直接抑制对噪声token的注意力，而是引导模型在预训练过程中逐渐降低对受损token的注意力权重，从而抑制噪声自建模并优化训练轨迹。

🔬 方法详解

问题定义：论文旨在解决大语言模型预训练阶段中，由于网络语料不可避免的噪声干扰，导致模型学习效率低下及性能受损的问题。现有数据清洗方法虽能缓解，但无法根除噪声对模型参数更新的负面影响。

核心思路：引入一个轻量级的“预预训练”（PPT）阶段。通过在正式预训练前，让模型在结构化、无噪声的合成数据上进行训练，使其预先学习到高质量的语言模式，从而在后续面对噪声数据时具备更强的抗干扰能力。

技术框架：整体流程分为两个阶段：首先是PPT阶段，使用具有可学习时间结构的合成数据对模型进行初始化；其次是标准的PT阶段，模型在包含噪声的自然语言语料上进行训练。PPT阶段仅需极少量的token（如65M）。

关键创新：该方法的核心在于利用合成数据塑造模型的优化轨迹。机制分析显示，PPT并非简单地屏蔽噪声，而是通过调整注意力机制，使模型在训练过程中能够自动识别并降低对受损token的关注度，从而抑制噪声的自建模过程。

关键设计：PPT阶段采用具有时间结构特征的合成数据，这种设计能够模拟语言的连贯性与逻辑性，为模型提供一个“干净”的起始点。通过对比实验发现，这种初始化方式能够显著改变模型在后续预训练中的损失下降曲线，实现数据效率的提升。

🖼️ 关键图片

📊 实验亮点

实验结果显示，该方法在不同噪声干扰设置下均表现出卓越的鲁棒性。对于1B参数模型，仅需65M token的PPT阶段，即可在达到基线模型相同损失的前提下，减少高达49%的自然文本预训练数据需求。随着噪声水平的增加，该方法带来的相对性能增益愈发明显，验证了其在处理大规模噪声语料时的显著优势。

🎯 应用场景

该研究适用于资源受限或语料质量难以保证的大模型训练场景。通过引入轻量级PPT阶段，开发者可以在不增加额外计算负担的前提下，显著提升模型对低质量数据的容忍度，降低对海量高质量清洗数据的依赖，对于构建垂直领域或小规模语言模型具有重要的工程价值。

📄 摘要（原文）

Large language models (LLMs) rely on web-scale corpora for pre-training. The noise inherent in these datasets tends to obscure meaningful patterns and ultimately degrade model performance. Data curation mitigates but cannot eliminate such noise, so pre-training corpora remain noisy in practice. We therefore study whether a lightweight pre-pre-training (PPT) stage based on synthetic data with learnable temporal structure helps resist noisy data during the pre-training (PT) stage. Across various corruption settings, our method consistently improves robustness to noise during PT, with larger relative gains at higher noise levels. For a 1B-parameter model, a synthetic PPT stage with only 65M tokens achieves the same final loss as the baseline while using up to 49\% fewer natural-text PT tokens across different noise levels. Mechanistic analyses suggest PPT does not immediately suppress attention to noisy tokens. Rather, PPT-initialized models gradually downweight attention between corrupted tokens during noisy PT. This indicates that synthetic PPT inhibits noise self-modeling and shapes the subsequent optimization trajectory. Code is available at https://github.com/guox18/formal-language-prepretraining.

Synthetic Pre-Pre-Training Improves Language Model Robustness to Noisy Pre-Training Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理