Do we really have to filter out random noise in pre-training data for language models?

作者: Jinghan Ru, Yuxin Xie, Xianwei Zhuang, Yuguo Yin, Zhihui Guo, Zhiming Liu, Qianli Ren, Yuexian Zou

分类: cs.CL

发布日期: 2025-02-10 (更新: 2025-05-16)

💡 一句话要点

研究表明预训练数据中的随机噪声对语言模型影响有限，并提出局部梯度匹配损失。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 预训练数据 随机噪声 梯度匹配 下游任务 去噪 鲁棒性 深度学习

📋 核心要点

现有工作主要关注低质量或合成数据，忽略了Web数据中随机噪声对语言模型的影响。
论文提出一种局部梯度匹配损失，增强下游任务头的去噪能力，无需模型参数知识。
实验表明，随机噪声会降低下游任务性能，而提出的方法在多个语言和视觉基准上有效。

📝 摘要（中文）

大规模Web预训练数据集是大型语言模型成功的基石。然而，从互联网上获取的文本数据不可避免地包含由解码错误或不受监管的Web内容引起的随机噪声。与之前关注低质量或合成数据的研究不同，我们的研究首次通过一个有凝聚力的“What-Why-How”框架，对这种随机噪声进行了系统的调查。令人惊讶的是，我们观察到，即使模型扩展到27亿参数，由此产生的下一个token预测（NTP）损失的增加也远低于随机噪声的比例。我们为这种现象提供了理论上的论证，这也阐明了多语言模型的成功，并且可以应用于多模态模型。另一方面，实验表明，模型在下游任务中的性能并非完全基于NTP损失，这意味着随机噪声可能会导致下游性能下降。为了解决潜在的不利影响，我们引入了一种新颖的即插即用局部梯度匹配损失，它通过对齐正常和扰动特征的梯度，显式地增强下游任务头的去噪能力，而无需了解模型的参数。在8个语言和14个视觉基准上的额外实验进一步验证了其有效性。

🔬 方法详解

问题定义：论文旨在研究预训练数据中随机噪声对语言模型的影响。现有方法主要关注低质量或合成数据，而忽略了Web数据中由于解码错误或不受监管的内容导致的随机噪声。这种随机噪声的存在可能会影响模型的训练效果和下游任务的性能，但其影响程度和机制尚不明确。

核心思路：论文的核心思路是系统性地研究随机噪声对语言模型的影响，并提出一种有效的去噪方法。通过理论分析和实验验证，论文发现随机噪声对NTP损失的影响相对较小，但可能会降低下游任务的性能。为了解决这个问题，论文提出了一种局部梯度匹配损失，通过对齐正常和扰动特征的梯度，增强下游任务头的去噪能力。

技术框架：论文的研究框架主要包括三个部分：(1) 系统性地分析随机噪声的来源和特点；(2) 通过理论分析和实验验证，研究随机噪声对语言模型的影响，包括NTP损失和下游任务性能；(3) 提出一种局部梯度匹配损失，增强下游任务头的去噪能力，并进行实验验证。整体流程是从问题定义、影响分析到解决方案提出的一个完整的研究过程。

关键创新：论文最重要的技术创新点在于提出了局部梯度匹配损失。该损失函数通过对齐正常和扰动特征的梯度，显式地增强下游任务头的去噪能力，而无需了解模型的参数。与现有方法相比，该方法更加灵活和高效，可以应用于各种不同的语言模型和下游任务。

关键设计：局部梯度匹配损失的关键设计在于如何有效地对齐正常和扰动特征的梯度。具体来说，论文首先对输入特征进行随机扰动，然后计算正常特征和扰动特征的梯度。接着，论文使用余弦相似度来衡量两个梯度之间的相似程度，并将其作为损失函数的一部分。通过最小化该损失函数，可以使得模型学习到更加鲁棒的特征表示，从而提高模型的去噪能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，随机噪声对NTP损失的影响远低于噪声比例本身，即使模型扩展到27亿参数也是如此。同时，实验验证了提出的局部梯度匹配损失在8个语言和14个视觉基准上的有效性，表明该方法可以有效提高模型在下游任务中的性能，降低随机噪声带来的负面影响。

🎯 应用场景

该研究成果可应用于提升大规模语言模型的训练效果和泛化能力，尤其是在预训练数据包含大量噪声的情况下。该方法可以有效降低噪声对模型性能的影响，提高模型在各种下游任务中的表现。此外，该研究的理论分析也为理解多语言模型和多模态模型的成功提供了一定的启示。

📄 摘要（原文）

Web-scale pre-training datasets are the cornerstone of LLMs' success. However, text data curated from the Internet inevitably contains random noise caused by decoding errors or unregulated web content. In contrast to previous works that focus on low quality or synthetic data, our study \textbf{provides the first systematic investigation of such random noise through a cohesive ``What-Why-How'' framework.} Surprisingly, we observed that the resulting increase in the loss of next-token prediction (NTP) was significantly lower than the proportion of random noise even when the model was scaled up to 2.7B. We provide a theoretical justification for this phenomenon, which also elucidates the success of multilingual models and can be applied to multimodal models. On the other hand, experiments show that the model's performance in downstream tasks is not based solely on the NTP loss, which means that random noise may result in degraded downstream performance. To address the potential adverse effects, we introduce a novel plug-and-play Local Gradient Matching loss, which explicitly enhances the denoising capability of the downstream task head by aligning the gradient of normal and perturbed features without requiring knowledge of the model's parameters. Additional experiments on 8 language and 14 vision benchmarks further validate its effectiveness.

Do we really have to filter out random noise in pre-training data for language models?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理