How Much Can We Forget about Data Contamination?
作者: Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-10-04 (更新: 2025-06-16)
备注: ICML 2025 camera ready
💡 一句话要点
研究表明大规模训练可有效遗忘数据污染,缓解基准测试过拟合问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据污染 基准测试 过拟合 模型遗忘
📋 核心要点
- 大型语言模型评估面临基准数据泄露问题,现有观点认为少量泄露即导致评估失效。
- 该研究通过扩展模型参数、训练次数和token数量,探究大规模训练下模型遗忘污染数据的能力。
- 实验表明,当训练数据规模远超Chinchilla缩放定律时,模型能够有效遗忘早期污染数据。
📝 摘要(中文)
基准数据泄露到训练数据中已成为评估大型语言模型(LLM)能力的一个重大挑战。本文挑战了一个普遍的假设,即小规模污染会使基准评估失效。首先,我们通过三个维度(模型参数数量(高达16亿)、示例被看到的次数(高达144次)和训练token数量(高达400亿))的缩放,实验性地量化了基准过拟合的程度。如果模型和数据遵循Chinchilla缩放定律,那么轻微的污染确实会导致过拟合。同时,如果训练数据扩展到超过Chinchilla规模的五倍,即使是144次的污染也可以被遗忘,这是一种许多现代LLM的典型特征。OLMo-7B的持续预训练证实了这些结果。接下来,我们研究了权重衰减参数对示例遗忘的影响,表明经验遗忘发生的速度快于累积权重衰减。这使我们能够衡量大规模训练运行中示例遗忘的程度,表明包括Llama 3 405B在内的许多LLM已经忘记了在训练开始时看到的数据。
🔬 方法详解
问题定义:论文旨在解决大型语言模型训练过程中,由于训练数据受到基准测试数据污染而导致的过拟合问题。现有方法通常认为即使是小规模的数据污染也会严重影响模型的泛化能力,使得基准测试结果不可信。因此,如何量化数据污染的影响,以及如何通过训练策略减轻甚至消除这种影响,是本文要解决的核心问题。
核心思路:论文的核心思路是,通过大规模的训练,特别是当训练数据量远超Chinchilla缩放定律所建议的规模时,模型能够逐渐“遗忘”早期受污染的数据。这种“遗忘”效应可以减轻甚至消除数据污染带来的过拟合问题,从而使得基准测试结果更具参考价值。
技术框架:论文采用实验研究的方法,主要分为两个阶段。第一阶段,通过控制模型参数量、数据污染程度(示例被看到的次数)和训练token数量,系统性地研究了不同规模下数据污染对模型性能的影响。第二阶段,通过分析权重衰减参数对示例遗忘的影响,以及对OLMo-7B和Llama 3 405B等大型语言模型的训练过程进行分析,验证了大规模训练下模型遗忘污染数据的能力。
关键创新:论文的关键创新在于挑战了“小规模污染即导致基准测试失效”的传统观点,并提出了“大规模训练可以有效遗忘数据污染”的新观点。通过实验验证了在特定条件下,即使训练数据受到一定程度的污染,模型仍然可以通过大规模训练来减轻甚至消除这种影响。
关键设计:论文的关键设计包括:1) 系统性地控制模型参数量、数据污染程度和训练token数量,以便量化数据污染的影响;2) 分析权重衰减参数对示例遗忘的影响,从而推断大规模训练中模型遗忘数据的程度;3) 使用OLMo-7B和Llama 3 405B等大型语言模型进行实验,验证结论的普适性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当训练数据规模超过Chinchilla缩放定律的五倍时,即使示例被污染144次,模型也能有效遗忘这些数据。对OLMo-7B的持续预训练以及对Llama 3 405B的分析也证实了这一结论,表明大规模训练可以减轻甚至消除数据污染带来的过拟合问题。
🎯 应用场景
该研究成果可应用于大型语言模型的训练和评估,有助于更准确地评估模型的泛化能力。通过理解模型遗忘数据污染的机制,可以设计更有效的训练策略,减轻数据污染带来的负面影响,提高模型的可靠性和实用性。此外,该研究也为构建更可靠的基准测试数据集提供了理论依据。
📄 摘要(原文)
The leakage of benchmark data into the training data has emerged as a significant challenge for evaluating the capabilities of large language models (LLMs). In this work, we challenge the common assumption that small-scale contamination renders benchmark evaluations invalid. First, we experimentally quantify the magnitude of benchmark overfitting based on scaling along three dimensions: The number of model parameters (up to 1.6B), the number of times an example is seen (up to 144), and the number of training tokens (up to 40B). If model and data follow the Chinchilla scaling laws, minor contamination indeed leads to overfitting. At the same time, even 144 times of contamination can be forgotten if the training data is scaled beyond five times Chinchilla, a regime characteristic of many modern LLMs. Continual pre-training of OLMo-7B corroborates these results. Next, we study the impact of the weight decay parameter on example forgetting, showing that empirical forgetting occurs faster than the cumulative weight decay. This allows us to gauge the degree of example forgetting in large-scale training runs, indicating that many LLMs, including Lllama 3 405B, have forgotten the data seen at the beginning of training.