Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts
作者: Jiayuan Ye, Vitaly Feldman, Kunal Talwar
分类: cs.CL, stat.ML
发布日期: 2026-04-09
💡 一句话要点
提出基于训练损失的数据剪枝方法,提升大语言模型的事实记忆能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 事实记忆 数据剪枝 训练优化 知识密集型任务
📋 核心要点
- 现有大语言模型难以准确记忆事实知识,导致幻觉问题,影响知识密集型任务表现。
- 论文提出基于训练损失的数据选择策略,旨在减少训练数据中的事实数量并平衡其频率分布。
- 实验表明,该方法能显著提升模型的事实记忆能力,在小模型上达到与大模型相当的性能。
📝 摘要(中文)
大型语言模型(LLM)在参数中记忆事实知识方面存在困难,经常导致幻觉和在知识密集型任务中表现不佳。本文从信息论的角度形式化了事实记忆,并研究了训练数据分布如何影响事实准确性。研究表明,当训练数据事实中包含的信息量超过模型容量时,事实准确性会低于最优水平(低于容量限制)。当事实频率分布倾斜(例如,幂律分布)时,这种情况会进一步恶化。我们提出了仅基于训练损失的数据选择方案,旨在限制训练数据中事实的数量并平滑其频率分布。在包含高熵事实的半合成数据集上,我们的选择方法有效地将事实准确性提高到容量限制。在使用带注释的维基百科语料库从头开始预训练语言模型时,我们的选择方法使GPT2-Small模型(1.1亿参数)能够比标准训练记忆多1.3倍的实体事实,与在完整数据集上预训练的10倍大的模型(13亿参数)的性能相匹配。
🔬 方法详解
问题定义:大型语言模型在记忆事实性知识时面临挑战,容易产生幻觉,导致在知识密集型任务中表现不佳。现有的训练方法通常无法有效地利用训练数据中的信息,特别是当训练数据包含大量冗余或低质量的事实时,模型的记忆能力会受到限制。此外,事实频率分布的倾斜(例如,某些事实出现频率远高于其他事实)也会加剧这个问题。
核心思路:论文的核心思路是通过数据剪枝来优化训练数据集,从而提高模型的事实记忆能力。具体来说,该方法旨在限制训练数据中事实的数量,并平滑事实的频率分布。通过减少冗余和低质量的事实,并平衡不同事实的出现频率,可以使模型更有效地利用其有限的容量来记忆重要的事实。
技术框架:该方法主要包含以下几个阶段:1) 使用原始训练数据训练一个初始模型;2) 基于训练损失对训练数据进行评估,损失高的样本被认为是冗余或低质量的;3) 根据评估结果,选择一部分数据进行保留,形成剪枝后的训练数据集;4) 使用剪枝后的数据集重新训练模型。整个流程旨在通过数据选择来优化训练过程,提高模型的事实记忆能力。
关键创新:该方法最重要的创新点在于提出了一种基于训练损失的数据选择策略。与传统的随机抽样或基于规则的数据选择方法不同,该方法能够根据模型在训练过程中对不同样本的学习情况进行自适应地选择。通过保留那些对模型学习有益的样本,并去除那些冗余或低质量的样本,可以更有效地利用训练数据中的信息。
关键设计:该方法的关键设计在于如何根据训练损失来评估样本的重要性。具体来说,可以使用每个样本在训练过程中的平均损失或最大损失作为评估指标。此外,还可以使用一些正则化技术来防止过拟合,例如,对选择后的数据集进行平滑处理,以避免出现极端的数据分布。
📊 实验亮点
实验结果表明,该方法在半合成数据集上能够有效地将事实准确性提高到容量限制。在使用带注释的维基百科语料库预训练语言模型时,该方法使GPT2-Small模型(1.1亿参数)能够比标准训练记忆多1.3倍的实体事实,与在完整数据集上预训练的10倍大的模型(13亿参数)的性能相匹配。
🎯 应用场景
该研究成果可应用于提升大语言模型在知识密集型任务中的表现,例如问答系统、知识图谱构建和信息检索等。通过提高模型的事实记忆能力,可以减少幻觉现象,提高生成文本的准确性和可靠性。此外,该方法还可以用于优化模型的训练过程,降低训练成本,提高训练效率。
📄 摘要(原文)
Large language models (LLMs) can struggle to memorize factual knowledge in their parameters, often leading to hallucinations and poor performance on knowledge-intensive tasks. In this paper, we formalize fact memorization from an information-theoretic perspective and study how training data distributions affect fact accuracy. We show that fact accuracy is suboptimal (below the capacity limit) whenever the amount of information contained in the training data facts exceeds model capacity. This is further exacerbated when the fact frequency distribution is skewed (e.g. a power law). We propose data selection schemes based on the training loss alone that aim to limit the number of facts in the training data and flatten their frequency distribution. On semi-synthetic datasets containing high-entropy facts, our selection method effectively boosts fact accuracy to the capacity limit. When pretraining language models from scratch on an annotated Wikipedia corpus, our selection method enables a GPT2-Small model (110m parameters) to memorize 1.3X more entity facts compared to standard training, matching the performance of a 10X larger model (1.3B parameters) pretrained on the full dataset.