Machine-generated text detection prevents language model collapse

📄 arXiv: 2502.15654v6 📥 PDF

作者: George Drayson, Emine Yilmaz, Vasileios Lampos

分类: cs.CL, cs.LG

发布日期: 2025-02-21 (更新: 2025-09-21)


💡 一句话要点

提出基于机器生成文本检测的重要性重采样方法,以防止语言模型崩塌。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 模型崩塌 机器生成文本检测 重要性重采样 数据增强

📋 核心要点

  1. 大型语言模型面临模型崩塌风险,即在机器生成数据上重复训练导致性能下降和输出多样性降低。
  2. 论文提出一种基于机器生成文本检测的重要性重采样方法,通过提升人类数据在训练集中的权重来缓解模型崩塌。
  3. 实验表明,该方法在GPT-2和SmolLM2等模型上有效防止了模型崩塌,并提升了模型性能,甚至超过了仅使用人类数据训练的效果。

📝 摘要(中文)

随着大型语言模型(LLMs)日益普及,其生成的文本内容在网络上大量涌现,这可能导致未来人类创作的文本被机器生成的内容稀释。由于在线数据是LLM预训练的主要资源,后续模型可能会在未知比例的合成样本上进行训练。这可能导致模型崩塌,这是一个退化过程,LLM会强化自身的错误,降低输出多样性,并最终导致性能下降。本研究调查了解码策略对模型崩塌的影响,分析了每次模型生成时的文本特征、与人类参考文本的相似性以及最终的模型性能。利用导致最显著性能退化的解码策略,我们在一个更真实的场景中评估了模型崩塌,其中数据的来源(人类或合成)是未知的。我们训练了一个机器生成文本检测器,并提出了一种重要性重采样方法,通过对训练数据中可能的人类内容进行过采样来防止模型崩塌。我们的方法在来自两个模型家族(GPT-2和SmolLM2)的四个LLM上进行了验证,模型大小范围从124M到1.7B。结果表明,该方法不仅可以防止模型崩塌,还可以提高与纯粹在人类数据上训练相比的性能,突出了合成样本的益处以及数据管理的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在自身生成的文本上进行重复训练时出现的“模型崩塌”问题。现有方法缺乏有效区分和利用人类生成数据与机器生成数据,导致模型性能退化、输出多样性降低,最终影响LLM的可靠性和实用性。

核心思路:核心思路是通过训练一个机器生成文本检测器来区分人类生成的数据和机器生成的数据,然后使用重要性重采样技术,在训练过程中对更可能是人类生成的数据进行过采样。这样可以减少模型在机器生成数据上的过度拟合,从而防止模型崩塌。

技术框架:整体框架包含以下几个主要阶段:1) 使用LLM生成合成数据;2) 混合人类数据和合成数据形成训练集;3) 训练一个机器生成文本检测器,用于区分人类数据和合成数据;4) 使用检测器对训练数据进行评分,并根据评分进行重要性重采样,提高人类数据的权重;5) 使用重采样后的数据训练LLM。

关键创新:最重要的创新点在于结合了机器生成文本检测和重要性重采样技术,通过动态调整训练数据中人类数据和机器生成数据的比例,有效地缓解了模型崩塌问题。与传统方法相比,该方法能够更有效地利用人类数据,并避免模型在机器生成数据上的过度拟合。

关键设计:关键设计包括:1) 机器生成文本检测器的选择和训练,需要选择合适的模型结构和训练数据,以保证检测器的准确性;2) 重要性重采样的策略,需要设计合理的权重分配方案,以平衡人类数据和机器生成数据之间的比例;3) 实验中使用了GPT-2和SmolLM2等多个模型家族和不同大小的模型,以验证方法的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的重要性重采样方法能够有效防止模型崩塌,并在GPT-2和SmolLM2等模型上取得了显著的性能提升。与仅使用人类数据训练的模型相比,该方法在某些情况下甚至能够获得更好的性能,证明了合理利用合成数据的潜力。实验涵盖了不同大小的模型,验证了方法的泛化能力。

🎯 应用场景

该研究成果可应用于提升大型语言模型的训练效果和可靠性,尤其是在模型需要持续学习和适应新数据的场景下。通过有效区分和利用人类生成数据,可以避免模型性能退化,并提高生成文本的质量和多样性。此外,该方法还可用于评估和筛选在线数据,确保训练数据的质量,从而提升模型的整体性能。

📄 摘要(原文)

As Large Language Models (LLMs) become increasingly prevalent, their generated outputs are proliferating across the web, risking a future where machine-generated content dilutes human-authored text. Since online data is the primary resource for LLM pre-training, subsequent models could be trained on an unknown portion of synthetic samples. This could lead to model collapse, a degenerative process whereby LLMs reinforce their own errors, reduce output diversity, and ultimately yield declining performance. In this study, we investigate the impact of decoding strategy on model collapse, analysing the text characteristics at each model generation, the similarity to human references, and the resulting model performance. Using the decoding strategies that lead to the most significant degradation, we evaluate model collapse in a more realistic scenario where the origin of the data (human or synthetic) is unknown. We train a machine-generated text detector and propose an importance resampling approach to prevent model collapse by up-sampling likely human content in the training data. Our method is validated on four LLMs from two model families (GPT-2 and SmolLM2), across a range of model sizes 124M to 1.7B). We demonstrate that it not only prevents model collapse but also improves performance compared to training on purely human data, underscoring the benefit of synthetic samples and the importance of data curation.