Language Generation with Replay: A Learning-Theoretic View of Model Collapse

📄 arXiv: 2603.11784v1 📥 PDF

作者: Giorgio Racca, Michal Valko, Amartya Sanyal

分类: cs.LG, stat.ML

发布日期: 2026-03-12


💡 一句话要点

从学习理论角度分析语言生成模型崩塌问题,提出基于回放的对抗学习框架。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言生成模型 模型崩塌 学习理论 回放攻击 对抗学习

📋 核心要点

  1. 大型语言模型面临模型崩塌风险,即模型训练数据中包含自身生成的文本导致性能下降。
  2. 论文从学习理论角度出发,引入回放对抗者模拟模型崩塌场景,分析回放对生成能力的影响。
  3. 研究表明,回放对均匀生成是良性的,但对非均匀生成和极限生成会造成性能分离,揭示了数据清洗等策略的局限性。

📝 摘要(中文)

随着扩展定律推动大型语言模型(LLM)的训练朝着不断增长的数据需求发展,训练流程正接近一个可能消耗大量公开在线文本的阶段。与此同时,LLM的广泛使用增加了网络上机器生成内容的数量;这些趋势共同增加了生成文本重新进入未来训练语料库的可能性,从而增加了通常被称为模型崩塌的性能下降风险。实际上,模型开发者通过数据清洗、水印、合成数据策略或在某些情况下采取放任态度来解决这个问题。然而,生成模型中模型崩塌的问题尚未从学习理论的角度进行考察:我们通过语言生成的理论视角,引入一个回放对抗者,用生成器自己过去输出增强示例流。我们的主要贡献是对回放从根本上限制生成时的情况进行了细粒度的学习理论刻画:虽然回放对于最强的均匀生成概念是良性的,但它证明为较弱的非均匀生成和极限生成概念创造了分离。有趣的是,我们的积极结果反映了实践中广泛使用的启发式方法,如数据清洗、水印和输出过滤,而我们的分离表明了这些想法何时会失败。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在训练过程中,由于训练数据中包含模型自身生成的文本(即“回放”),导致模型性能下降,即“模型崩塌”的问题。现有方法如数据清洗、水印等,缺乏理论支撑,效果未知。

核心思路:论文的核心思路是将模型崩塌问题建模为一个学习理论问题,通过引入一个“回放对抗者”,该对抗者将生成器的历史输出注入到训练数据中,从而模拟模型崩塌的场景。通过分析在这种对抗环境下的学习行为,研究回放对模型生成能力的影响。

技术框架:论文采用语言生成在极限框架下的学习理论视角。主要包含以下几个关键部分:1)定义了回放对抗者,用于模拟模型生成内容重新进入训练集的过程;2)分析了回放在不同生成概念(均匀生成、非均匀生成、极限生成)下的影响;3)证明了回放对于均匀生成是良性的,但对于非均匀生成和极限生成会造成性能分离。

关键创新:论文最重要的创新在于将模型崩塌问题从经验性的角度提升到学习理论的高度,通过理论分析揭示了回放对生成模型的影响。与现有方法相比,该研究提供了更深入的理解,并为数据清洗等策略提供了理论依据。

关键设计:论文的关键设计包括:1)回放对抗者的具体实现方式,即如何将生成器的历史输出注入到训练数据中;2)不同生成概念的定义,例如均匀生成、非均匀生成和极限生成,这些概念对应于不同的模型生成能力;3)针对不同生成概念,分析回放对抗者对模型性能的影响,并给出相应的理论证明。

📊 实验亮点

论文的主要实验亮点在于通过理论分析证明了回放对不同生成概念的影响。具体来说,论文证明了回放对于均匀生成是良性的,但对于非均匀生成和极限生成会造成性能分离。这些理论结果为理解模型崩塌现象提供了重要的理论支撑,并为实际应用中的数据清洗等策略提供了指导。

🎯 应用场景

该研究成果可应用于指导大型语言模型的训练策略,例如,在数据清洗过程中,可以更有针对性地识别和过滤掉模型自身生成的文本,从而降低模型崩塌的风险。此外,该研究还可以为水印技术的设计提供理论依据,使其能够更有效地防止模型生成的内容被恶意利用。

📄 摘要(原文)

As scaling laws push the training of frontier large language models (LLMs) toward ever-growing data requirements, training pipelines are approaching a regime where much of the publicly available online text may be consumed. At the same time, widespread LLM usage increases the volume of machine-generated content on the web; together, these trends raise the likelihood of generated text re-entering future training corpora, increasing the associated risk of performance degradation often called model collapse. In practice, model developers address this concern through data cleaning, watermarking, synthetic-data policies, or, in some cases, blissful ignorance. However, the problem of model collapse in generative models has not been examined from a learning-theoretic perspective: we study it through the theoretical lens of the language generation in the limit framework, introducing a replay adversary that augments the example stream with the generator's own past outputs. Our main contribution is a fine-grained learning-theoretic characterization of when replay fundamentally limits generation: while replay is benign for the strongest notion of uniform generation, it provably creates separations for the weaker notions of non-uniform generation and generation in the limit. Interestingly, our positive results mirror heuristics widely used in practice, such as data cleaning, watermarking, and output filtering, while our separations show when these ideas can fail.