Knowledge Collapse in LLMs: When Fluency Survives but Facts Fail under Recursive Synthetic Training

📄 arXiv: 2509.04796v1 📥 PDF

作者: Figarri Keisha, Zekun Wu, Ze Wang, Adriano Koshiyama, Philip Treleaven

分类: cs.CL

发布日期: 2025-09-05


💡 一句话要点

揭示LLM递归合成训练中的知识崩塌现象,提出领域特定训练缓解策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识崩塌 递归合成训练 大型语言模型 领域特定训练 模型退化

📋 核心要点

  1. 现有大型语言模型依赖合成数据,但递归训练易导致知识崩塌,产生“自信地错误”的输出。
  2. 论文提出领域特定的合成训练策略,旨在提升模型在递归训练下的抗崩塌能力,同时保持计算效率。
  3. 实验结果表明,该策略能有效抵抗知识崩塌,并结合模型和任务指标,实现认知退化的可重复评估。

📝 摘要(中文)

大型语言模型越来越多地依赖合成数据,但递归地训练模型生成的输出会导致模型崩塌,这是一个威胁事实可靠性的退化过程。本文将知识崩塌定义为一个独特的三阶段现象,其中事实准确性下降,而表面流畅性仍然存在,从而产生“自信地错误”的输出,这在依赖准确性的领域中构成了严重风险。通过受控的递归合成训练实验,我们证明了崩塌轨迹和时间安排关键取决于指令格式,通过其有条件的、提示依赖的性质,将指令遵循崩塌与传统的模型崩塌区分开来。我们提出领域特定的合成训练作为一种有针对性的缓解策略,该策略在保持计算效率的同时,实现了崩塌抵抗的显着改进。我们的评估框架将以模型为中心的指标与以任务为中心的指标相结合,以检测不同的退化阶段,从而能够对不同语言模型的认知退化进行可重复的评估。这些发现为崩塌动力学提供了理论见解,并为知识密集型应用中可持续的AI训练提供了实践指导,在这些应用中,准确性至关重要。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在递归合成数据训练中出现的知识崩塌问题。现有方法在面对模型生成数据时,容易出现事实准确性下降,但表面流畅性仍然存在的情况,导致模型产生“自信地错误”的输出,这在需要高准确性的知识密集型应用中是不可接受的。

核心思路:论文的核心思路是,知识崩塌的发生与指令格式密切相关,并且存在prompt依赖性。因此,通过领域特定的合成训练,可以有针对性地提升模型在特定领域的抗崩塌能力。这种方法旨在通过控制训练数据的分布,避免模型过度拟合生成数据中的错误模式。

技术框架:论文的整体框架包括以下几个主要阶段:1) 定义知识崩塌的三阶段现象;2) 通过受控实验,研究递归合成训练对模型的影响;3) 提出领域特定的合成训练策略;4) 设计评估框架,结合模型和任务指标,检测不同退化阶段。该框架旨在全面评估模型在递归训练下的知识保持能力。

关键创新:论文的关键创新在于:1) 明确定义了知识崩塌的三阶段现象,并将其与传统的模型崩塌区分开来;2) 提出了领域特定的合成训练策略,这是一种有针对性的缓解知识崩塌的方法;3) 设计了一个综合性的评估框架,可以对不同语言模型的认知退化进行可重复的评估。

关键设计:论文的关键设计包括:1) 精心设计的递归合成训练实验,用于模拟模型在实际应用中可能遇到的情况;2) 领域特定的合成数据生成方法,旨在控制训练数据的分布,避免模型过度拟合生成数据中的错误模式;3) 综合性的评估指标,包括模型层面的指标(如困惑度)和任务层面的指标(如准确率),用于全面评估模型的知识保持能力。

📊 实验亮点

论文通过实验证明,领域特定的合成训练能够显著提升模型在递归训练下的抗崩塌能力。实验结果表明,该方法在保持计算效率的同时,有效缓解了知识崩塌现象,提高了模型在特定领域的准确性和可靠性。具体的性能提升数据在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于知识密集型领域,如医疗诊断、金融分析、法律咨询等,以提升LLM在这些领域的可靠性和准确性。通过领域特定的合成训练,可以构建更值得信赖的AI系统,减少因模型崩塌导致的错误决策风险,并为可持续的AI训练提供指导。

📄 摘要(原文)

Large language models increasingly rely on synthetic data due to human-written content scarcity, yet recursive training on model-generated outputs leads to model collapse, a degenerative process threatening factual reliability. We define knowledge collapse as a distinct three-stage phenomenon where factual accuracy deteriorates while surface fluency persists, creating "confidently wrong" outputs that pose critical risks in accuracy-dependent domains. Through controlled experiments with recursive synthetic training, we demonstrate that collapse trajectory and timing depend critically on instruction format, distinguishing instruction-following collapse from traditional model collapse through its conditional, prompt-dependent nature. We propose domain-specific synthetic training as a targeted mitigation strategy that achieves substantial improvements in collapse resistance while maintaining computational efficiency. Our evaluation framework combines model-centric indicators with task-centric metrics to detect distinct degradation phases, enabling reproducible assessment of epistemic deterioration across different language models. These findings provide both theoretical insights into collapse dynamics and practical guidance for sustainable AI training in knowledge-intensive applications where accuracy is paramount.