Knowledge Collapse in LLMs: When Fluency Survives but Facts Fail under Recursive Synthetic Training
作者: Figarri Keisha, Zekun Wu, Ze Wang, Adriano Koshiyama, Philip Treleaven
分类: cs.CL
发布日期: 2025-09-05
💡 一句话要点
揭示LLM递归合成训练中的知识崩塌现象,提出领域特定训练缓解策略
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识崩塌 递归合成训练 大型语言模型 领域特定训练 指令遵循 事实准确性 模型评估
📋 核心要点
- 现有大型语言模型依赖合成数据,但递归训练易导致知识崩塌,产生“自信地错误”的输出。
- 论文提出领域特定的合成训练策略,旨在提升模型在递归训练下的知识保持能力,缓解崩塌现象。
- 实验结果表明,该策略能有效抵抗知识崩塌,同时保持计算效率,并提供评估框架以检测退化阶段。
📝 摘要(中文)
大型语言模型越来越多地依赖合成数据,但递归训练模型生成的输出会导致模型崩塌,这是一个威胁事实可靠性的退化过程。本文将知识崩塌定义为一个独特的三阶段现象,其中事实准确性下降,而表面流畅性仍然存在,从而产生“自信地错误”的输出,这在依赖准确性的领域中构成了严重风险。通过受控的递归合成训练实验,我们证明了崩塌轨迹和时间安排关键取决于指令格式,通过其有条件的、提示依赖的性质,将指令遵循崩塌与传统的模型崩塌区分开来。我们提出领域特定的合成训练作为一种有针对性的缓解策略,该策略在保持计算效率的同时,实现了崩塌抵抗的显着改进。我们的评估框架将以模型为中心的指标与以任务为中心的指标相结合,以检测不同的退化阶段,从而能够对不同语言模型的认知退化进行可重复的评估。这些发现为知识密集型应用中崩塌动力学和可持续人工智能训练提供了理论见解和实践指导,在这些应用中,准确性至关重要。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在递归合成训练中出现的知识崩塌问题。现有方法依赖人工标注数据,成本高昂且难以扩展。而直接使用模型生成的合成数据进行递归训练,会导致模型事实准确性下降,产生“自信地错误”的输出,严重影响其在知识密集型任务中的应用。
核心思路:论文的核心思路是,知识崩塌的发生与指令格式密切相关,并且可以通过领域特定的合成训练来缓解。通过控制指令格式,可以区分指令遵循崩塌和传统模型崩塌。针对特定领域进行合成训练,可以提高模型在该领域的知识保持能力,从而抵抗知识崩塌。
技术框架:论文的整体框架包括三个主要部分:1) 定义知识崩塌的三阶段现象,即事实准确性下降但表面流畅性仍然存在;2) 通过受控实验,研究递归合成训练中指令格式对崩塌轨迹和时间的影响;3) 提出并验证领域特定的合成训练作为缓解策略的有效性。评估框架结合了模型中心指标和任务中心指标,以检测不同的退化阶段。
关键创新:论文的关键创新在于:1) 明确定义了知识崩塌现象,并将其与传统模型崩塌区分开来;2) 揭示了指令格式在知识崩塌中的作用,提出了指令遵循崩塌的概念;3) 提出了领域特定的合成训练策略,为缓解知识崩塌提供了一种有效且高效的方法。
关键设计:论文的关键设计包括:1) 精心设计的递归合成训练实验,用于研究不同指令格式对知识崩塌的影响;2) 领域特定的合成数据生成方法,确保训练数据与目标领域的相关性;3) 综合性的评估指标体系,包括模型中心指标(如困惑度)和任务中心指标(如事实准确性),用于全面评估模型的知识保持能力。
🖼️ 关键图片
📊 实验亮点
论文通过实验证明,领域特定的合成训练能够显著提高模型在递归合成训练下的知识保持能力,有效抵抗知识崩塌。实验结果表明,该方法在保持计算效率的同时,能够显著提升模型在特定领域的准确性,并降低产生“自信地错误”输出的风险。
🎯 应用场景
该研究成果可应用于知识密集型领域,如医疗诊断、金融分析、法律咨询等,提高LLM在这些领域的可靠性和准确性。通过领域特定的合成训练,可以降低模型对人工标注数据的依赖,实现可持续的AI训练,并减少“自信地错误”的输出,从而避免潜在的风险。
📄 摘要(原文)
Large language models increasingly rely on synthetic data due to human-written content scarcity, yet recursive training on model-generated outputs leads to model collapse, a degenerative process threatening factual reliability. We define knowledge collapse as a distinct three-stage phenomenon where factual accuracy deteriorates while surface fluency persists, creating "confidently wrong" outputs that pose critical risks in accuracy-dependent domains. Through controlled experiments with recursive synthetic training, we demonstrate that collapse trajectory and timing depend critically on instruction format, distinguishing instruction-following collapse from traditional model collapse through its conditional, prompt-dependent nature. We propose domain-specific synthetic training as a targeted mitigation strategy that achieves substantial improvements in collapse resistance while maintaining computational efficiency. Our evaluation framework combines model-centric indicators with task-centric metrics to detect distinct degradation phases, enabling reproducible assessment of epistemic deterioration across different language models. These findings provide both theoretical insights into collapse dynamics and practical guidance for sustainable AI training in knowledge-intensive applications where accuracy is paramount.