Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?
作者: Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang
分类: cs.CL, cs.LG
发布日期: 2026-03-25
💡 一句话要点
揭示自蒸馏对大语言模型推理能力的负面影响
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自蒸馏 大语言模型 推理能力 不确定性表达 数学推理 知识表达 模型优化
📋 核心要点
- 现有自蒸馏方法在数学推理任务中可能导致性能下降,尤其是在表达不确定性方面的抑制。
- 论文提出通过控制教师模型的信息丰富度来优化不确定性表达,从而提升推理能力。
- 实验结果显示,在多个模型上,性能下降幅度可达40%,强调了不确定性表达的重要性。
📝 摘要(中文)
自蒸馏作为一种有效的后训练范式,通常能提升大语言模型(LLMs)的性能并缩短推理过程。然而,在数学推理任务中,我们发现自蒸馏可能导致响应长度减少但性能下降。我们追踪到这种下降与知识表达的抑制有关,即模型在推理过程中表达不确定性的能力。通过控制实验,我们展示了丰富信息的教师模型抑制了不确定性表达,虽然在有限任务覆盖下实现了快速的领域内优化,但却损害了模型在未见问题上的表现。我们的研究强调了适当表达不确定性对稳健推理的重要性。
🔬 方法详解
问题定义:本论文旨在解决自蒸馏在数学推理中导致的性能下降问题,现有方法未能有效处理模型在推理过程中表达不确定性的能力。
核心思路:论文提出通过调整教师模型的条件信息丰富度来优化不确定性表达,认为适当的知识表达对推理能力至关重要。
技术框架:研究采用控制实验设计,分别测试不同条件信息丰富度对模型推理表现的影响,主要模块包括教师模型和学生模型的训练过程。
关键创新:最重要的创新在于识别并量化了知识表达抑制对推理能力的影响,强调了不确定性表达在模型推理中的作用。
关键设计:实验中设置了多种条件信息丰富度,使用不同的损失函数来优化不确定性表达,确保模型在有限任务覆盖下仍能保持较好的推理性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct等模型上,性能下降幅度高达40%。这些结果突显了在推理过程中适当表达不确定性的重要性,并与现有基线进行了对比,展示了优化后的模型在特定任务上的表现提升。
🎯 应用场景
该研究的潜在应用领域包括教育技术、自动化推理系统和智能问答系统等。通过优化模型的不确定性表达,可以提升这些系统在复杂任务中的表现,增强用户体验和系统的可靠性。未来,该研究可能推动更高效的推理模型设计,促进人工智能在实际应用中的广泛采用。
📄 摘要(原文)
Self-distillation has emerged as an effective post-training paradigm for LLMs, often improving performance while shortening reasoning traces. However, in mathematical reasoning, we find that it can reduce response length while degrading performance. We trace this degradation to the suppression of epistemic verbalization - the model's expression of uncertainty during reasoning. Through controlled experiments varying conditioning context richness and task coverage, we show that conditioning the teacher on rich information suppresses uncertainty expression, enabling rapid in-domain optimization with limited task coverage but harming OOD performance, where unseen problems benefit from expressing uncertainty and adjusting accordingly. Across Qwen3-8B, DeepSeek-Distill-Qwen-7B, and Olmo3-7B-Instruct, we observe performance drops of up to 40%. Our findings highlight that exposing appropriate levels of uncertainty is crucial for robust reasoning and underscore the importance of optimizing reasoning behavior beyond merely reinforcing correct answer traces.