Self-Distillation as a Performance Recovery Mechanism for LLMs: Counteracting Compression and Catastrophic Forgetting
作者: Chi Liu, Xin Chen, Xu Zhou, Fangbo Tu, Srinivasan Manoharan
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-17
备注: 14 pages, 8 figures
💡 一句话要点
提出基于自蒸馏微调的LLM性能恢复框架,对抗压缩和灾难性遗忘。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自蒸馏 性能恢复 灾难性遗忘 模型压缩 中心核对齐 高维流形 监督微调
📋 核心要点
- 大型语言模型在压缩、量化和微调后性能下降,现有方法难以有效恢复。
- 论文提出自蒸馏微调(SDFT)框架,通过对齐学生模型和教师模型的高维流形来恢复性能。
- 实验表明,SDFT能有效恢复LLM性能,且性能恢复与流形对齐程度高度相关。
📝 摘要(中文)
大型语言模型(LLM)取得了显著成功,支撑着各种AI应用。然而,由于监督微调(SFT)期间的灾难性遗忘、量化和剪枝等因素,它们经常遭受性能下降。本文介绍了一种基于自蒸馏微调(SDFT)的性能恢复框架,该框架可有效恢复模型能力。除了这一实践贡献外,我们还为潜在的恢复机制提供了严格的理论解释。我们认为,LLM的生成能力从根本上依赖于其隐藏层构建的高维流形。为了研究这一点,我们采用中心核对齐(CKA)来量化学生和教师激活轨迹之间的对齐,利用其对正交变换和缩放的不变性。我们的实验表明,性能恢复和流形对齐之间存在很强的相关性,证实了自蒸馏有效地将学生的的高维流形与教师所代表的最佳结构对齐。这项研究弥合了实践恢复框架和几何表示理论之间的差距,为自蒸馏的内部机制提供了新的见解。
🔬 方法详解
问题定义:大型语言模型在经过压缩(如量化、剪枝)或微调后,常常会面临性能下降的问题,例如灾难性遗忘。现有的方法可能无法有效地恢复这些模型的能力,尤其是在保持模型效率的同时。
核心思路:论文的核心思路是利用自蒸馏(Self-Distillation)作为一种性能恢复机制。通过让学生模型学习教师模型的输出来对齐模型内部的表示,从而恢复模型在压缩或微调过程中损失的能力。核心在于对齐学生模型和教师模型在高维空间中的流形结构。
技术框架:该框架主要包含两个阶段:首先,有一个预训练好的教师模型(通常是原始的、性能较好的模型)。然后,有一个经过压缩或微调的学生模型,其性能有所下降。接下来,使用自蒸馏微调(SDFT)过程,学生模型学习模仿教师模型的输出,从而恢复性能。关键在于使用中心核对齐(CKA)来量化学生和教师模型内部表示的相似度,并以此为依据进行优化。
关键创新:该论文的关键创新在于将自蒸馏与高维流形对齐的概念联系起来,并使用CKA来量化这种对齐程度。这提供了一种新的视角来理解自蒸馏的工作原理,并为性能恢复提供了一种理论基础。与传统的自蒸馏方法相比,该方法更关注模型内部表示的对齐,而不仅仅是输出的模仿。
关键设计:论文使用中心核对齐(CKA)作为关键的度量指标,用于衡量学生模型和教师模型在隐藏层激活上的相似性。CKA对正交变换和缩放具有不变性,因此能够更准确地反映模型内部表示的结构相似性。损失函数的设计目标是最小化学生模型和教师模型之间的CKA距离,从而促使学生模型学习教师模型的内部表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于自蒸馏微调(SDFT)的性能恢复框架能够有效恢复LLM的性能。研究人员使用中心核对齐(CKA)量化了学生模型和教师模型激活轨迹之间的对齐程度,发现性能恢复与流形对齐之间存在很强的相关性。这表明自蒸馏能够有效地将学生模型的高维流形与教师模型所代表的最佳结构对齐。
🎯 应用场景
该研究成果可应用于各种需要压缩或微调大型语言模型的场景,例如在资源受限的设备上部署LLM、加速LLM推理、以及在持续学习过程中防止灾难性遗忘。通过自蒸馏微调,可以在不显著增加计算成本的情况下,有效提升压缩或微调后模型的性能,具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) have achieved remarkable success, underpinning diverse AI applications. However, they often suffer from performance degradation due to factors such as catastrophic forgetting during Supervised Fine-Tuning (SFT), quantization, and pruning. In this work, we introduce a performance recovery framework based on Self-Distillation Fine-Tuning (SDFT) that effectively restores model capabilities. Complementing this practical contribution, we provide a rigorous theoretical explanation for the underlying recovery mechanism. We posit that an LLM's generative capability fundamentally relies on the high-dimensional manifold constructed by its hidden layers. To investigate this, we employ Centered Kernel Alignment (CKA) to quantify the alignment between student and teacher activation trajectories, leveraging its invariance to orthogonal transformations and scaling. Our experiments demonstrate a strong correlation between performance recovery and manifold alignment, substantiating the claim that self-distillation effectively aligns the student's high-dimensional manifold with the optimal structure represented by the teacher. This study bridges the gap between practical recovery frameworks and geometric representation theory, offering new insights into the internal mechanisms of self-distillation.