Distillation Traps and Guards: A Calibration Knob for LLM Distillability

📄 arXiv: 2604.18963v1 📥 PDF

作者: Weixiao Zhan, Yongcheng Jing, Leszek Rutkowski, Dacheng Tao

分类: cs.LG, cs.AI

发布日期: 2026-04-21


💡 一句话要点

提出基于强化学习微调的LLM蒸馏校准方法,实现可控的知识蒸馏与模型保护。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 大型语言模型 强化学习 模型校准 模型保护

📋 核心要点

  1. 现有知识蒸馏方法在LLM上表现不稳定,易受尾部噪声、离策略和师生差距影响,导致学生模型性能下降。
  2. 提出一种基于强化学习微调的后验校准方法,通过结合任务效用、KL散度和跨分词器校准奖励,实现对教师模型可蒸馏性的控制。
  3. 实验表明,从可蒸馏校准教师模型蒸馏的学生模型优于传统方法,而从不可蒸馏校准教师模型蒸馏的学生模型性能崩溃,实现模型保护。

📝 摘要(中文)

知识蒸馏(KD)旨在将大型语言模型(LLM)的能力迁移到较小的学生模型,但其效果可能不稳定,并存在模型泄露风险。本文分析揭示了几个蒸馏陷阱:尾部噪声、离策略不稳定以及最根本的师生差距,这些因素会扭曲训练信号,表现为过度自信的幻觉、自我纠正崩溃和局部解码退化,导致蒸馏失败。为此,我们提出了一种后验校准方法,据我们所知,该方法首次实现了通过强化学习微调(RFT)来控制教师模型的可蒸馏性。我们的目标结合了任务效用、KL锚定和跨分词器校准奖励。这使得可蒸馏性成为基础模型的一个实用安全杠杆,将鲁棒的师生迁移与部署感知的模型保护联系起来。在数学、知识问答和指令跟随任务上的实验表明,从可蒸馏的校准教师模型中蒸馏出的学生模型优于SFT和KD基线,而不可蒸馏的校准教师模型保持了其任务性能,但导致蒸馏出的学生模型崩溃,为更好的KD和模型IP保护提供了一个实用的旋钮。

🔬 方法详解

问题定义:知识蒸馏旨在将大型语言模型的能力迁移到小型模型,但现有方法面临蒸馏陷阱,如尾部噪声、离策略不稳定和师生差距,导致学生模型性能下降,甚至崩溃。此外,模型泄露风险也是一个重要问题,需要有效控制教师模型的可蒸馏性。

核心思路:本文的核心思路是通过强化学习微调(RFT)来校准教师模型,使其具有可控的可蒸馏性。通过设计合适的奖励函数,可以使教师模型更容易被学生模型学习,或者使其难以被学生模型学习,从而实现更好的知识蒸馏效果和模型保护。

技术框架:整体框架包括三个主要部分:首先,使用标准数据集对大型语言模型进行预训练或微调。然后,使用强化学习微调(RFT)来校准教师模型的可蒸馏性。最后,使用校准后的教师模型对学生模型进行知识蒸馏。RFT过程使用奖励函数来引导教师模型的行为,奖励函数结合了任务效用、KL散度和跨分词器校准奖励。

关键创新:最重要的创新点在于提出了通过强化学习微调来控制教师模型的可蒸馏性。这使得可蒸馏性成为一个可调节的参数,可以根据实际需求进行优化,从而实现更好的知识蒸馏效果和模型保护。这是首次尝试将强化学习应用于控制LLM的可蒸馏性。

关键设计:奖励函数的设计是关键。任务效用奖励鼓励教师模型保持其原始任务的性能。KL散度奖励作为锚定项,防止教师模型偏离原始分布过远。跨分词器校准奖励旨在减少不同分词器之间的差异,提高蒸馏的鲁棒性。具体而言,使用PPO算法进行强化学习微调,并仔细调整了各个奖励项的权重,以平衡任务性能、蒸馏效果和模型保护。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,从可蒸馏的校准教师模型中蒸馏出的学生模型在数学、知识问答和指令跟随任务上优于SFT和KD基线。更重要的是,从不可蒸馏的校准教师模型中蒸馏出的学生模型性能显著下降,甚至崩溃,验证了该方法在模型保护方面的有效性。具体性能提升幅度未知,但实验结果明确表明了该方法的可行性和有效性。

🎯 应用场景

该研究成果可应用于各种需要知识蒸馏的场景,例如将大型语言模型部署到资源受限的设备上。此外,该方法还提供了一种新的模型保护机制,可以防止未经授权的模型复制和泄露,具有重要的商业价值和安全意义。未来可以探索更复杂的奖励函数和强化学习算法,以进一步提高知识蒸馏的效果和模型保护的强度。

📄 摘要(原文)

Knowledge distillation (KD) transfers capabilities from large language models (LLMs) to smaller students, yet it can fail unpredictably and also underpins model leakage risks. Our analysis revealed several distillation traps: tail noise, off-policy instability, and, most fundamentally, the teacher-student gap, that distort training signals. These traps manifest as overconfident hallucinations, self-correction collapse, and local decoding degradation, causing distillation to fail. Motivated by these findings, we propose a post-hoc calibration method that, to the best of our knowledge, for the first time enables control over a teacher's distillability via reinforcement fine-tuning (RFT). Our objective combines task utility, KL anchor, and across-tokenizer calibration reward. This makes distillability a practical safety lever for foundation models, connecting robust teacher-student transfer with deployment-aware model protection. Experiments across math, knowledge QA, and instruction-following tasks show that students distilled from distillable calibrated teachers outperform SFT and KD baselines, while undistillable calibrated teachers retain their task performance but cause distilled students to collapse, offering a practical knob for both better KD and model IP protection.