Rethinking Knowledge Distillation: A Data Dependent Regulariser With a Negative Asymmetric Payoff

📄 arXiv: 2510.12615v1 📥 PDF

作者: Israel Mason-Williams, Gabryel Mason-Williams, Helen Yannakoudakis

分类: cs.LG, cs.AI

发布日期: 2025-10-14

备注: 45 pages, 24 figures and 104 tables


💡 一句话要点

重新审视知识蒸馏:一种具有负非对称收益的数据依赖正则化方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 模型压缩 知识转移 正则化 负面知识

📋 核心要点

  1. 现有知识蒸馏方法对功能性影响理解不足,难以区分压缩效果与架构简化带来的影响。
  2. 该论文从功能角度量化知识蒸馏的压缩能力和知识转移,并将其与架构简化解耦。
  3. 实验结果表明,知识蒸馏更多地表现为一种数据依赖的正则化方法,并存在负面知识的非对称转移。

📝 摘要(中文)

知识蒸馏通常被认为是压缩机制,其判断标准是学生模型的准确性和损失。然而,其功能性影响却鲜为人知。本文从功能角度量化了知识蒸馏的压缩能力和由此产生的知识转移,将压缩与架构简化分离,从而更好地理解知识蒸馏。我们采用假设检验、对照实验和随机对照蒸馏来理解跨数据模态的知识转移机制。为了严格测试分析的广度和局限性,我们探索了多种蒸馏变体,并分析了跨模型大小的蒸馏缩放规律。我们的研究结果表明,虽然在某些模态和架构中存在统计上显著的知识转移,但这种转移的程度低于预期,即使在旨在最大化知识共享的条件下也是如此。值得注意的是,在显著知识转移的情况下,我们发现负面知识向学生模型的一致且严重的非对称转移,这引起了知识蒸馏应用中的安全问题。在12个实验设置、9个架构和7个数据集上,我们的研究结果表明,知识蒸馏的功能更像是一种具有负非对称收益的数据依赖正则化方法,而不是一种压缩机制。

🔬 方法详解

问题定义:知识蒸馏通常被视为一种模型压缩技术,旨在将大型教师模型的知识转移到小型学生模型中。然而,现有方法主要关注学生模型的性能提升,而忽略了对知识蒸馏过程本身的功能性影响的深入理解。现有的评估方法难以区分知识蒸馏带来的压缩效果与模型架构简化带来的影响,缺乏对知识转移机制的细致分析。

核心思路:该论文的核心思路是将知识蒸馏的压缩效果与架构简化解耦,从功能角度量化知识蒸馏的知识转移能力。通过设计对照实验和假设检验,研究知识蒸馏在不同数据模态和模型架构下的表现,并深入分析知识转移的模式和规律。特别关注负面知识的转移,并评估其对学生模型的影响。

技术框架:该研究的技术框架主要包括以下几个部分:1) 设计对照实验,包括随机对照蒸馏,以评估知识蒸馏的有效性;2) 采用假设检验方法,量化知识转移的统计显著性;3) 分析不同数据模态和模型架构下的知识蒸馏表现,探索知识转移的模式;4) 研究知识蒸馏的缩放规律,即模型大小对知识转移的影响;5) 重点关注负面知识的转移,并评估其对学生模型的影响。

关键创新:该论文的关键创新在于:1) 从功能角度重新审视知识蒸馏,将其视为一种数据依赖的正则化方法,而非单纯的压缩技术;2) 揭示了知识蒸馏中存在的负面知识的非对称转移现象,并强调了其潜在的安全风险;3) 通过严谨的实验设计和统计分析,量化了知识转移的程度和模式,为理解知识蒸馏的本质提供了新的视角。

关键设计:论文中采用了多种实验设置,包括不同的数据集、模型架构和蒸馏变体。关键的设计包括:1) 使用随机对照蒸馏作为基线,以评估知识蒸馏的有效性;2) 采用多种损失函数,包括传统的蒸馏损失和对抗损失,以研究不同损失函数对知识转移的影响;3) 分析不同模型大小下的知识蒸馏表现,探索知识蒸馏的缩放规律;4) 采用多种指标,包括准确率、损失函数和特征相似度,以评估知识转移的效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

研究表明,知识蒸馏在某些模态和架构中存在显著的知识转移,但程度低于预期。更重要的是,研究发现存在负面知识向学生模型的非对称转移,这可能导致学生模型性能下降或产生安全问题。在多个数据集和模型上的实验验证了这一发现,强调了重新审视知识蒸馏的必要性。

🎯 应用场景

该研究成果可应用于对安全性要求较高的知识蒸馏场景,例如自动驾驶、医疗诊断等。通过识别和缓解负面知识的转移,可以提高学生模型的可靠性和鲁棒性。此外,该研究也为知识蒸馏算法的设计和优化提供了新的思路,有助于开发更有效的知识转移方法。

📄 摘要(原文)

Knowledge distillation is often considered a compression mechanism when judged on the resulting student's accuracy and loss, yet its functional impact is poorly understood. In this work, we quantify the compression capacity of knowledge distillation and the resulting knowledge transfer from a functional perspective, decoupling compression from architectural reduction, which provides an improved understanding of knowledge distillation. We employ hypothesis testing, controls, and random control distillation to understand knowledge transfer mechanisms across data modalities. To rigorously test the breadth and limits of our analyses, we explore multiple distillation variants and analyse distillation scaling laws across model sizes. Our findings demonstrate that, while there is statistically significant knowledge transfer in some modalities and architectures, the extent of this transfer is less pronounced than anticipated, even under conditions designed to maximise knowledge sharing. Notably, in cases of significant knowledge transfer, we identify a consistent and severe asymmetric transfer of negative knowledge to the student, raising safety concerns in knowledge distillation applications. Across 12 experimental setups, 9 architectures, and 7 datasets, our findings show that knowledge distillation functions less as a compression mechanism and more as a data-dependent regulariser with a negative asymmetric payoff.