Leave It to the Experts: Detecting Knowledge Distillation via MoE Expert Signatures

📄 arXiv: 2510.16968v1 📥 PDF

作者: Pingzhi Li, Morris Yu-Chao Huang, Zhen Tan, Qingquan Song, Jie Peng, Kai Zou, Yu Cheng, Kaidi Xu, Tianlong Chen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-19

备注: Code is at https://github.com/unites-lab/shadow-moe


💡 一句话要点

利用MoE专家签名检测知识蒸馏,有效应对提示工程攻击。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏检测 大型语言模型 混合专家模型 模型安全 提示工程 结构习惯 黑盒检测

📋 核心要点

  1. 现有知识蒸馏检测方法易受提示工程攻击,难以有效保护大型语言模型的知识产权和多样性。
  2. 该论文提出利用MoE模型中专家路由模式的“结构习惯”作为指纹,检测知识蒸馏行为,无需依赖模型自我身份或输出相似性。
  3. 实验结果表明,该方法在多种场景下检测准确率超过94%,且对提示攻击具有很强的鲁棒性,优于现有方法。

📝 摘要(中文)

知识蒸馏(KD)加速了大型语言模型(LLM)的训练,但也带来了知识产权保护和LLM多样性风险。现有的基于自我身份或输出相似性的KD检测方法容易通过提示工程规避。本文提出了一种KD检测框架,通过利用被忽视的信号——MoE“结构习惯”的转移,尤其是在内部路由模式上的转移,在白盒和黑盒设置中均有效。该方法分析了不同专家如何在各种输入上进行专门化和协作,从而创建了在蒸馏过程中持续存在的独特指纹。为了扩展到白盒设置和MoE架构之外,我们进一步提出了Shadow-MoE,这是一种黑盒方法,通过辅助蒸馏构建代理MoE表示,以比较任意模型对之间的这些模式。我们建立了一个全面的、可复现的基准,提供了多样化的蒸馏检查点和一个可扩展的框架,以促进未来的研究。广泛的实验表明,在各种场景下,检测准确率超过94%,并且对基于提示的规避具有很强的鲁棒性,优于现有的基线,同时突出了LLM中的结构习惯转移。

🔬 方法详解

问题定义:论文旨在解决大型语言模型知识蒸馏的检测问题。现有的检测方法,如基于模型自我身份或输出相似性的方法,容易被提示工程攻击所规避,无法有效识别经过蒸馏的模型,从而带来知识产权风险和模型同质化问题。

核心思路:论文的核心思路是利用MoE(Mixture of Experts)模型中专家路由模式的“结构习惯”作为检测知识蒸馏的指纹。作者观察到,即使经过蒸馏,学生模型也会继承教师模型在专家选择上的偏好和模式。通过分析模型在不同输入下专家的激活情况,可以提取出独特的结构签名,用于区分原始模型和蒸馏模型。

技术框架:该框架包含两个主要部分:白盒MoE检测和黑盒Shadow-MoE检测。对于白盒MoE检测,直接分析目标模型的专家路由模式。对于黑盒Shadow-MoE检测,首先使用辅助蒸馏创建一个代理MoE模型(Shadow-MoE),然后比较目标模型和Shadow-MoE模型的专家路由模式。整体流程包括数据收集、专家激活分析、特征提取和分类器训练等步骤。

关键创新:该论文的关键创新在于利用MoE模型的内部结构信息进行知识蒸馏检测。与现有方法相比,该方法不依赖于模型的自我报告或输出相似性,因此对提示工程攻击具有更强的鲁棒性。此外,提出的Shadow-MoE方法将该技术扩展到了黑盒场景和非MoE架构的模型。

关键设计:在白盒MoE检测中,关键设计包括选择合适的输入数据、定义专家激活的度量方式(例如,专家被激活的频率、专家之间的协同关系等)以及选择合适的分类器。在Shadow-MoE检测中,关键设计包括选择合适的教师模型进行辅助蒸馏、设计合适的损失函数以保证Shadow-MoE模型能够尽可能地模拟目标模型的行为,以及选择合适的特征提取方法来捕捉专家路由模式的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在各种场景下检测准确率超过94%,并且对基于提示的规避具有很强的鲁棒性,显著优于现有的基线方法。例如,在面对精心设计的提示攻击时,现有方法的检测准确率大幅下降,而该方法的准确率仍然保持在较高水平,证明了其有效性和实用性。

🎯 应用场景

该研究成果可应用于大型语言模型的知识产权保护、模型来源追溯和模型安全性评估。通过检测模型是否经过知识蒸馏,可以防止未经授权的模型复制和分发,维护模型开发者的权益。此外,该技术还可以用于评估模型的鲁棒性和抗攻击能力,提高模型的安全性。

📄 摘要(原文)

Knowledge Distillation (KD) accelerates training of large language models (LLMs) but poses intellectual property protection and LLM diversity risks. Existing KD detection methods based on self-identity or output similarity can be easily evaded through prompt engineering. We present a KD detection framework effective in both white-box and black-box settings by exploiting an overlooked signal: the transfer of MoE "structural habits", especially internal routing patterns. Our approach analyzes how different experts specialize and collaborate across various inputs, creating distinctive fingerprints that persist through the distillation process. To extend beyond the white-box setup and MoE architectures, we further propose Shadow-MoE, a black-box method that constructs proxy MoE representations via auxiliary distillation to compare these patterns between arbitrary model pairs. We establish a comprehensive, reproducible benchmark that offers diverse distilled checkpoints and an extensible framework to facilitate future research. Extensive experiments demonstrate >94% detection accuracy across various scenarios and strong robustness to prompt-based evasion, outperforming existing baselines while highlighting the structural habits transfer in LLMs.