The Distillation Game: Adaptive Attacks & Efficient Defenses

作者: Youssef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri

分类: cs.LG, cs.AI

发布日期: 2026-05-21

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于对抗博弈的蒸馏攻击与防御框架，并设计高效防御方法PoE。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 模型蒸馏 对抗攻击 模型防御 自适应评估 知识产权保护

📋 核心要点

现有模型蒸馏攻击容易被模仿，但防御方法在实用性和安全性之间存在权衡，难以兼顾。
论文提出一个教师-学生对抗博弈框架，通过自适应评估和防御模板来研究蒸馏攻击与防御。
实验表明，自适应评估能有效揭示现有防御的不足，提出的PoE防御方法在效率和性能上更具优势。

📝 摘要（中文）

蒸馏攻击为模型提供者带来部署上的权衡：使模型更有用的输出也使其更容易被模仿。我们通过效用约束的教师和自适应学生之间的极小极大博弈来研究这种权衡。我们的框架产生易于处理的单边响应规则：一种自适应评估规则，其中学生重新加权高价值的例子；以及一种教师侧的防御模板，抑制对蒸馏最有用的输出。从例子价值的廉价代理中，我们推导出Product-of-Experts (PoE)，这是一种简单的仅前向传递的防御，在生成过程中将教师与代理学生结合起来。实验表明，自适应评估揭示了巨大的被动-自适应差距：在最先进的防御上，自适应学生比被动评估表明的在GSM8K和MATH上恢复了更多的能力。在这种更强的评估下，昂贵防御和PoE之间的明显鲁棒性差距大大缩小，而PoE仍然非常便宜并保留了更高质量的推理轨迹。总的来说，我们的结果表明，强大的蒸馏仍然难以阻止，并且反蒸馏的进展应该根据自适应学生而不是被动学生来判断。我们的代码可在https://github.com/ysfalh/distillation-game获得。

🔬 方法详解

问题定义：论文旨在解决模型蒸馏攻击中，模型提供者面临的实用性和安全性之间的权衡问题。现有防御方法通常计算成本高昂，或者在面对自适应攻击时效果不佳，无法有效阻止模型被恶意模仿。

核心思路：论文的核心思路是将蒸馏攻击和防御建模为一个极小极大博弈。教师模型在保持效用的前提下，尽可能减少学生模型通过蒸馏学习到的能力；而学生模型则通过自适应地选择和加权训练样本，最大化从教师模型中学到的知识。通过这种对抗博弈，可以找到更有效的防御策略。

技术框架：论文的技术框架主要包含三个部分：1) 教师模型：负责生成训练数据，并采用防御策略来对抗蒸馏攻击。2) 学生模型：通过蒸馏学习教师模型的知识，并采用自适应评估策略来最大化学习效果。3) 自适应评估规则：学生模型根据样本的价值重新加权，从而更有效地利用高价值样本。论文还提出了一个教师侧的防御模板，用于抑制对蒸馏最有用的输出。

关键创新：论文的关键创新在于提出了一个基于对抗博弈的蒸馏攻击与防御框架，并设计了一种名为Product-of-Experts (PoE)的高效防御方法。PoE通过在生成过程中将教师模型与一个代理学生模型结合起来，从而在不显著增加计算成本的前提下，有效对抗蒸馏攻击。与现有防御方法相比，PoE更简单、更高效，并且在面对自适应攻击时表现出更好的鲁棒性。

关键设计：PoE防御的关键设计在于利用了一个廉价的代理学生模型来估计样本的价值。教师模型在生成输出时，会考虑代理学生模型的预测结果，并对那些容易被学生模型学习的样本进行抑制。具体来说，PoE通过将教师模型和代理学生模型的输出进行加权平均，从而生成最终的输出。权重可以根据样本的价值进行调整，以实现更好的防御效果。论文还提出了一种自适应评估规则，学生模型根据样本的价值重新加权，从而更有效地利用高价值样本。

📊 实验亮点

实验结果表明，自适应评估能够有效揭示现有防御方法的不足，在GSM8K和MATH数据集上，自适应学生比被动评估恢复了更多的能力。PoE防御方法在效率和性能上都优于现有防御方法，能够在保持较高推理质量的同时，有效对抗蒸馏攻击，缩小了与昂贵防御之间的鲁棒性差距。

🎯 应用场景

该研究成果可应用于各种需要保护模型知识产权的场景，例如云端API服务、模型市场等。通过采用PoE等高效防御方法，模型提供者可以在不显著增加计算成本的前提下，有效对抗模型蒸馏攻击，保护模型的商业价值和技术优势。该研究也有助于推动模型安全和隐私保护领域的发展。

📄 摘要（原文）

Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it easier to imitate. We study this trade-off through a minimax game between a utility-constrained teacher and an adaptive student. Our framework yields tractable one-sided response rules: an adaptive evaluation rule in which the student reweights high-value examples, and a teacher-side defense template that suppresses outputs most useful for distillation. From a cheap proxy for example value, we derive Product-of-Experts (PoE), a simple forward-pass-only defense that combines the teacher with a proxy student during generation. Empirically, adaptive evaluation reveals a large passive--adaptive gap: on state-of-the-art defenses, adaptive students recover substantially more capability than passive evaluation suggests on GSM8K and MATH. Under this stronger evaluation, the apparent robustness gap between expensive defenses and PoE narrows considerably, while PoE remains substantially cheaper and preserves higher-quality reasoning traces. Overall, our results suggest that strong distillation remains difficult to stop, and that progress on antidistillation should be judged against adaptive students rather than passive ones. Our code is available at: https://github.com/ysfalh/distillation-game.

The Distillation Game: Adaptive Attacks & Efficient Defenses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理