Pay Attention to the Triggers: Constructing Backdoors That Survive Distillation

📄 arXiv: 2510.18541v1 📥 PDF

作者: Giovanni De Muri, Mark Vero, Robin Staab, Martin Vechev

分类: cs.LG, cs.AI, cs.CR

发布日期: 2025-10-21


💡 一句话要点

提出T-MTB:一种可迁移的LLM后门攻击方法,提升蒸馏场景下的安全性风险

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 后门攻击 知识蒸馏 安全风险 可迁移性

📋 核心要点

  1. 现有LLM后门攻击方法选择的触发token在常见上下文中出现频率低,导致蒸馏后的学生模型难以继承后门。
  2. T-MTB通过构建复合触发器,利用在蒸馏数据集中频繁单独出现的token组合,实现后门在蒸馏过程中的有效转移。
  3. 实验证明,T-MTB在越狱和内容调制两种攻击场景下,成功实现了跨多个LLM模型家族的后门转移,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)常被下游用户用作知识蒸馏的教师模型,以将其能力压缩到内存效率更高的模型中。然而,由于这些教师模型可能来自不受信任的来源,蒸馏可能会带来意想不到的安全风险。本文研究了从带有后门的教师模型进行知识蒸馏的安全影响。首先,我们发现先前的后门攻击大多无法转移到学生模型上。我们的关键见解是,这是因为现有的LLM后门方法选择的触发token很少出现在通常的上下文中。我们认为这低估了知识蒸馏的安全风险,并提出了一种新的后门技术T-MTB,它能够构建和研究可转移的后门。T-MTB仔细地构建了一个复合后门触发器,由几个特定的token组成,这些token通常在预期的蒸馏数据集中单独出现。因此,被污染的教师模型保持隐蔽,同时在蒸馏过程中,这些token的单独存在为后门转移到学生模型上提供了足够的信号。使用T-MTB,我们展示并广泛研究了跨越两种攻击场景(越狱和内容调制)和四种LLM模型家族的可转移后门的安全风险。

🔬 方法详解

问题定义:论文旨在解决知识蒸馏场景下,现有后门攻击方法难以将后门从教师模型有效转移到学生模型的问题。现有方法的痛点在于,它们使用的触发token在正常文本中出现频率较低,导致学生模型在蒸馏过程中难以学习到这些触发器与后门行为之间的关联。

核心思路:论文的核心思路是设计一种新的后门触发器,该触发器由多个在蒸馏数据集中频繁单独出现的token组成。这样,即使教师模型看起来正常,学生模型在蒸馏过程中也会频繁遇到这些token,从而更容易学习到后门行为。

技术框架:T-MTB方法主要包含以下几个阶段: 1. 触发器选择:选择一组在目标蒸馏数据集中频繁出现的token。 2. 后门注入:将选定的token组合成复合触发器,并将其插入到训练数据中,同时将这些触发器与特定的后门行为关联起来。 3. 教师模型训练:使用被污染的数据训练教师模型。 4. 知识蒸馏:使用教师模型指导学生模型的训练。 5. 后门评估:评估学生模型是否成功继承了后门行为。

关键创新:T-MTB的关键创新在于其复合触发器的设计。与现有方法使用罕见token作为触发器不同,T-MTB使用常见token的组合,使得后门更难被检测,并且更容易在蒸馏过程中转移到学生模型。

关键设计:T-MTB的关键设计包括: 1. token选择策略:需要仔细选择token,确保它们在蒸馏数据集中频繁出现,但同时它们的组合在正常文本中又相对罕见。 2. 后门注入比例:需要控制后门数据在整个训练数据集中的比例,以平衡后门攻击的成功率和模型的正常性能。 3. 蒸馏损失函数:可以使用标准的知识蒸馏损失函数,例如KL散度或均方误差,来指导学生模型的训练。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,T-MTB方法在越狱和内容调制两种攻击场景下,成功地将后门从教师模型转移到了学生模型。与现有的后门攻击方法相比,T-MTB在蒸馏场景下具有更高的攻击成功率和更强的隐蔽性。例如,在某些实验中,T-MTB能够将后门攻击成功率提高到80%以上,而现有方法的攻击成功率通常低于20%。

🎯 应用场景

该研究成果可应用于评估和增强大型语言模型在知识蒸馏场景下的安全性。通过T-MTB方法,可以更好地理解和防范潜在的后门攻击风险,从而提高LLM在实际应用中的可靠性和安全性。此外,该研究也为开发更安全的蒸馏训练方法提供了新的思路。

📄 摘要(原文)

LLMs are often used by downstream users as teacher models for knowledge distillation, compressing their capabilities into memory-efficient models. However, as these teacher models may stem from untrusted parties, distillation can raise unexpected security risks. In this paper, we investigate the security implications of knowledge distillation from backdoored teacher models. First, we show that prior backdoors mostly do not transfer onto student models. Our key insight is that this is because existing LLM backdooring methods choose trigger tokens that rarely occur in usual contexts. We argue that this underestimates the security risks of knowledge distillation and introduce a new backdooring technique, T-MTB, that enables the construction and study of transferable backdoors. T-MTB carefully constructs a composite backdoor trigger, made up of several specific tokens that often occur individually in anticipated distillation datasets. As such, the poisoned teacher remains stealthy, while during distillation the individual presence of these tokens provides enough signal for the backdoor to transfer onto the student. Using T-MTB, we demonstrate and extensively study the security risks of transferable backdoors across two attack scenarios, jailbreaking and content modulation, and across four model families of LLMs.