Multi-Trigger Poisoning Amplifies Backdoor Vulnerabilities in LLMs

📄 arXiv: 2507.11112v2 📥 PDF

作者: Sanhanat Sivapiromrat, Caiqi Zhang, Marco Basaldella, Nigel Collier

分类: cs.CL, cs.CR, cs.LG

发布日期: 2025-07-15 (更新: 2025-10-09)


💡 一句话要点

多触发器投毒攻击放大LLM后门漏洞,提出选择性重训练防御方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据投毒攻击 后门漏洞 多触发器 选择性重训练 模型安全 对抗攻击

📋 核心要点

  1. 现有LLM投毒研究主要关注单一触发短语,缺乏对触发机制和多触发器交互的深入理解。
  2. 本文提出一个LLM投毒研究框架,证明多个互不干扰的后门触发器可共存于同一模型。
  3. 实验表明,即使token被替换或分隔,多触发器仍能有效激活,并提出选择性重训练防御方法。

📝 摘要(中文)

最近的研究表明,大型语言模型(LLMs)容易受到数据投毒攻击的影响,恶意训练样本会将隐藏行为嵌入模型,这些行为由特定的输入模式触发。然而,大多数现有工作都假定使用单个触发短语,并且侧重于攻击的有效性,对触发机制以及多个触发器在模型中如何相互作用的理解有限。在本文中,我们提出了一个研究LLM中毒的框架。我们表明,多个不同的后门触发器可以共存于单个模型中,而不会相互干扰,从而使攻击者能够同时嵌入多个触发器。通过使用具有高嵌入相似性的多个触发器,我们证明了即使token被替换或被长的token跨度分隔,中毒的触发器也可以实现强大的激活。我们的发现揭示了LLM中更广泛和更持久的漏洞面。为了减轻这种威胁,我们提出了一种事后恢复方法,该方法基于逐层权重差异分析选择性地重新训练特定的模型组件。我们的方法有效地消除了触发行为,同时最大限度地减少了参数更新,从而提供了一种实用且高效的防御多触发器投毒的方法。

🔬 方法详解

问题定义:该论文旨在解决大型语言模型(LLMs)中多触发器投毒攻击带来的安全问题。现有研究主要关注单一触发器,忽略了多个触发器共存和相互作用的情况,以及由此产生的更广泛的攻击面。此外,现有防御方法通常需要大量的参数更新,效率较低。

核心思路:论文的核心思路是研究多个触发器如何同时嵌入到LLM中,以及它们如何相互作用以触发后门行为。通过分析触发器的嵌入相似性,可以设计更鲁棒的攻击。针对防御,论文提出一种选择性重训练方法,仅更新模型中受影响的特定组件,从而提高防御效率。

技术框架:该研究框架包含以下几个主要阶段:1) 多触发器生成:设计多个不同的触发短语,并控制它们的嵌入相似性。2) 模型投毒:使用包含触发短语的恶意数据对LLM进行训练,嵌入后门行为。3) 触发器激活测试:评估不同触发器在各种输入条件下的激活效果,包括token替换和分隔。4) 防御方法:提出基于层级权重差异分析的选择性重训练方法,以消除后门行为。

关键创新:该论文的关键创新在于:1) 首次系统地研究了LLM中多触发器投毒攻击的有效性,揭示了更广泛的漏洞面。2) 提出了一种基于嵌入相似性的触发器设计方法,可以提高攻击的鲁棒性。3) 提出了一种选择性重训练防御方法,通过仅更新模型中受影响的特定组件,显著提高了防御效率。

关键设计:在触发器设计方面,论文控制了多个触发短语的嵌入相似性,以研究相似性对攻击效果的影响。在防御方面,论文使用层级权重差异分析来确定模型中受影响的层,并仅对这些层进行重训练。重训练的目标是最小化后门行为的激活,同时保持模型在正常任务上的性能。具体的损失函数和网络结构细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,多个触发器可以共存于LLM中,并且即使在token被替换或分隔的情况下,仍然可以有效激活。提出的选择性重训练方法能够以最小的参数更新有效地消除后门行为,显著提高了防御效率,为LLM的安全性提供了有力的保障。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,尤其是在模型微调和持续学习场景中。通过理解和防御多触发器投毒攻击,可以有效防止恶意行为嵌入到LLM中,保障LLM在各种应用场景下的可靠性和安全性,例如智能客服、文本生成和机器翻译等。

📄 摘要(原文)

Recent studies have shown that Large Language Models (LLMs) are vulnerable to data poisoning attacks, where malicious training examples embed hidden behaviours triggered by specific input patterns. However, most existing works assume a phrase and focus on the attack's effectiveness, offering limited understanding of trigger mechanisms and how multiple triggers interact within the model. In this paper, we present a framework for studying poisoning in LLMs. We show that multiple distinct backdoor triggers can coexist within a single model without interfering with each other, enabling adversaries to embed several triggers concurrently. Using multiple triggers with high embedding similarity, we demonstrate that poisoned triggers can achieve robust activation even when tokens are substituted or separated by long token spans. Our findings expose a broader and more persistent vulnerability surface in LLMs. To mitigate this threat, we propose a post hoc recovery method that selectively retrains specific model components based on a layer-wise weight difference analysis. Our method effectively removes the trigger behaviour with minimal parameter updates, presenting a practical and efficient defence against multi-trigger poisoning.