Forgetting to Forget: Attention Sink as A Gateway for Backdooring LLM Unlearning

📄 arXiv: 2510.17021v1 📥 PDF

作者: Bingqi Shang, Yiwei Chen, Yihua Zhang, Bingquan Shen, Sijia Liu

分类: cs.LG, cs.CL

发布日期: 2025-10-19

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于注意力汇聚的后门LLM卸载方法,实现可控的知识遗忘与恢复。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM卸载 后门攻击 注意力机制 注意力汇聚

📋 核心要点

  1. 现有LLM卸载方法缺乏对后门攻击的防御,可能在特定触发条件下恢复已卸载的知识。
  2. 利用LLM的注意力汇聚现象,将触发器放置在注意力汇聚位置,增强后门攻击的持久性。
  3. 实验表明,该方法在存在后门触发器时能有效恢复遗忘知识,且在无触发器时与正常卸载模型无异。

📝 摘要(中文)

大型语言模型(LLM)卸载已成为从预训练模型中移除不需要的数据、知识或行为的关键机制,同时保留其通用性。然而,随着开放权重LLM的兴起,我们提出疑问:卸载过程本身是否可能被植入后门?在正常条件下看似成功,但在激活隐藏触发器时会恢复到卸载前的行为?受经典后门攻击的启发,这些攻击将触发器嵌入到训练数据中以强制执行特定行为,我们研究了后门卸载,即模型在干净设置中按预期遗忘,但在出现触发器时恢复遗忘的知识。我们表明,设计此类攻击提出了独特的挑战,这取决于触发器的放置位置以及如何加强后门训练。我们发现后门有效性与注意力汇聚现象之间存在很强的联系,即浅层输入token始终在LLM中吸引不成比例的注意力。我们的分析表明,这些注意力汇聚充当了后门卸载的网关:将触发器放置在汇聚位置并对齐它们的注意力值可以显着提高后门持久性。广泛的实验验证了这些发现,表明在注意力汇聚引导下的后门卸载可以在存在后门触发器的情况下可靠地恢复遗忘的知识,而在没有触发器的情况下,其行为与正常卸载的模型没有区别。

🔬 方法详解

问题定义:论文旨在解决LLM卸载过程中的后门攻击问题。现有的卸载方法主要关注如何有效移除模型中的特定知识或行为,但忽略了卸载过程本身可能被恶意利用,即攻击者可以在卸载过程中植入后门,使得模型在特定触发条件下恢复已卸载的知识。这种攻击方式的痛点在于,如何在保证模型正常卸载功能的同时,又能隐蔽地植入后门,并在需要时激活。

核心思路:论文的核心思路是利用LLM中的注意力汇聚(Attention Sink)现象,将触发器放置在注意力汇聚的位置。注意力汇聚指的是LLM中某些浅层输入token会持续吸引不成比例的注意力,这些位置对于后门攻击来说具有天然的优势,因为它们更容易影响模型的输出。通过将触发器放置在这些位置,并对齐触发器的注意力值,可以增强后门攻击的持久性。

技术框架:该方法主要包含两个阶段:后门卸载训练阶段和后门触发阶段。在后门卸载训练阶段,首先确定LLM中的注意力汇聚位置,然后将触发器放置在这些位置,并使用包含触发器的样本进行卸载训练。训练的目标是使模型在没有触发器的情况下表现出正常的卸载效果,而在存在触发器的情况下恢复已卸载的知识。在后门触发阶段,当输入包含触发器时,模型会恢复已卸载的知识,从而实现后门攻击。

关键创新:该方法最重要的技术创新点在于发现了注意力汇聚现象与后门卸载之间的联系,并利用注意力汇聚作为后门攻击的“网关”。与传统的后门攻击方法相比,该方法不需要修改模型的结构或参数,而是通过巧妙地选择触发器的位置和调整其注意力值来实现后门攻击,因此更加隐蔽和有效。

关键设计:关键设计包括:1)确定注意力汇聚位置的方法,例如通过分析模型在不同输入下的注意力权重分布来确定;2)触发器的选择和嵌入方式,需要保证触发器在不影响模型正常功能的前提下,能够有效地激活后门;3)后门卸载训练的损失函数,需要平衡模型在有无触发器情况下的性能,保证模型在正常情况下表现出卸载效果,而在触发器存在时恢复已卸载的知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于注意力汇聚的后门卸载方法能够有效地恢复已卸载的知识,同时在没有触发器的情况下,模型的行为与正常卸载的模型没有明显区别。具体来说,在特定任务上,该方法可以在触发器存在的情况下将模型的性能恢复到卸载前的水平,而在没有触发器的情况下,模型的性能仍然保持在卸载后的水平。

🎯 应用场景

该研究成果可应用于评估和增强大型语言模型卸载过程的安全性。通过识别和防御后门攻击,可以确保LLM在移除敏感信息或有害行为后,不会在特定条件下泄露或恢复这些信息,从而提高LLM在安全敏感领域的应用可靠性,例如金融、医疗和法律等。

📄 摘要(原文)

Large language model (LLM) unlearning has become a critical mechanism for removing undesired data, knowledge, or behaviors from pre-trained models while retaining their general utility. Yet, with the rise of open-weight LLMs, we ask: can the unlearning process itself be backdoored, appearing successful under normal conditions yet reverting to pre-unlearned behavior when a hidden trigger is activated? Drawing inspiration from classical backdoor attacks that embed triggers into training data to enforce specific behaviors, we investigate backdoor unlearning, where models forget as intended in the clean setting but recover forgotten knowledge when the trigger appears. We show that designing such attacks presents unique challenges, hinging on where triggers are placed and how backdoor training is reinforced. We uncover a strong link between backdoor efficacy and the attention sink phenomenon, i.e., shallow input tokens consistently attract disproportionate attention in LLMs. Our analysis reveals that these attention sinks serve as gateways for backdoor unlearning: placing triggers at sink positions and aligning their attention values markedly enhances backdoor persistence. Extensive experiments validate these findings, showing that attention-sink-guided backdoor unlearning reliably restores forgotten knowledge in the presence of backdoor triggers, while behaving indistinguishably from a normally unlearned model when triggers are absent. Code is available at https://github.com/OPTML-Group/Unlearn-Backdoor.