When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations

📄 arXiv: 2411.12701v3 📥 PDF

作者: Huaizhi Ge, Yiming Li, Qifan Wang, Yongfeng Zhang, Ruixiang Tang

分类: cs.CR, cs.AI

发布日期: 2024-11-19 (更新: 2025-02-16)


💡 一句话要点

通过模型生成解释理解LLM后门攻击,揭示后门触发机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 后门攻击 可解释性 自然语言解释 注意力机制

📋 核心要点

  1. 现有方法难以深入理解LLM后门攻击的内在机制,缺乏有效的检测手段。
  2. 利用LLM生成解释的能力,对比分析干净样本和中毒样本的解释差异,从而理解后门触发的原理。
  3. 实验表明,后门模型对中毒样本生成不连贯的解释,且注意力机制发生显著变化,为后门检测提供新思路。

📝 摘要(中文)

大型语言模型(LLM)容易受到后门攻击,中毒样本中嵌入的触发器会恶意改变LLM的行为。本文超越了攻击LLM的范畴,而是通过自然语言解释这一新颖视角来研究后门攻击。具体来说,我们利用LLM的生成能力,为其决策生成人类可读的解释,从而可以直接比较干净样本和中毒样本的解释。结果表明,植入后门的模型为干净输入生成连贯的解释,但为中毒数据生成多样且逻辑上有缺陷的解释,这种模式在不同后门攻击的分类和生成任务中是一致的。进一步的分析揭示了解释生成过程的关键见解。在token层面,与中毒样本相关的解释token仅出现在最后几个transformer层中。在句子层面,注意力动态表明,中毒输入在解释生成过程中将注意力从原始输入上下文转移开。这些发现增强了我们对LLM中后门机制的理解,并提出了一个通过可解释性检测漏洞的有前景的框架。

🔬 方法详解

问题定义:现有方法难以有效理解和检测LLM中的后门攻击。攻击者可以通过在训练数据中注入带有特定触发器的中毒样本,使得LLM在遇到这些触发器时产生恶意行为。现有的检测方法往往依赖于对模型输出的直接分析,缺乏对模型内部决策过程的深入理解,难以有效识别和防御复杂的后门攻击。

核心思路:本文的核心思路是通过分析LLM为自身决策生成的自然语言解释,来理解后门攻击的内在机制。通过比较干净样本和中毒样本的解释,可以揭示后门触发器如何影响模型的推理过程,从而为后门检测提供新的视角。这种方法利用了LLM本身的可解释性,无需额外的外部工具或模型。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择或构建具有代表性的LLM模型;2) 实施不同的后门攻击策略,生成中毒模型;3) 使用干净样本和中毒样本作为输入,要求LLM生成对自身决策的解释;4) 对比分析干净样本和中毒样本的解释,从token层面和句子层面分析差异;5) 利用注意力机制分析中毒输入如何影响模型的注意力分布。

关键创新:该研究的关键创新在于利用LLM自身生成解释的能力来分析后门攻击。与传统的黑盒攻击和防御方法不同,该方法试图打开LLM的“黑盒子”,深入理解后门触发的内在机制。通过分析解释的连贯性、逻辑性和注意力分布,可以更有效地识别和防御后门攻击。

关键设计:在token层面,研究关注解释token在transformer层中的分布,特别是中毒样本相关的token是否集中在某些层。在句子层面,研究分析解释语句的连贯性和逻辑性,以及注意力机制如何受到中毒输入的影响。具体而言,通过计算注意力权重,可以观察中毒输入是否导致注意力从原始输入上下文转移到其他无关区域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,后门模型对干净输入生成连贯的解释,而对中毒输入生成多样且逻辑上有缺陷的解释。在token层面,与中毒样本相关的解释token仅出现在最后几个transformer层中。在句子层面,注意力动态表明,中毒输入在解释生成过程中将注意力从原始输入上下文转移开。这些发现为后门检测提供了新的线索。

🎯 应用场景

该研究成果可应用于提升LLM的安全性,例如开发新型后门检测工具,增强LLM的鲁棒性。此外,该方法也可用于分析其他类型的模型漏洞,例如对抗性攻击。通过理解模型决策过程中的薄弱环节,可以更好地设计防御策略,提高AI系统的可靠性。

📄 摘要(原文)

Large Language Models (LLMs) are known to be vulnerable to backdoor attacks, where triggers embedded in poisoned samples can maliciously alter LLMs' behaviors. In this paper, we move beyond attacking LLMs and instead examine backdoor attacks through the novel lens of natural language explanations. Specifically, we leverage LLMs' generative capabilities to produce human-readable explanations for their decisions, enabling direct comparisons between explanations for clean and poisoned samples. Our results show that backdoored models produce coherent explanations for clean inputs but diverse and logically flawed explanations for poisoned data, a pattern consistent across classification and generation tasks for different backdoor attacks. Further analysis reveals key insights into the explanation generation process. At the token level, explanation tokens associated with poisoned samples only appear in the final few transformer layers. At the sentence level, attention dynamics indicate that poisoned inputs shift attention away from the original input context during explanation generation. These findings enhance our understanding of backdoor mechanisms in LLMs and present a promising framework for detecting vulnerabilities through explainability.