Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution

📄 arXiv: 2508.21004v1 📥 PDF

作者: Chen Chen, Yuchen Sun, Jiaxin Gao, Xueluan Gong, Qian Wang, Ziyao Wang, Yongsen Zheng, Kwok-Yan Lam

分类: cs.CL

发布日期: 2025-08-28


💡 一句话要点

LETHE:利用知识稀释净化后门大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后门攻击防御 大型语言模型 知识稀释 模型安全 提示工程

📋 核心要点

  1. 现有后门防御方法在触发器设置、检测机制和应用领域方面存在局限性,难以应对高级后门攻击。
  2. LETHE通过内部知识稀释(合并干净模型)和外部知识稀释(提示注入相关信息)来消除LLM中的后门行为。
  3. 实验表明,LETHE在降低攻击成功率的同时保持了模型效用,且具有成本效益和鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)取得了显著进展,在各种自然语言处理(NLP)任务中表现出色。然而,它们仍然容易受到后门攻击,即模型在标准查询下表现正常,但在特定触发器激活时会生成有害响应或意外输出。现有的后门防御要么缺乏全面性,侧重于狭窄的触发器设置、仅检测机制和有限的领域,要么无法承受基于模型编辑、多触发器和无触发器攻击等高级场景。本文提出LETHE,一种通过使用内部和外部机制进行知识稀释来消除LLM后门行为的新方法。在内部,LETHE利用轻量级数据集训练一个干净的模型,然后将其与后门模型合并,通过稀释模型参数记忆中的后门影响来中和恶意行为。在外部,LETHE将良性和语义相关的证据纳入提示中,以分散LLM对后门特征的注意力。在5个广泛使用的LLM上的分类和生成领域的实验结果表明,LETHE优于8个最先进的防御基线,可以防御8种后门攻击。LETHE将高级后门攻击的攻击成功率降低高达98%,同时保持了模型的效用。此外,LETHE已被证明具有成本效益,并且对自适应后门攻击具有鲁棒性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)中存在的后门攻击问题。现有的防御方法通常无法有效应对高级后门攻击,例如基于模型编辑的攻击、多触发器攻击以及无触发器攻击。这些攻击方式使得模型在正常输入下表现良好,但在特定触发条件下产生恶意或不期望的输出,严重威胁了LLM的安全性和可靠性。

核心思路:LETHE的核心思路是通过知识稀释来中和后门攻击的影响。具体而言,它结合了内部和外部两种机制。内部机制通过将一个干净模型的知识融入到后门模型中,从而稀释后门信息在模型参数中的占比。外部机制则通过在输入提示中加入良性和语义相关的信息,分散模型对后门触发器的注意力,从而降低后门攻击的成功率。

技术框架:LETHE的整体框架包含两个主要阶段:内部知识稀释和外部知识稀释。在内部知识稀释阶段,首先使用一个轻量级数据集训练一个干净的LLM。然后,将这个干净模型的参数与后门模型的参数进行合并,从而创建一个新的模型,该模型具有较低的后门激活概率。在外部知识稀释阶段,对于给定的输入,LETHE会在提示中加入额外的、与任务相关的良性信息,以引导模型关注正常特征,而非后门触发器。

关键创新:LETHE的关键创新在于其结合了内部和外部两种知识稀释机制,从而更全面地防御后门攻击。与仅依赖于检测或过滤触发器的传统方法不同,LETHE直接从模型内部和外部两个层面降低了后门攻击的影响。此外,LETHE的设计考虑了成本效益和鲁棒性,使其能够应对自适应攻击。

关键设计:内部知识稀释的关键在于如何有效地合并干净模型和后门模型的参数。论文中可能采用了加权平均或其他参数融合技术。外部知识稀释的关键在于如何选择合适的良性信息添加到提示中,以最大限度地分散模型对后门触发器的注意力,同时又不影响模型的正常功能。具体的损失函数和网络结构细节未知,需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LETHE在多个LLM上显著优于8个最先进的防御基线。LETHE能够将高级后门攻击的攻击成功率降低高达98%,同时保持了模型的效用。此外,LETHE还被证明具有成本效益,并且对自适应后门攻击具有鲁棒性。这些结果表明LETHE是一种有效的后门防御方法。

🎯 应用场景

LETHE可应用于各种需要使用大型语言模型的场景,例如智能客服、文本生成、机器翻译等。通过有效防御后门攻击,LETHE可以提高LLM的安全性,防止恶意用户利用后门操纵模型行为,保障用户权益和数据安全。未来,LETHE可以进一步扩展到其他类型的AI模型,并与其他安全技术相结合,构建更强大的AI安全防御体系。

📄 摘要(原文)

Large language models (LLMs) have seen significant advancements, achieving superior performance in various Natural Language Processing (NLP) tasks. However, they remain vulnerable to backdoor attacks, where models behave normally for standard queries but generate harmful responses or unintended output when specific triggers are activated. Existing backdoor defenses either lack comprehensiveness, focusing on narrow trigger settings, detection-only mechanisms, and limited domains, or fail to withstand advanced scenarios like model-editing-based, multi-trigger, and triggerless attacks. In this paper, we present LETHE, a novel method to eliminate backdoor behaviors from LLMs through knowledge dilution using both internal and external mechanisms. Internally, LETHE leverages a lightweight dataset to train a clean model, which is then merged with the backdoored model to neutralize malicious behaviors by diluting the backdoor impact within the model's parametric memory. Externally, LETHE incorporates benign and semantically relevant evidence into the prompt to distract LLM's attention from backdoor features. Experimental results on classification and generation domains across 5 widely used LLMs demonstrate that LETHE outperforms 8 state-of-the-art defense baselines against 8 backdoor attacks. LETHE reduces the attack success rate of advanced backdoor attacks by up to 98% while maintaining model utility. Furthermore, LETHE has proven to be cost-efficient and robust against adaptive backdoor attacks.