CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization
作者: Nay Myat Min, Long H. Pham, Yige Li, Jun Sun
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-11-18 (更新: 2025-06-11)
备注: Accepted at ICML 2025, 20 pages
💡 一句话要点
CROW:通过内部一致性正则化消除大型语言模型中的后门
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 后门攻击 内部一致性正则化 对抗扰动 模型安全
📋 核心要点
- 现有后门防御方法主要针对分类任务设计,在文本生成任务中表现不佳,无法有效防御针对LLM的后门攻击。
- CROW的核心思想是利用后门模型在触发时层间隐藏表示不稳定的特性,通过正则化强制层间表示的一致性。
- 实验结果表明,CROW能有效降低多种后门攻击的成功率,同时保持LLM的生成性能,且无需干净参考模型或触发器知识。
📝 摘要(中文)
大型语言模型(LLMs)容易受到后门攻击,这些攻击通过隐藏的触发器操纵输出。现有的防御方法——专为视觉/文本分类任务设计——在文本生成方面失效。我们提出了一种内部一致性正则化(CROW)防御方法,该方法利用了后门模型在被触发时表现出不稳定的层间隐藏表示,而干净模型则表现出平滑过渡的观察结果。CROW通过对抗扰动和微调期间的正则化来强制跨层一致性,从而消除后门,而无需干净的参考模型或触发器知识——只需要一个小的干净数据集。在Llama-2(7B、13B)、CodeLlama(7B、13B)和Mistral-7B上的实验表明了CROW的有效性:它在各种后门策略(情感引导、有针对性的拒绝、代码注入)中实现了攻击成功率的显著降低,同时保持了生成性能。CROW的架构无关设计使其能够进行实际部署。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中存在的后门攻击问题。现有的后门防御方法主要针对图像分类或文本分类任务设计,无法有效应对LLM的文本生成特性,例如,无法处理复杂的语义和上下文依赖关系,导致防御效果不佳。此外,现有方法通常需要干净的参考模型或关于触发器的先验知识,这在实际应用中往往难以获得。
核心思路:CROW的核心思路是利用后门模型在受到触发时,其内部层间的隐藏表示会表现出不一致性,而干净模型则表现出平滑的过渡。这种不一致性源于后门触发器对模型内部状态的扰动。因此,通过强制模型在不同层之间的隐藏表示保持一致性,可以有效地消除后门的影响。
技术框架:CROW的整体框架是在微调阶段对模型进行正则化。具体来说,首先,对输入文本进行对抗扰动,生成对抗样本。然后,将原始样本和对抗样本输入到LLM中,提取不同层的隐藏表示。接着,计算原始样本和对抗样本在不同层之间的隐藏表示的差异,并将其作为正则化项添加到损失函数中。通过最小化这个正则化项,可以强制模型在不同层之间保持一致性。
关键创新:CROW的关键创新在于提出了内部一致性正则化(Internal Consistency Regularization)的概念,并将其应用于LLM的后门防御。与现有方法相比,CROW不需要干净的参考模型或关于触发器的先验知识,只需要一个小的干净数据集即可。此外,CROW的架构无关设计使其可以应用于各种不同的LLM架构。
关键设计:CROW的关键设计包括对抗扰动的生成方式和正则化项的计算方式。对抗扰动可以通过多种方法生成,例如,使用梯度上升法或对抗训练。正则化项通常采用均方误差(MSE)或余弦相似度等度量方式来衡量不同层之间的隐藏表示的差异。此外,正则化系数是一个重要的超参数,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CROW在Llama-2(7B、13B)、CodeLlama(7B、13B)和Mistral-7B等多个LLM上均取得了显著的防御效果。在各种后门攻击策略(情感引导、有针对性的拒绝、代码注入)下,CROW能够显著降低攻击成功率,同时保持LLM的生成性能。例如,在某些情况下,CROW可以将攻击成功率降低到接近于零的水平,而对模型性能的影响很小。
🎯 应用场景
CROW具有广泛的应用前景,可以用于保护各种基于LLM的应用免受后门攻击,例如智能客服、机器翻译、代码生成等。通过部署CROW,可以提高LLM的安全性,防止恶意用户利用后门操纵模型的行为,从而保障用户的数据安全和隐私。此外,CROW还可以用于评估LLM的安全性,帮助开发者发现和修复潜在的后门漏洞。
📄 摘要(原文)
Large Language Models (LLMs) are vulnerable to backdoor attacks that manipulate outputs via hidden triggers. Existing defense methods--designed for vision/text classification tasks--fail for text generation. We propose Internal Consistency Regularization (CROW), a defense leveraging the observation that backdoored models exhibit unstable layer-wise hidden representations when triggered, while clean models show smooth transitions. CROW enforces consistency across layers via adversarial perturbations and regularization during finetuning, neutralizing backdoors without requiring clean reference models or trigger knowledge--only a small clean dataset. Experiments across Llama-2 (7B, 13B), CodeLlama (7B, 13B), and Mistral-7B demonstrate CROW's effectiveness: it achieves significant reductions in attack success rates across diverse backdoor strategies (sentiment steering, targeted refusal, code injection) while preserving generative performance. CROW's architecture-agnostic design enables practical deployment.