DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification
作者: Yu Li, Han Jiang, Zhihua Wei
分类: cs.CL
发布日期: 2025-04-18
💡 一句话要点
DETAM:通过定向注意力修改防御大型语言模型的越狱攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击防御 注意力机制 定向注意力修改 安全对齐
📋 核心要点
- 现有防御方法(微调、输入修改)在防御LLM越狱攻击时,存在泛化性差和模型效用降低的问题。
- DETAM通过分析注意力得分差异,识别敏感注意力头,并在推理时重新分配注意力,突出用户意图,减少攻击干扰。
- 实验表明DETAM在越狱防御上优于基线方法,具有良好的泛化性,且在过度防御数据集上表现出优越的性能。
📝 摘要(中文)
随着大型语言模型(LLMs)的广泛应用,越狱攻击已成为一个日益紧迫的安全问题。虽然经过安全对齐的LLMs可以有效地防御正常的有害查询,但它们仍然容易受到此类攻击。现有的防御方法主要依赖于微调或输入修改,但这些方法通常存在泛化能力有限和效用降低的问题。为了解决这个问题,我们提出了一种无需微调的防御方法DETAM,它通过定向注意力修改来提高LLMs防御越狱攻击的能力。具体来说,我们分析了成功防御和不成功防御之间的注意力得分差异,以识别对越狱攻击敏感的注意力头。在推理过程中,我们重新分配注意力以强调用户的核心意图,从而最大限度地减少来自攻击token的干扰。我们的实验结果表明,DETAM在越狱防御方面优于各种基线,并且在不同的攻击和模型中表现出强大的泛化能力,即使在野外越狱数据上也能保持其有效性。此外,在评估模型的效用时,我们加入了过度防御数据集,进一步验证了我们方法的优越性能。代码将在接收后立即发布。
🔬 方法详解
问题定义:大型语言模型容易受到越狱攻击,即通过精心设计的输入绕过模型的安全限制,使其产生有害或不当的输出。现有的防御方法,如微调或输入修改,往往难以泛化到新的攻击方式,并且可能降低模型的正常使用性能。因此,如何设计一种既能有效防御越狱攻击,又能保持模型效用的防御方法是一个关键问题。
核心思路:DETAM的核心思路是通过修改模型在推理过程中的注意力机制,来削弱攻击token的影响,同时增强模型对用户真实意图的理解。其基本假设是,越狱攻击会影响模型对输入token的注意力分配,使得模型错误地关注攻击相关的token,从而导致不安全的输出。通过调整注意力权重,可以使模型更加关注与用户意图相关的token,从而提高防御能力。
技术框架:DETAM的整体框架包括以下几个步骤:1) 分析成功防御和失败防御的样本,识别对越狱攻击敏感的注意力头;2) 在推理过程中,对于每个输入token,计算其与其他token的注意力得分;3) 根据预先识别的敏感注意力头,调整注意力得分,使得模型更加关注与用户意图相关的token;4) 使用调整后的注意力得分进行后续的推理计算,生成最终的输出。该方法无需对模型进行微调,可以在推理阶段直接应用。
关键创新:DETAM的关键创新在于其定向注意力修改策略。与传统的注意力机制不同,DETAM不是简单地学习注意力权重,而是有针对性地调整注意力权重,以削弱攻击token的影响,并增强模型对用户意图的理解。这种定向修改策略使得DETAM能够更有效地防御越狱攻击,同时保持模型的正常使用性能。此外,DETAM无需微调,降低了部署成本。
关键设计:DETAM的关键设计包括:1) 如何识别对越狱攻击敏感的注意力头:通过比较成功防御和失败防御的样本,计算每个注意力头在两种情况下的注意力得分差异,选择差异最大的注意力头作为敏感注意力头;2) 如何调整注意力得分:对于每个敏感注意力头,根据其注意力得分,计算一个调整因子,然后将该调整因子应用于注意力得分,以削弱攻击token的影响,并增强与用户意图相关的token的影响。具体的调整函数和参数需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
DETAM在越狱防御方面取得了显著的成果,优于多种基线方法。实验结果表明,DETAM在不同的攻击和模型上都表现出强大的泛化能力,即使在野外越狱数据上也能保持其有效性。此外,在评估模型的效用时,加入了过度防御数据集,进一步验证了DETAM的优越性能。具体性能数据在论文中给出,表明DETAM在防御能力和模型效用之间取得了良好的平衡。
🎯 应用场景
DETAM可应用于各种需要防御LLM越狱攻击的场景,例如智能客服、内容生成、代码生成等。该方法能够有效提高LLM的安全性,防止其被用于生成有害或不当的内容。此外,DETAM无需微调,易于部署,可以快速应用于现有的LLM系统中。未来,该方法可以进一步扩展到防御其他类型的攻击,例如对抗样本攻击。
📄 摘要(原文)
With the widespread adoption of Large Language Models (LLMs), jailbreak attacks have become an increasingly pressing safety concern. While safety-aligned LLMs can effectively defend against normal harmful queries, they remain vulnerable to such attacks. Existing defense methods primarily rely on fine-tuning or input modification, which often suffer from limited generalization and reduced utility. To address this, we introduce DETAM, a finetuning-free defense approach that improves the defensive capabilities against jailbreak attacks of LLMs via targeted attention modification. Specifically, we analyze the differences in attention scores between successful and unsuccessful defenses to identify the attention heads sensitive to jailbreak attacks. During inference, we reallocate attention to emphasize the user's core intention, minimizing interference from attack tokens. Our experimental results demonstrate that DETAM outperforms various baselines in jailbreak defense and exhibits robust generalization across different attacks and models, maintaining its effectiveness even on in-the-wild jailbreak data. Furthermore, in evaluating the model's utility, we incorporated over-defense datasets, which further validate the superior performance of our approach. The code will be released immediately upon acceptance.