Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing

📄 arXiv: 2405.18166v2 📥 PDF

作者: Wei Zhao, Zhe Li, Yige Li, Ye Zhang, Jun Sun

分类: cs.AI

发布日期: 2024-05-28 (更新: 2024-06-14)

🔗 代码/项目: GITHUB


💡 一句话要点

提出层特定编辑(LED)方法,增强大语言模型抵御越狱攻击的能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 对抗防御 层特定编辑 安全层

📋 核心要点

  1. 现有防御方法在抵御大语言模型越狱攻击方面存在不足,主要集中于检测有害提示或降低有害响应,缺乏对LLM内部机制的深入探索。
  2. 论文提出层特定编辑(LED)方法,通过识别并重新对齐LLM中的关键安全层,使其与安全响应对齐,从而增强模型对越狱攻击的抵抗力。
  3. 实验结果表明,LED方法在多种LLM上有效防御越狱攻击,同时保持了模型在正常提示下的性能,验证了该方法的有效性。

📝 摘要(中文)

大语言模型(LLM)正被广泛应用于实际场景。尽管性能卓越,但研究表明,即使经过人类反馈强化学习或监督微调对齐,LLM 仍然容易受到精心设计的对抗性提示攻击。现有防御方法主要集中于检测有害提示或降低有害响应的可能性,而基于 LLM 内部机制防御越狱攻击的研究仍不充分。本文研究了 LLM 如何响应有害提示,并提出一种名为层特定编辑(LED)的新型防御方法,以增强 LLM 抵御越狱攻击的能力。LED 揭示了 LLM 早期层中存在若干关键的“安全层”。通过将这些安全层(以及一些选定的附加层)与来自选定目标层的解码安全响应对齐,可以显著提高 LLM 抵御越狱攻击的对齐效果。在各种 LLM(如 Llama2、Mistral)上的大量实验表明,LED 能够有效防御越狱攻击,同时保持良性提示上的性能。

🔬 方法详解

问题定义:当前的大语言模型容易受到越狱攻击,即通过精心设计的对抗性提示诱导模型产生有害或不期望的输出。现有的防御方法主要集中在输入检测或输出过滤,缺乏对模型内部机制的深入理解和利用,难以有效且高效地防御此类攻击。

核心思路:论文的核心思路是识别并利用大语言模型内部的“安全层”。作者发现,LLM的早期层中存在一些关键层,这些层对模型的安全性起着重要作用。通过编辑这些安全层,使其与安全响应对齐,可以有效地阻止有害提示的传播,从而防御越狱攻击。

技术框架:LED方法主要包含以下几个阶段:1) 安全层识别:通过实验分析,确定LLM中对安全性至关重要的层。2) 目标层选择:选择用于提供安全响应的目标层。3) 层编辑:将安全层(以及一些选定的附加层)的状态与来自目标层的安全响应进行对齐。这个对齐过程可以通过多种方式实现,例如,通过最小化两个层之间的表示差异。

关键创新:LED方法的关键创新在于其对LLM内部机制的深入理解和利用。与以往的黑盒防御方法不同,LED通过识别和编辑LLM中的关键安全层,直接干预模型的内部状态,从而更有效地防御越狱攻击。这种方法不仅提高了防御效果,还具有更高的效率和可解释性。

关键设计:论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节,但强调了安全层识别的重要性。选择合适的目标层也很关键,目标层应该能够提供清晰且安全的响应。层编辑的具体实现方式可以根据不同的LLM和攻击类型进行调整。一种可能的实现方式是使用对抗训练,即通过生成对抗样本来训练安全层,使其对有害提示更加鲁棒。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LED方法在Llama2和Mistral等多种LLM上表现出良好的防御效果,能够有效抵御各种越狱攻击。在保持模型在良性提示上的性能的同时,显著降低了模型生成有害响应的可能性。具体的性能数据和对比基线在论文中给出,证明了LED方法相对于现有防御方法的优越性。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的大语言模型的场景,例如智能客服、内容生成、教育辅导等。通过提高LLM抵御越狱攻击的能力,可以有效防止模型产生有害、不当或误导性内容,保障用户安全和应用的可信度。未来,该方法可以进一步扩展到其他类型的对抗性攻击防御,并与其他防御技术相结合,构建更强大的LLM安全体系。

📄 摘要(原文)

Large language models (LLMs) are increasingly being adopted in a wide range of real-world applications. Despite their impressive performance, recent studies have shown that LLMs are vulnerable to deliberately crafted adversarial prompts even when aligned via Reinforcement Learning from Human Feedback or supervised fine-tuning. While existing defense methods focus on either detecting harmful prompts or reducing the likelihood of harmful responses through various means, defending LLMs against jailbreak attacks based on the inner mechanisms of LLMs remains largely unexplored. In this work, we investigate how LLMs response to harmful prompts and propose a novel defense method termed \textbf{L}ayer-specific \textbf{Ed}iting (LED) to enhance the resilience of LLMs against jailbreak attacks. Through LED, we reveal that several critical \textit{safety layers} exist among the early layers of LLMs. We then show that realigning these safety layers (and some selected additional layers) with the decoded safe response from selected target layers can significantly improve the alignment of LLMs against jailbreak attacks. Extensive experiments across various LLMs (e.g., Llama2, Mistral) show the effectiveness of LED, which effectively defends against jailbreak attacks while maintaining performance on benign prompts. Our code is available at \url{https://github.com/ledllm/ledllm}.