Jailbreak Instruction-Tuned LLMs via end-of-sentence MLP Re-weighting

📄 arXiv: 2410.10150v1 📥 PDF

作者: Yifan Luo, Zhennan Zhou, Meitan Wang, Bin Dong

分类: cs.CL, cs.AI

发布日期: 2024-10-14


💡 一句话要点

提出基于末句MLP重加权的白盒攻击方法,破解指令微调LLM的安全机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令微调 安全机制 白盒攻击 MLP重加权

📋 核心要点

  1. 指令微调的LLM在安全性方面存在漏洞,尤其是在处理末句推理时,模型对提示有害性的评估机制有待深入研究。
  2. 通过重新加权末句推理中MLP层的神经元,可以有效绕过LLM的安全机制,实现对模型的白盒攻击。
  3. 论文提出了两种白盒攻击方法,并在多个开源LLM上验证了其有效性,揭示了LLM安全机制的脆弱性。

📝 摘要(中文)

本文研究了指令微调大型语言模型(LLM)的安全机制。研究发现,重新加权MLP神经元会显著削弱模型的安全性,尤其是在末句推理中的MLP。我们假设LLM在末句推理过程中评估提示的有害性,而MLP层在此过程中起着关键作用。基于此假设,我们开发了两种新颖的白盒越狱方法:一种是提示特定的方法,另一种是提示通用的方法。提示特定的方法针对单个提示并动态优化攻击,而提示通用的方法是离线预训练的,可以推广到未见过的有害提示。我们的方法在7个流行的开源LLM(规模从2B到72B)上表现出强大的性能。此外,我们的研究深入了解了指令微调LLM安全性的漏洞,并加深了对LLM内部机制的理解。

🔬 方法详解

问题定义:指令微调的LLM虽然在安全性方面进行了强化,但仍然存在被恶意提示攻击的风险。现有方法通常依赖于黑盒攻击,难以深入理解LLM的安全机制。因此,需要研究一种白盒攻击方法,能够有效绕过LLM的安全防御,并揭示其内部的安全漏洞。

核心思路:论文的核心思路是,LLM在生成文本时,会在末句推理阶段评估提示的有害性,而MLP层在这一过程中扮演着关键角色。通过操纵MLP层的神经元权重,可以改变LLM对提示的判断,从而绕过安全机制,实现越狱攻击。

技术框架:该方法主要分为两个阶段:(1) 确定目标LLM的MLP层,特别是末句推理阶段的MLP层;(2) 通过优化算法,调整MLP层的神经元权重,使得LLM对有害提示的判断发生改变。具体来说,论文提出了两种攻击方法:提示特定攻击和提示通用攻击。提示特定攻击针对单个提示进行优化,而提示通用攻击则通过预训练,使其能够泛化到未见过的有害提示。

关键创新:该方法最重要的创新点在于,它揭示了MLP层在LLM安全机制中的关键作用,并提出了一种基于MLP重加权的白盒攻击方法。与传统的黑盒攻击方法相比,该方法能够更深入地理解LLM的安全漏洞,并提供更有效的攻击手段。此外,提示通用攻击的预训练机制,使其能够泛化到未见过的有害提示,提高了攻击的实用性。

关键设计:在提示特定攻击中,使用梯度下降等优化算法,直接优化MLP层的权重,目标是使得LLM生成有害内容。在提示通用攻击中,首先构建一个包含大量有害提示的数据集,然后使用这些数据训练一个MLP重加权模型,使其能够泛化到未见过的有害提示。损失函数的设计需要考虑攻击的成功率和生成文本的流畅性。具体的网络结构取决于目标LLM的架构,但通常需要关注末句推理阶段的MLP层。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在7个流行的开源LLM(规模从2B到72B)上表现出强大的越狱性能。提示特定攻击能够有效绕过LLM的安全机制,而提示通用攻击则能够泛化到未见过的有害提示,证明了该方法的有效性和实用性。具体性能数据未在摘要中给出,需要参考原文。

🎯 应用场景

该研究成果可应用于评估和提升LLM的安全性。通过白盒攻击,可以发现LLM安全机制的薄弱环节,并针对性地进行改进。此外,该研究还可以用于开发更强大的安全防御机制,防止LLM被恶意利用,从而确保LLM的健康发展。

📄 摘要(原文)

In this paper, we investigate the safety mechanisms of instruction fine-tuned large language models (LLMs). We discover that re-weighting MLP neurons can significantly compromise a model's safety, especially for MLPs in end-of-sentence inferences. We hypothesize that LLMs evaluate the harmfulness of prompts during end-of-sentence inferences, and MLP layers plays a critical role in this process. Based on this hypothesis, we develop 2 novel white-box jailbreak methods: a prompt-specific method and a prompt-general method. The prompt-specific method targets individual prompts and optimizes the attack on the fly, while the prompt-general method is pre-trained offline and can generalize to unseen harmful prompts. Our methods demonstrate robust performance across 7 popular open-source LLMs, size ranging from 2B to 72B. Furthermore, our study provides insights into vulnerabilities of instruction-tuned LLM's safety and deepens the understanding of the internal mechanisms of LLMs.