Jailbreak Instruction-Tuned LLMs via end-of-sentence MLP Re-weighting

作者: Yifan Luo, Zhennan Zhou, Meitan Wang, Bin Dong

分类: cs.CL, cs.AI

发布日期: 2024-10-14

💡 一句话要点

提出基于末句MLP重加权的白盒攻击方法，破解指令微调LLM的安全机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令微调 安全机制 白盒攻击 MLP重加权

📋 核心要点

指令微调的LLM在安全性方面存在漏洞，尤其是在处理末句推理时，模型对提示有害性的评估机制有待深入研究。
通过重新加权末句推理中MLP层的神经元，可以有效绕过LLM的安全机制，实现对模型的白盒攻击。
论文提出了两种白盒攻击方法，并在多个开源LLM上验证了其有效性，揭示了LLM安全机制的脆弱性。

📝 摘要（中文）

本文研究了指令微调大型语言模型（LLM）的安全机制。研究发现，重新加权MLP神经元会显著削弱模型的安全性，尤其是在末句推理中的MLP。我们假设LLM在末句推理过程中评估提示的有害性，而MLP层在此过程中起着关键作用。基于此假设，我们开发了两种新颖的白盒越狱方法：一种是提示特定的方法，另一种是提示通用的方法。提示特定的方法针对单个提示并动态优化攻击，而提示通用的方法是离线预训练的，可以推广到未见过的有害提示。我们的方法在7个流行的开源LLM（规模从2B到72B）上表现出强大的性能。此外，我们的研究深入了解了指令微调LLM安全性的漏洞，并加深了对LLM内部机制的理解。

🔬 方法详解

问题定义：指令微调的LLM虽然在安全性方面进行了强化，但仍然存在被恶意提示攻击的风险。现有方法通常依赖于黑盒攻击，难以深入理解LLM的安全机制。因此，需要研究一种白盒攻击方法，能够有效绕过LLM的安全防御，并揭示其内部的安全漏洞。

核心思路：论文的核心思路是，LLM在生成文本时，会在末句推理阶段评估提示的有害性，而MLP层在这一过程中扮演着关键角色。通过操纵MLP层的神经元权重，可以改变LLM对提示的判断，从而绕过安全机制，实现越狱攻击。

技术框架：该方法主要分为两个阶段：(1) 确定目标LLM的MLP层，特别是末句推理阶段的MLP层；(2) 通过优化算法，调整MLP层的神经元权重，使得LLM对有害提示的判断发生改变。具体来说，论文提出了两种攻击方法：提示特定攻击和提示通用攻击。提示特定攻击针对单个提示进行优化，而提示通用攻击则通过预训练，使其能够泛化到未见过的有害提示。

关键创新：该方法最重要的创新点在于，它揭示了MLP层在LLM安全机制中的关键作用，并提出了一种基于MLP重加权的白盒攻击方法。与传统的黑盒攻击方法相比，该方法能够更深入地理解LLM的安全漏洞，并提供更有效的攻击手段。此外，提示通用攻击的预训练机制，使其能够泛化到未见过的有害提示，提高了攻击的实用性。

关键设计：在提示特定攻击中，使用梯度下降等优化算法，直接优化MLP层的权重，目标是使得LLM生成有害内容。在提示通用攻击中，首先构建一个包含大量有害提示的数据集，然后使用这些数据训练一个MLP重加权模型，使其能够泛化到未见过的有害提示。损失函数的设计需要考虑攻击的成功率和生成文本的流畅性。具体的网络结构取决于目标LLM的架构，但通常需要关注末句推理阶段的MLP层。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在7个流行的开源LLM（规模从2B到72B）上表现出强大的越狱性能。提示特定攻击能够有效绕过LLM的安全机制，而提示通用攻击则能够泛化到未见过的有害提示，证明了该方法的有效性和实用性。具体性能数据未在摘要中给出，需要参考原文。

🎯 应用场景

该研究成果可应用于评估和提升LLM的安全性。通过白盒攻击，可以发现LLM安全机制的薄弱环节，并针对性地进行改进。此外，该研究还可以用于开发更强大的安全防御机制，防止LLM被恶意利用，从而确保LLM的健康发展。

📄 摘要（原文）

In this paper, we investigate the safety mechanisms of instruction fine-tuned large language models (LLMs). We discover that re-weighting MLP neurons can significantly compromise a model's safety, especially for MLPs in end-of-sentence inferences. We hypothesize that LLMs evaluate the harmfulness of prompts during end-of-sentence inferences, and MLP layers plays a critical role in this process. Based on this hypothesis, we develop 2 novel white-box jailbreak methods: a prompt-specific method and a prompt-general method. The prompt-specific method targets individual prompts and optimizes the attack on the fly, while the prompt-general method is pre-trained offline and can generalize to unseen harmful prompts. Our methods demonstrate robust performance across 7 popular open-source LLMs, size ranging from 2B to 72B. Furthermore, our study provides insights into vulnerabilities of instruction-tuned LLM's safety and deepens the understanding of the internal mechanisms of LLMs.

Jailbreak Instruction-Tuned LLMs via end-of-sentence MLP Re-weighting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理