EnJa: Ensemble Jailbreak on Large Language Models

📄 arXiv: 2408.03603v1 📥 PDF

作者: Jiahao Zhang, Zilong Wang, Ruofan Wang, Xingjun Ma, Yu-Gang Jiang

分类: cs.CR, cs.AI, cs.CL, cs.LG

发布日期: 2024-08-07


💡 一句话要点

提出EnJa:集成提示级和token级攻击的大语言模型越狱方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 提示工程 对抗攻击 安全对齐

📋 核心要点

  1. 大型语言模型面临越狱攻击威胁,现有对齐方法仍存在漏洞,恶意提示可绕过安全机制。
  2. 提出EnJa集成越狱方法,结合提示级和token级攻击,提升攻击强度和成功率。
  3. 实验表明,EnJa在多个对齐模型上实现了最先进的攻击成功率,且查询次数更少。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越多地部署在安全关键型应用中,它们对潜在越狱攻击的脆弱性——即能够禁用LLMs安全机制的恶意提示——引起了越来越多的研究关注。虽然已经提出了对齐方法来保护LLMs免受越狱攻击,但许多研究发现,对齐后的LLMs仍然可以通过精心设计的恶意提示进行越狱,从而产生违反策略规定的内容。现有的LLMs越狱攻击可以分为提示级方法(通过编造故事/逻辑来规避安全对齐)和token级攻击方法(利用梯度方法寻找对抗性token)。在这项工作中,我们引入了集成越狱的概念,并探索了将提示级和token级越狱集成到更强大的混合越狱攻击中的方法。具体来说,我们提出了一种新的EnJa攻击,利用提示级越狱隐藏有害指令,利用基于梯度的攻击提高攻击成功率,并通过基于模板的连接器连接这两种类型的越狱攻击。我们在多个对齐模型上评估了EnJa的有效性,结果表明,它以更少的查询次数实现了最先进的攻击成功率,并且比任何单独的越狱攻击都要强大得多。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)容易受到越狱攻击的问题。现有的越狱攻击方法,如提示级和token级攻击,各有优缺点,单独使用时效果有限,且容易被防御机制检测到。因此,如何结合两种攻击方式的优势,构建更强大的越狱攻击是亟待解决的问题。

核心思路:论文的核心思路是将提示级越狱和token级越狱相结合,构建一种集成越狱攻击(Ensemble Jailbreak)。通过提示级越狱隐藏有害指令,并利用token级越狱进一步提升攻击成功率。这种集成方法旨在克服单一攻击方式的局限性,提高攻击的隐蔽性和有效性。

技术框架:EnJa攻击框架主要包含三个模块:1) 提示级越狱模块:用于生成包含有害指令的提示,并尝试绕过LLM的安全对齐机制。2) Token级越狱模块:利用梯度方法寻找对抗性token,进一步增强提示的攻击性。3) 连接器模块:使用基于模板的连接器,将提示级越狱和token级越狱连接起来,形成完整的攻击提示。整体流程是先通过提示级越狱生成初步的恶意提示,然后利用连接器将其与token级越狱生成的对抗性token结合,最终输入到LLM中进行攻击。

关键创新:EnJa的关键创新在于提出了集成越狱的概念,并将提示级和token级越狱攻击有机结合。这种集成方法不仅利用了两种攻击方式的优势,还通过连接器模块实现了两种攻击方式的协同作用,从而显著提高了攻击的成功率和隐蔽性。与现有的单一越狱攻击方法相比,EnJa具有更强的攻击能力和更高的鲁棒性。

关键设计:EnJa的关键设计包括:1) 提示级越狱策略的选择,例如使用特定的提示模板或生成对抗性提示。2) Token级越狱的梯度计算方法,例如使用特定的损失函数来衡量攻击效果。3) 连接器模块的设计,例如选择合适的模板来连接提示级和token级越狱的结果。论文中可能还涉及一些超参数的设置,例如梯度下降的学习率、迭代次数等,这些参数的选择会影响攻击的效果。

🖼️ 关键图片

img_0

📊 实验亮点

EnJa在多个对齐模型上进行了评估,实验结果表明,EnJa能够显著提高攻击成功率,并且所需的查询次数更少。与现有的提示级和token级越狱攻击方法相比,EnJa具有更强的攻击能力。具体性能数据(例如攻击成功率的提升百分比)需要在论文中查找。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性。通过EnJa攻击,可以发现LLMs的安全漏洞,并为开发更有效的防御机制提供指导。此外,该研究还可以帮助开发者更好地理解LLMs的脆弱性,从而设计更安全可靠的AI系统。该研究对保障AI安全具有重要意义。

📄 摘要(原文)

As Large Language Models (LLMs) are increasingly being deployed in safety-critical applications, their vulnerability to potential jailbreaks -- malicious prompts that can disable the safety mechanism of LLMs -- has attracted growing research attention. While alignment methods have been proposed to protect LLMs from jailbreaks, many have found that aligned LLMs can still be jailbroken by carefully crafted malicious prompts, producing content that violates policy regulations. Existing jailbreak attacks on LLMs can be categorized into prompt-level methods which make up stories/logic to circumvent safety alignment and token-level attack methods which leverage gradient methods to find adversarial tokens. In this work, we introduce the concept of Ensemble Jailbreak and explore methods that can integrate prompt-level and token-level jailbreak into a more powerful hybrid jailbreak attack. Specifically, we propose a novel EnJa attack to hide harmful instructions using prompt-level jailbreak, boost the attack success rate using a gradient-based attack, and connect the two types of jailbreak attacks via a template-based connector. We evaluate the effectiveness of EnJa on several aligned models and show that it achieves a state-of-the-art attack success rate with fewer queries and is much stronger than any individual jailbreak.