Jailbreaking Large Language Models Against Moderation Guardrails via Cipher Characters

📄 arXiv: 2405.20413v1 📥 PDF

作者: Haibo Jin, Andy Zhou, Joe D. Menke, Haohan Wang

分类: cs.CR, cs.CL, cs.CV, cs.LG

发布日期: 2024-05-30

备注: 20 pages


💡 一句话要点

提出JAMBench和JAM方法,提升大语言模型对抗恶意提示的防御能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 审核保护 对抗攻击 安全评估

📋 核心要点

  1. 现有大语言模型防御恶意提示的保护措施存在漏洞,且缺乏针对审核保护措施的有效评估基准。
  2. 提出JAM方法,利用越狱前缀绕过输入级过滤器,并使用微调的影子模型生成密码字符绕过输出级过滤器。
  3. 实验表明,JAM方法在越狱成功率上提升显著,并有效降低了被过滤的概率,优于现有基线方法。

📝 摘要(中文)

大型语言模型(LLMs)通常是无害的,但仍然容易受到精心设计的提示(称为“越狱”)的攻击,这些提示可以绕过保护措施并诱导有害行为。LLMs的最新进展已经包含了可以过滤输出的审核保护措施,这会触发某些恶意问题的处理错误。现有的红队基准测试通常忽略包含触发审核保护措施的问题,因此难以评估越狱的有效性。为了解决这个问题,我们引入了JAMBench,这是一个旨在触发和评估审核保护措施的有害行为基准。JAMBench涉及160条手动制作的指令,涵盖了多个严重程度级别的四个主要风险类别。此外,我们提出了一种越狱方法JAM(Jailbreak Against Moderation),旨在通过使用越狱前缀绕过输入级过滤器,并使用功能上等同于保护模型的微调影子模型生成密码字符以绕过输出级过滤器来攻击审核保护措施。我们对四个LLM进行的大量实验表明,JAM实现了更高的越狱成功率(约19.88倍)和更低的过滤率(约1/6倍),优于基线。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在面对恶意提示攻击时,现有防御机制(特别是审核保护措施)的脆弱性问题。现有的红队评估基准往往忽略了能够触发这些审核保护措施的恶意问题,导致无法有效评估越狱攻击的成功率。因此,需要一种更全面的评估基准和更有效的越狱攻击方法,以暴露和解决LLMs的安全漏洞。

核心思路:论文的核心思路是设计一种能够同时绕过输入级和输出级过滤器的越狱攻击方法。具体而言,通过在输入端使用特定的越狱前缀来绕过输入过滤器,并在输出端利用微调的影子模型生成密码字符,从而绕过输出过滤器。这种双重绕过机制旨在最大程度地提高越狱攻击的成功率。

技术框架:该方法包含两个主要组成部分:JAMBench基准和JAM越狱攻击方法。JAMBench是一个包含160条手动制作指令的有害行为基准,涵盖了四个主要风险类别。JAM越狱攻击方法则包括两个阶段:首先,使用越狱前缀来绕过输入级过滤器;其次,使用微调的影子模型生成密码字符来绕过输出级过滤器。影子模型被训练成与目标LLM的审核保护措施功能等效。

关键创新:该论文的关键创新在于提出了一种针对LLM审核保护措施的双重绕过攻击方法。与以往的越狱攻击方法相比,JAM不仅考虑了输入端的过滤,还关注了输出端的过滤,从而更全面地攻击了LLM的防御机制。此外,JAMBench基准的提出也为评估LLM的安全性提供了一个更具挑战性和代表性的平台。

关键设计:JAM方法的关键设计包括:1) 精心设计的越狱前缀,用于绕过输入级过滤器;2) 微调的影子模型,用于生成能够绕过输出级过滤器的密码字符。影子模型的训练目标是尽可能模仿目标LLM的审核保护措施,使其生成的密码字符能够有效地规避过滤。具体的参数设置和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JAM方法在四个LLM上均取得了显著的越狱成功率提升,平均提升幅度高达19.88倍。同时,JAM方法也显著降低了输出被过滤的概率,平均降低幅度为1/6。这些结果表明,JAM方法能够有效地绕过LLM的审核保护措施,暴露其安全漏洞。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,帮助开发者识别和修复模型中的安全漏洞。此外,该研究提出的评估基准可以用于更全面地评估LLM的安全性,推动LLM安全领域的发展。该方法也可用于构建更强大的对抗训练数据集,提升模型的鲁棒性。

📄 摘要(原文)

Large Language Models (LLMs) are typically harmless but remain vulnerable to carefully crafted prompts known as ``jailbreaks'', which can bypass protective measures and induce harmful behavior. Recent advancements in LLMs have incorporated moderation guardrails that can filter outputs, which trigger processing errors for certain malicious questions. Existing red-teaming benchmarks often neglect to include questions that trigger moderation guardrails, making it difficult to evaluate jailbreak effectiveness. To address this issue, we introduce JAMBench, a harmful behavior benchmark designed to trigger and evaluate moderation guardrails. JAMBench involves 160 manually crafted instructions covering four major risk categories at multiple severity levels. Furthermore, we propose a jailbreak method, JAM (Jailbreak Against Moderation), designed to attack moderation guardrails using jailbreak prefixes to bypass input-level filters and a fine-tuned shadow model functionally equivalent to the guardrail model to generate cipher characters to bypass output-level filters. Our extensive experiments on four LLMs demonstrate that JAM achieves higher jailbreak success ($\sim$ $\times$ 19.88) and lower filtered-out rates ($\sim$ $\times$ 1/6) than baselines.