Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

📄 arXiv: 2312.02119v3 📥 PDF

作者: Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson, Hyrum Anderson, Yaron Singer, Amin Karbasi

分类: cs.LG, cs.AI, cs.CL, cs.CR, stat.ML

发布日期: 2023-12-04 (更新: 2024-10-31)

备注: Accepted for presentation at NeurIPS 2024. Code: https://github.com/RICommunity/TAP


💡 一句话要点

提出TAP:一种自动化的黑盒LLM越狱攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 黑盒攻击 对抗性攻击 提示工程

📋 核心要点

  1. 现有LLM容易受到对抗性攻击,人工设计的越狱提示成本高昂且效率低下,需要自动化的黑盒攻击方法。
  2. TAP利用攻击者LLM迭代优化提示,并引入剪枝策略,减少对目标LLM的查询次数,提高攻击效率。
  3. 实验表明,TAP能有效越狱GPT4-Turbo和GPT4o等先进LLM,且优于现有黑盒攻击方法,并能绕过LlamaGuard等防御机制。

📝 摘要(中文)

大型语言模型(LLM)虽然功能强大,但仍然会生成有害、有偏见和有毒的内容,人为设计的越狱攻击就是证明。本文提出了一种名为Tree of Attacks with Pruning (TAP)的自动化方法,用于生成越狱攻击,该方法只需要对目标LLM进行黑盒访问。TAP利用攻击者LLM迭代地改进候选(攻击)提示,直到其中一个改进后的提示成功越狱目标LLM。此外,在将提示发送到目标之前,TAP会评估它们并修剪那些不太可能导致越狱的提示,从而减少发送到目标LLM的查询数量。实验结果表明,TAP生成的提示能够以超过80%的成功率越狱最先进的LLM(包括GPT4-Turbo和GPT4o)。与之前最先进的黑盒越狱攻击方法相比,TAP显著提高了性能,同时使用的查询数量更少。此外,TAP还能够越狱受到最先进的防御机制(例如LlamaGuard)保护的LLM。

🔬 方法详解

问题定义:论文旨在解决黑盒场景下,如何高效、自动化地生成能够绕过LLM安全防护的越狱提示。现有方法要么依赖人工设计,成本高昂且泛化性差,要么自动化方法效率较低,需要大量的查询才能找到有效的越狱提示。

核心思路:论文的核心思路是利用一个攻击者LLM来迭代地生成和优化候选越狱提示,并通过一个剪枝策略来减少无效查询,从而在保证攻击成功率的同时,降低查询成本。这种方法模拟了人类攻击者不断尝试和改进攻击提示的过程。

技术框架:TAP包含两个主要阶段:提示生成和提示评估。在提示生成阶段,攻击者LLM基于初始提示生成多个候选提示,并不断迭代优化。在提示评估阶段,TAP使用一个评估器来预测候选提示的越狱成功率,并剪枝掉那些不太可能成功的提示。最终,选择剩余的提示发送给目标LLM进行测试。

关键创新:TAP的关键创新在于结合了迭代提示优化和剪枝策略。迭代提示优化能够逐步改进提示,提高攻击成功率,而剪枝策略能够有效减少查询次数,提高攻击效率。此外,使用LLM作为攻击者也使得TAP能够生成更具创造性和多样性的攻击提示。

关键设计:TAP使用一个预训练的LLM作为攻击者,并使用特定的提示工程技术来引导其生成越狱提示。剪枝策略基于一个二元分类器,该分类器预测一个提示是否会导致越狱。该分类器可以使用少量数据进行训练,例如通过查询目标LLM并标记结果来获得。具体的损失函数和网络结构的选择未知,但可以根据实际情况进行调整。

📊 实验亮点

TAP在越狱GPT4-Turbo和GPT4o等先进LLM时,成功率超过80%,显著优于现有的黑盒攻击方法。此外,TAP在越狱受到LlamaGuard保护的LLM时也表现出强大的能力。更重要的是,TAP在实现更高攻击成功率的同时,使用的查询数量更少,表明其攻击效率更高。

🎯 应用场景

该研究成果可应用于评估和提升LLM的安全性。通过自动化生成越狱提示,可以更全面地测试LLM的防御能力,发现潜在的安全漏洞,并为开发更有效的防御机制提供指导。此外,该方法也可用于评估不同安全策略的有效性,例如内容过滤和对抗性训练。

📄 摘要(原文)

While Large Language Models (LLMs) display versatile functionality, they continue to generate harmful, biased, and toxic content, as demonstrated by the prevalence of human-designed jailbreaks. In this work, we present Tree of Attacks with Pruning (TAP), an automated method for generating jailbreaks that only requires black-box access to the target LLM. TAP utilizes an attacker LLM to iteratively refine candidate (attack) prompts until one of the refined prompts jailbreaks the target. In addition, before sending prompts to the target, TAP assesses them and prunes the ones unlikely to result in jailbreaks, reducing the number of queries sent to the target LLM. In empirical evaluations, we observe that TAP generates prompts that jailbreak state-of-the-art LLMs (including GPT4-Turbo and GPT4o) for more than 80% of the prompts. This significantly improves upon the previous state-of-the-art black-box methods for generating jailbreaks while using a smaller number of queries than them. Furthermore, TAP is also capable of jailbreaking LLMs protected by state-of-the-art guardrails, e.g., LlamaGuard.