Tempest: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search
作者: Andy Zhou, Ron Arel
分类: cs.AI, cs.CL, cs.CR
发布日期: 2025-03-13 (更新: 2025-05-28)
备注: Accepted to ACL 2025 Main
💡 一句话要点
Tempest:利用树搜索实现大语言模型的多轮自主越狱
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 多轮对话 树搜索 安全评估
📋 核心要点
- 现有单轮越狱方法依赖精心设计的prompt,难以模拟真实交互场景中LLM安全性的逐步瓦解。
- Tempest采用树搜索策略,在多轮对话中逐步探索LLM的策略泄露,并将其注入后续查询中。
- 实验表明,Tempest在GPT-3.5-turbo和GPT-4上取得了优异的越狱效果,且查询次数更少。
📝 摘要(中文)
我们提出了Tempest,一个多轮对抗框架,它通过树搜索的角度来模拟大语言模型(LLM)安全性的逐渐瓦解。与依赖于精心设计的单轮越狱提示不同,Tempest在每一轮对话中以广度优先的方式扩展对话,分支生成多个对抗性提示,利用先前响应中的部分合规性。通过跟踪这些增量策略泄露并将它们重新注入到后续查询中,Tempest揭示了微小的让步如何累积成完全不允许的输出。在JailbreakBench数据集上的评估表明,Tempest在单次多轮运行中对GPT-3.5-turbo实现了100%的成功率,对GPT-4实现了97%的成功率,使用的查询次数少于Crescendo或GOAT等基线。这种树搜索方法深入了解了模型保护措施如何在连续的对话轮次中降级,强调了对语言模型进行稳健的多轮测试程序的紧迫性。
🔬 方法详解
问题定义:现有的大语言模型越狱方法大多集中于单轮攻击,即通过构造一个精心设计的prompt直接绕过模型的安全防护。然而,在真实的应用场景中,用户与LLM的交互通常是多轮对话。单轮攻击无法有效模拟多轮对话中,模型安全防护逐渐被瓦解的过程,也无法充分利用模型在先前对话中暴露出的策略漏洞。因此,需要一种能够模拟多轮对话,逐步探索并利用模型安全漏洞的越狱方法。
核心思路:Tempest的核心思路是将多轮对话的越狱过程建模成一个树搜索问题。在每一轮对话中,Tempest都会生成多个不同的对抗性prompt,并根据模型的响应评估这些prompt的有效性。有效的prompt会被保留下来,并用于生成下一轮的对抗性prompt。通过这种方式,Tempest可以逐步探索模型的安全漏洞,并最终实现越狱。
技术框架:Tempest的整体框架包含以下几个主要模块:1) Prompt生成模块:负责生成对抗性prompt。2) 模型交互模块:负责将prompt发送给LLM,并获取模型的响应。3) 评估模块:负责评估模型的响应,判断prompt是否有效。4) 树搜索模块:负责维护搜索树,并根据评估结果选择下一步要探索的prompt。整个流程以广度优先的方式进行,每一轮都会扩展搜索树的节点,直到找到一个能够成功越狱的prompt序列。
关键创新:Tempest的关键创新在于将多轮越狱问题建模成一个树搜索问题。这种方法允许Tempest逐步探索模型的安全漏洞,并利用先前对话中暴露出的策略漏洞。与单轮攻击相比,Tempest能够更有效地绕过模型的安全防护。此外,Tempest还引入了增量策略泄露的概念,即通过跟踪模型在先前对话中的微小让步,并将它们重新注入到后续查询中,从而逐步瓦解模型的安全防护。
关键设计:Tempest在prompt生成模块中使用了多种对抗性prompt生成策略,例如基于关键词替换、基于语义相似性等。评估模块则根据模型的响应是否包含违规内容来判断prompt是否有效。树搜索模块使用了广度优先搜索算法,并根据评估结果对节点进行排序,优先探索更有可能成功的prompt。具体的参数设置(例如搜索树的深度、宽度)需要根据不同的LLM进行调整。
🖼️ 关键图片
📊 实验亮点
Tempest在JailbreakBench数据集上取得了显著的成果。在单次多轮运行中,Tempest对GPT-3.5-turbo实现了100%的越狱成功率,对GPT-4实现了97%的越狱成功率。与Crescendo和GOAT等基线方法相比,Tempest使用的查询次数更少,表明其能够更有效地探索模型的安全漏洞。
🎯 应用场景
Tempest的研究成果可以应用于评估和提升大语言模型的安全性。通过使用Tempest进行多轮越狱测试,可以发现模型在多轮对话中存在的安全漏洞,并针对这些漏洞进行修复。此外,Tempest还可以用于开发更有效的安全防护机制,例如多轮对话的安全策略检测和干预。
📄 摘要(原文)
We introduce Tempest, a multi-turn adversarial framework that models the gradual erosion of Large Language Model (LLM) safety through a tree search perspective. Unlike single-turn jailbreaks that rely on one meticulously engineered prompt, Tempest expands the conversation at each turn in a breadth-first fashion, branching out multiple adversarial prompts that exploit partial compliance from previous responses. By tracking these incremental policy leaks and re-injecting them into subsequent queries, Tempest reveals how minor concessions can accumulate into fully disallowed outputs. Evaluations on the JailbreakBench dataset show that Tempest achieves a 100% success rate on GPT-3.5-turbo and 97% on GPT-4 in a single multi-turn run, using fewer queries than baselines such as Crescendo or GOAT. This tree search methodology offers an in-depth view of how model safeguards degrade over successive dialogue turns, underscoring the urgency of robust multi-turn testing procedures for language models.