M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs
作者: Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim
分类: cs.CL, cs.AI
发布日期: 2025-03-06 (更新: 2025-08-05)
备注: Accepted to ACL 2025 (Main Track). Camera-ready version
期刊: Proc. ACL 2025 (Vol. 1: Long Papers), pp. 16489-16507, Vienna, Austria, 2025
DOI: 10.18653/v1/2025.acl-long.805
💡 一句话要点
提出M2S框架,将多轮对抗性提示转化为单轮提示,提升LLM红队测试效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 对抗性攻击 红队测试 越狱攻击 单轮提示 多轮对话 安全评估 上下文盲点
📋 核心要点
- 现有LLM对抗测试中,多轮人工越狱攻击成功率高,但耗费大量人力和时间,效率低下。
- M2S框架将多轮对话转化为结构化的单轮提示,保留甚至增强了对抗效力,降低了测试成本。
- 实验表明,M2S方法在多种LLM上取得了70.6%-95.9%的攻击成功率,优于原始多轮攻击。
📝 摘要(中文)
本文提出了一种新颖的框架,用于将多轮对抗性“越狱”提示合并为单轮查询,从而显著减少了大型语言模型(LLM)对抗性测试所需的人工开销。虽然多轮人工越狱已被证明能产生较高的攻击成功率,但它们需要大量的人力和时间。我们的多轮到单轮(M2S)方法——Hyphenize、Numberize和Pythonize——系统地将多轮对话重新格式化为结构化的单轮提示。尽管消除了迭代式的来回交互,但这些提示保留甚至增强了对抗效力:在对多轮人工越狱(MHJ)数据集的广泛评估中,M2S方法在几种最先进的LLM上实现了70.6%到95.9%的攻击成功率。值得注意的是,单轮提示比原始多轮攻击的表现高出17.5个百分点,同时平均减少了一半以上的token使用量。进一步的分析表明,将恶意请求嵌入到枚举或类似代码的结构中,可以利用“上下文盲点”,绕过原生防护措施和外部输入输出过滤器。通过将多轮对话转换为简洁的单轮提示,M2S框架为大规模红队测试提供了一个可扩展的工具,并揭示了当代LLM防御中的关键弱点。
🔬 方法详解
问题定义:目前针对大型语言模型(LLMs)的对抗性测试,特别是“越狱”攻击,通常依赖于多轮对话。这种方法虽然有效,但需要大量的人工参与,成本高昂,难以规模化。现有的单轮攻击方法可能无法充分利用LLMs的漏洞,导致攻击成功率较低。因此,如何高效地进行LLMs的对抗性测试,降低人工成本,同时保持较高的攻击成功率,是一个亟待解决的问题。
核心思路:M2S框架的核心思路是将多轮对话中的关键信息压缩并结构化地嵌入到单轮提示中。通过模仿人类对话的结构,例如使用连字符、编号或代码格式,来诱导LLM产生预期行为。这种方法旨在利用LLM对特定上下文结构的敏感性,绕过其安全防护机制。作者假设,通过精心设计的单轮提示,可以有效地模拟多轮对话的攻击效果,同时显著降低测试成本。
技术框架:M2S框架主要包含三个模块,分别对应三种单轮提示的生成方法:Hyphenize、Numberize和Pythonize。首先,收集现有的多轮越狱对话数据集(MHJ)。然后,针对每种方法,设计相应的转换规则,将多轮对话转化为单轮提示。Hyphenize方法使用连字符连接多轮对话,Numberize方法使用编号列表呈现对话,Pythonize方法则将对话转化为类似Python代码的结构。最后,使用生成的单轮提示对目标LLM进行攻击,并评估攻击成功率。
关键创新:M2S框架的关键创新在于其将多轮对话转化为单轮提示的能力,并证明了这种转换不仅可以降低测试成本,还可以提高攻击成功率。通过利用LLM的“上下文盲点”,即对特定结构化输入的敏感性,M2S方法能够有效地绕过LLM的安全防护机制。此外,M2S框架提供了一种系统化的方法,用于设计和评估单轮对抗性提示,为LLM的红队测试提供了一种新的思路。
关键设计:M2S框架的关键设计在于三种单轮提示的生成方法:Hyphenize、Numberize和Pythonize。Hyphenize方法通过简单地使用连字符连接多轮对话,旨在保留对话的整体语义。Numberize方法使用编号列表呈现对话,旨在强调对话的顺序和结构。Pythonize方法则将对话转化为类似Python代码的结构,旨在利用LLM对代码的特殊处理方式。这些方法的设计都基于对LLM行为的观察和理解,旨在最大化攻击成功率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,M2S方法在多种LLM上取得了显著的攻击成功率,其中单轮提示的攻击成功率甚至超过了原始多轮攻击,最高提升达17.5个百分点。同时,M2S方法显著降低了token使用量,平均减少了一半以上。这些结果表明,M2S框架不仅可以提高LLM对抗性测试的效率,还可以提高攻击的有效性。
🎯 应用场景
M2S框架可应用于大规模LLM安全评估、红队测试和漏洞挖掘。通过自动化生成单轮对抗性提示,可以高效地发现LLM的安全漏洞,并为LLM的安全防护提供指导。此外,该框架还可以用于评估不同LLM的安全性能,并比较不同安全防护机制的有效性。未来,M2S框架可以扩展到其他类型的对抗性攻击,例如对抗性样本生成和后门攻击。
📄 摘要(原文)
We introduce a novel framework for consolidating multi-turn adversarial
jailbreak'' prompts into single-turn queries, significantly reducing the manual overhead required for adversarial testing of large language models (LLMs). While multi-turn human jailbreaks have been shown to yield high attack success rates, they demand considerable human effort and time. Our multi-turn-to-single-turn (M2S) methods -- Hyphenize, Numberize, and Pythonize -- systematically reformat multi-turn dialogues into structured single-turn prompts. Despite removing iterative back-and-forth interactions, these prompts preserve and often enhance adversarial potency: in extensive evaluations on the Multi-turn Human Jailbreak (MHJ) dataset, M2S methods achieve attack success rates from 70.6 percent to 95.9 percent across several state-of-the-art LLMs. Remarkably, the single-turn prompts outperform the original multi-turn attacks by as much as 17.5 percentage points while cutting token usage by more than half on average. Further analysis shows that embedding malicious requests in enumerated or code-like structures exploitscontextual blindness'', bypassing both native guardrails and external input-output filters. By converting multi-turn conversations into concise single-turn prompts, the M2S framework provides a scalable tool for large-scale red teaming and reveals critical weaknesses in contemporary LLM defenses.