Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors

作者: Yi Zhao, Youzhi Zhang

分类: cs.CL, cs.AI, cs.CR

发布日期: 2025-01-24 (更新: 2025-11-12)

备注: Accepted at ACSAC 2025

🔗 代码/项目: GITHUB

💡 一句话要点

Siren：一种学习型多轮攻击框架，用于模拟真实世界的人类越狱行为

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 多轮交互 红队测试 强化学习 监督微调 直接偏好优化

📋 核心要点

现有LLM越狱攻击研究主要集中于单轮攻击，忽略了真实世界中攻击者常用的多轮交互策略，导致评估结果与实际威胁存在差距。
Siren框架通过MiniMax策略生成训练数据，并利用监督微调和直接偏好优化训练攻击模型，使其能够模拟人类的多轮越狱攻击行为。
实验结果表明，Siren在多轮攻击场景下显著优于单轮基线，并且在攻击成功率和语义对齐方面表现出优异的性能。

📝 摘要（中文）

大型语言模型（LLMs）被广泛应用于现实世界的应用中，引发了对其安全性和可信度的担忧。虽然通过越狱提示进行红队测试可以暴露LLMs的漏洞，但目前的工作主要集中在单轮攻击上，忽略了真实世界攻击者使用的多轮策略。现有的多轮方法依赖于静态模式或预定义的逻辑链，无法解释攻击期间的动态策略。我们提出了Siren，一个基于学习的多轮攻击框架，旨在模拟真实世界的人类越狱行为。Siren包括三个阶段：（1）利用Turn-Level LLM反馈的MiniMax驱动的训练集构建，（2）通过监督微调（SFT）和直接偏好优化（DPO）进行后训练的攻击者，以及（3）攻击和目标LLMs之间的交互。实验表明，Siren在使用LLaMA-3-8B作为攻击者对抗Gemini-1.5-Pro作为目标模型时，攻击成功率（ASR）达到90%，使用Mistral-7B对抗GPT-4o时，攻击成功率达到70%，显著优于单轮基线。此外，Siren使用7B规模的模型实现了与使用GPT-4o作为攻击者的多轮基线相当的性能，同时需要的轮数更少，并且采用的分解策略在语义上与攻击目标更好地对齐。我们希望Siren能够激发人们开发更强大的防御措施，以应对现实场景下高级多轮越狱攻击。代码可在https://github.com/YiyiyiZhao/siren 获得。警告：本文包含潜在的有害文本。

🔬 方法详解

问题定义：现有的大语言模型越狱攻击方法主要集中在单轮攻击，无法有效模拟真实世界中攻击者使用的多轮交互策略。现有的多轮攻击方法通常依赖于静态模式或预定义的逻辑链，缺乏动态调整攻击策略的能力，难以应对复杂的目标模型。因此，需要一种能够模拟人类攻击者动态策略的多轮攻击框架，以更真实地评估和防御大语言模型的安全风险。

核心思路：Siren的核心思路是利用强化学习的思想，通过MiniMax策略生成训练数据，并使用监督微调（SFT）和直接偏好优化（DPO）训练攻击模型。MiniMax策略模拟了攻击者和防御者之间的博弈过程，使得攻击模型能够学习到更有效的攻击策略。SFT和DPO则用于将攻击策略转化为可执行的语言提示，并优化攻击模型的输出，使其更符合攻击目标。

技术框架：Siren框架包含三个主要阶段：（1）MiniMax驱动的训练集构建：利用Turn-Level LLM反馈，通过MiniMax策略生成攻击和防御的对话数据。（2）攻击模型训练：使用监督微调（SFT）和直接偏好优化（DPO）对攻击模型进行训练，使其能够生成有效的攻击提示。（3）攻击交互：攻击模型与目标模型进行多轮交互，模拟真实世界的越狱攻击场景。

关键创新：Siren的关键创新在于其学习型多轮攻击框架，能够动态调整攻击策略，模拟真实世界的人类越狱行为。与现有的静态多轮攻击方法相比，Siren能够更好地应对复杂的目标模型，并取得更高的攻击成功率。此外，Siren还引入了Turn-Level LLM反馈，使得训练数据更加有效，并提高了攻击模型的性能。

关键设计：在MiniMax训练集中，Siren使用LLM作为评估器，评估每个turn的攻击效果，并根据评估结果调整攻击策略。在攻击模型训练中，Siren使用SFT和DPO两种方法，SFT用于学习攻击提示的生成，DPO用于优化攻击模型的输出，使其更符合攻击目标。在攻击交互中，Siren设置了最大轮数和攻击成功率阈值，用于控制攻击过程。

🖼️ 关键图片

📊 实验亮点

Siren在LLaMA-3-8B攻击Gemini-1.5-Pro时，攻击成功率达到90%，在Mistral-7B攻击GPT-4o时，攻击成功率达到70%，显著优于单轮基线。Siren使用7B规模的模型实现了与使用GPT-4o作为攻击者的多轮基线相当的性能，同时需要的轮数更少，并且采用的分解策略在语义上与攻击目标更好地对齐。

🎯 应用场景

Siren框架可用于评估和提高大型语言模型的安全性，帮助开发者发现和修复潜在的漏洞。该框架还可以用于训练更强大的防御模型，以应对真实世界中的越狱攻击。此外，Siren的研究成果可以促进对多轮交互攻击的理解，并推动相关领域的发展。

📄 摘要（原文）

Large language models (LLMs) are widely used in real-world applications, raising concerns about their safety and trustworthiness. While red-teaming with jailbreak prompts exposes the vulnerabilities of LLMs, current efforts focus primarily on single-turn attacks, overlooking the multi-turn strategies used by real-world adversaries. Existing multi-turn methods rely on static patterns or predefined logical chains, failing to account for the dynamic strategies during attacks. We propose Siren, a learning-based multi-turn attack framework designed to simulate real-world human jailbreak behaviors. Siren consists of three stages: (1) MiniMax-driven training set construction utilizing Turn-Level LLM feedback, (2) post-training attackers with supervised fine-tuning (SFT) and direct preference optimization (DPO), and (3) interactions between the attacking and target LLMs. Experiments demonstrate that Siren achieves an attack success rate (ASR) of 90% with LLaMA-3-8B as the attacker against Gemini-1.5-Pro as the target model, and 70% with Mistral-7B against GPT-4o, significantly outperforming single-turn baselines. Moreover, Siren with a 7B-scale model achieves performance comparable to a multi-turn baseline that leverages GPT-4o as the attacker, while requiring fewer turns and employing decomposition strategies that are better semantically aligned with attack goals. We hope Siren inspires the development of stronger defenses against advanced multi-turn jailbreak attacks under realistic scenarios. Code is available at https://github.com/YiyiyiZhao/siren. Warning: This paper contains potentially harmful text.

Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理