Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors
作者: Yi Zhao, Youzhi Zhang
分类: cs.CL, cs.AI, cs.CR
发布日期: 2025-01-24 (更新: 2025-11-12)
备注: Accepted at ACSAC 2025
🔗 代码/项目: GITHUB
💡 一句话要点
Siren:一种学习型多轮攻击框架,用于模拟真实世界的人类越狱行为
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 多轮交互 红队测试 强化学习 监督微调 直接偏好优化
📋 核心要点
- 现有LLM越狱攻击研究主要集中于单轮攻击,忽略了真实世界中攻击者常用的多轮交互策略,导致评估结果与实际威胁存在差距。
- Siren框架通过MiniMax策略生成训练数据,并利用监督微调和直接偏好优化训练攻击模型,使其能够模拟人类的多轮越狱攻击行为。
- 实验结果表明,Siren在多轮攻击场景下显著优于单轮基线,并且在攻击成功率和语义对齐方面表现出优异的性能。
📝 摘要(中文)
大型语言模型(LLMs)被广泛应用于现实世界的应用中,引发了对其安全性和可信度的担忧。虽然通过越狱提示进行红队测试可以暴露LLMs的漏洞,但目前的工作主要集中在单轮攻击上,忽略了真实世界攻击者使用的多轮策略。现有的多轮方法依赖于静态模式或预定义的逻辑链,无法解释攻击期间的动态策略。我们提出了Siren,一个基于学习的多轮攻击框架,旨在模拟真实世界的人类越狱行为。Siren包括三个阶段:(1)利用Turn-Level LLM反馈的MiniMax驱动的训练集构建,(2)通过监督微调(SFT)和直接偏好优化(DPO)进行后训练的攻击者,以及(3)攻击和目标LLMs之间的交互。实验表明,Siren在使用LLaMA-3-8B作为攻击者对抗Gemini-1.5-Pro作为目标模型时,攻击成功率(ASR)达到90%,使用Mistral-7B对抗GPT-4o时,攻击成功率达到70%,显著优于单轮基线。此外,Siren使用7B规模的模型实现了与使用GPT-4o作为攻击者的多轮基线相当的性能,同时需要的轮数更少,并且采用的分解策略在语义上与攻击目标更好地对齐。我们希望Siren能够激发人们开发更强大的防御措施,以应对现实场景下高级多轮越狱攻击。代码可在https://github.com/YiyiyiZhao/siren 获得。警告:本文包含潜在的有害文本。
🔬 方法详解
问题定义:现有的大语言模型越狱攻击方法主要集中在单轮攻击,无法有效模拟真实世界中攻击者使用的多轮交互策略。现有的多轮攻击方法通常依赖于静态模式或预定义的逻辑链,缺乏动态调整攻击策略的能力,难以应对复杂的目标模型。因此,需要一种能够模拟人类攻击者动态策略的多轮攻击框架,以更真实地评估和防御大语言模型的安全风险。
核心思路:Siren的核心思路是利用强化学习的思想,通过MiniMax策略生成训练数据,并使用监督微调(SFT)和直接偏好优化(DPO)训练攻击模型。MiniMax策略模拟了攻击者和防御者之间的博弈过程,使得攻击模型能够学习到更有效的攻击策略。SFT和DPO则用于将攻击策略转化为可执行的语言提示,并优化攻击模型的输出,使其更符合攻击目标。
技术框架:Siren框架包含三个主要阶段:(1)MiniMax驱动的训练集构建:利用Turn-Level LLM反馈,通过MiniMax策略生成攻击和防御的对话数据。(2)攻击模型训练:使用监督微调(SFT)和直接偏好优化(DPO)对攻击模型进行训练,使其能够生成有效的攻击提示。(3)攻击交互:攻击模型与目标模型进行多轮交互,模拟真实世界的越狱攻击场景。
关键创新:Siren的关键创新在于其学习型多轮攻击框架,能够动态调整攻击策略,模拟真实世界的人类越狱行为。与现有的静态多轮攻击方法相比,Siren能够更好地应对复杂的目标模型,并取得更高的攻击成功率。此外,Siren还引入了Turn-Level LLM反馈,使得训练数据更加有效,并提高了攻击模型的性能。
关键设计:在MiniMax训练集中,Siren使用LLM作为评估器,评估每个turn的攻击效果,并根据评估结果调整攻击策略。在攻击模型训练中,Siren使用SFT和DPO两种方法,SFT用于学习攻击提示的生成,DPO用于优化攻击模型的输出,使其更符合攻击目标。在攻击交互中,Siren设置了最大轮数和攻击成功率阈值,用于控制攻击过程。
🖼️ 关键图片
📊 实验亮点
Siren在LLaMA-3-8B攻击Gemini-1.5-Pro时,攻击成功率达到90%,在Mistral-7B攻击GPT-4o时,攻击成功率达到70%,显著优于单轮基线。Siren使用7B规模的模型实现了与使用GPT-4o作为攻击者的多轮基线相当的性能,同时需要的轮数更少,并且采用的分解策略在语义上与攻击目标更好地对齐。
🎯 应用场景
Siren框架可用于评估和提高大型语言模型的安全性,帮助开发者发现和修复潜在的漏洞。该框架还可以用于训练更强大的防御模型,以应对真实世界中的越狱攻击。此外,Siren的研究成果可以促进对多轮交互攻击的理解,并推动相关领域的发展。
📄 摘要(原文)
Large language models (LLMs) are widely used in real-world applications, raising concerns about their safety and trustworthiness. While red-teaming with jailbreak prompts exposes the vulnerabilities of LLMs, current efforts focus primarily on single-turn attacks, overlooking the multi-turn strategies used by real-world adversaries. Existing multi-turn methods rely on static patterns or predefined logical chains, failing to account for the dynamic strategies during attacks. We propose Siren, a learning-based multi-turn attack framework designed to simulate real-world human jailbreak behaviors. Siren consists of three stages: (1) MiniMax-driven training set construction utilizing Turn-Level LLM feedback, (2) post-training attackers with supervised fine-tuning (SFT) and direct preference optimization (DPO), and (3) interactions between the attacking and target LLMs. Experiments demonstrate that Siren achieves an attack success rate (ASR) of 90% with LLaMA-3-8B as the attacker against Gemini-1.5-Pro as the target model, and 70% with Mistral-7B against GPT-4o, significantly outperforming single-turn baselines. Moreover, Siren with a 7B-scale model achieves performance comparable to a multi-turn baseline that leverages GPT-4o as the attacker, while requiring fewer turns and employing decomposition strategies that are better semantically aligned with attack goals. We hope Siren inspires the development of stronger defenses against advanced multi-turn jailbreak attacks under realistic scenarios. Code is available at https://github.com/YiyiyiZhao/siren. Warning: This paper contains potentially harmful text.