Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models

作者: Pavlos Ntais

分类: cs.CR, cs.AI, cs.CL, cs.LG

发布日期: 2025-10-24

备注: 18 pages, 5 figures

💡 一句话要点

提出Jailbreak Mimicry，自动发现基于叙事的LLM越狱攻击，提升AI安全。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗性攻击 越狱提示 AI安全 红队评估

📋 核心要点

现有LLM容易受到利用上下文绕过安全机制的提示攻击，手工制作对抗性提示效率低且难以复现。
Jailbreak Mimicry训练小型攻击模型，自动生成基于叙事的越狱提示，将对抗性提示发现转化为可重复的科学过程。
实验表明，该方法在GPT-OSS-20B上攻击成功率达81.0%，相比直接提示提升54倍，揭示了现有安全对齐方法的系统性漏洞。

📝 摘要（中文）

大型语言模型（LLM）仍然容易受到复杂的提示工程攻击，这些攻击利用上下文框架绕过安全机制，对网络安全应用构成重大风险。我们介绍了一种名为Jailbreak Mimicry的系统方法，用于训练紧凑的攻击者模型，以一次性自动生成基于叙事的越狱提示。我们的方法将对抗性提示发现从手工制作转变为可重复的科学过程，从而能够在AI驱动的安全系统中进行主动漏洞评估。该方法针对OpenAI GPT-OSS-20B Red-Teaming Challenge开发，我们使用参数高效微调（LoRA）在Mistral-7B上，并使用从AdvBench派生的精选数据集，在200个项目的保留测试集上实现了81.0%的攻击成功率（ASR）。跨模型评估显示了漏洞模式的显着变化：我们的攻击在GPT-4上实现了66.5%的ASR，在Llama-3上实现了79.5%的ASR，在Gemini 2.5 Flash上实现了33.0%的ASR，证明了网络安全环境中广泛的适用性和模型特定的防御优势。这比直接提示（1.5% ASR）提高了54倍，并证明了当前安全对齐方法中的系统性漏洞。我们的分析表明，技术领域（网络安全：93% ASR）和基于欺骗的攻击（欺诈：87.8% ASR）尤其容易受到攻击，突出了对AI集成的威胁检测、恶意软件分析和安全系统的威胁，而物理伤害类别显示出更强的抵抗力（55.6% ASR）。我们使用Claude Sonnet 4进行自动有害性评估，并通过人工专家评估进行交叉验证，从而确保了网络安全红队评估的可靠和可扩展性。最后，我们分析了失败机制，并讨论了防御策略，以减轻AI在网络安全中的这些漏洞。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）容易受到对抗性提示攻击的问题，特别是那些利用叙事上下文绕过安全机制的攻击。现有方法依赖于手工制作对抗性提示，效率低下且难以系统性地发现和评估LLM的潜在漏洞。

核心思路：论文的核心思路是训练一个小型攻击者模型，使其能够自动生成有效的越狱提示。通过模仿（Mimicry）已知的对抗性提示，该模型学习生成新的、类似的提示，从而绕过LLM的安全措施。这种方法将对抗性提示的生成从手工过程转变为自动化的、可重复的过程。

技术框架：Jailbreak Mimicry的技术框架主要包含以下几个阶段：1) 数据集构建：使用从AdvBench等来源收集的对抗性提示数据集。2) 模型训练：使用参数高效微调（LoRA）在Mistral-7B等小型LLM上训练攻击者模型。3) 提示生成：攻击者模型生成新的对抗性提示。4) 评估：使用目标LLM评估生成的提示的攻击成功率（ASR），并使用Claude Sonnet 4等模型进行有害性评估。

关键创新：该方法最重要的技术创新在于将对抗性提示的生成过程自动化，并使用小型模型进行训练。这使得能够更快速、更系统地发现LLM的漏洞，并进行大规模的红队评估。与传统的手工提示工程相比，Jailbreak Mimicry具有更高的效率和可扩展性。

关键设计：论文使用了参数高效微调（LoRA）技术，以减少训练攻击者模型所需的计算资源。数据集的选择和处理也至关重要，论文使用了从AdvBench派生的精选数据集。此外，论文还使用了Claude Sonnet 4进行自动有害性评估，并结合人工专家评估进行交叉验证，以确保评估的可靠性。

📊 实验亮点

实验结果表明，Jailbreak Mimicry在GPT-OSS-20B上实现了81.0%的攻击成功率（ASR），相比直接提示（1.5% ASR）提高了54倍。跨模型评估显示，该方法在GPT-4上实现了66.5%的ASR，在Llama-3上实现了79.5%的ASR，表明其具有一定的泛化能力。分析还发现，技术领域和欺骗性攻击更容易受到攻击。

🎯 应用场景

该研究成果可应用于AI安全评估、红队演练、漏洞挖掘和安全防御等领域。通过自动发现LLM的潜在漏洞，可以帮助开发者改进安全机制，提高AI系统的鲁棒性和安全性。该方法还可用于评估不同LLM的安全性能，为用户选择合适的模型提供参考。

📄 摘要（原文）

Large language models (LLMs) remain vulnerable to sophisticated prompt engineering attacks that exploit contextual framing to bypass safety mechanisms, posing significant risks in cybersecurity applications. We introduce Jailbreak Mimicry, a systematic methodology for training compact attacker models to automatically generate narrative-based jailbreak prompts in a one-shot manner. Our approach transforms adversarial prompt discovery from manual craftsmanship into a reproducible scientific process, enabling proactive vulnerability assessment in AI-driven security systems. Developed for the OpenAI GPT-OSS-20B Red-Teaming Challenge, we use parameter-efficient fine-tuning (LoRA) on Mistral-7B with a curated dataset derived from AdvBench, achieving an 81.0% Attack Success Rate (ASR) against GPT-OSS-20B on a held-out test set of 200 items. Cross-model evaluation reveals significant variation in vulnerability patterns: our attacks achieve 66.5% ASR against GPT-4, 79.5% on Llama-3 and 33.0% against Gemini 2.5 Flash, demonstrating both broad applicability and model-specific defensive strengths in cybersecurity contexts. This represents a 54x improvement over direct prompting (1.5% ASR) and demonstrates systematic vulnerabilities in current safety alignment approaches. Our analysis reveals that technical domains (Cybersecurity: 93% ASR) and deception-based attacks (Fraud: 87.8% ASR) are particularly vulnerable, highlighting threats to AI-integrated threat detection, malware analysis, and secure systems, while physical harm categories show greater resistance (55.6% ASR). We employ automated harmfulness evaluation using Claude Sonnet 4, cross-validated with human expert assessment, ensuring reliable and scalable evaluation for cybersecurity red-teaming. Finally, we analyze failure mechanisms and discuss defensive strategies to mitigate these vulnerabilities in AI for cybersecurity.

Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理