Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models
作者: Pavlos Ntais
分类: cs.CR, cs.AI, cs.CL, cs.LG
发布日期: 2025-10-24
备注: 18 pages, 5 figures
💡 一句话要点
提出Jailbreak Mimicry,自动发现基于叙事的LLM越狱攻击,提升AI安全。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 对抗性攻击 越狱提示 AI安全 红队评估
📋 核心要点
- 现有LLM容易受到利用上下文绕过安全机制的提示攻击,手工制作对抗性提示效率低且难以复现。
- Jailbreak Mimicry训练小型攻击模型,自动生成基于叙事的越狱提示,将对抗性提示发现转化为可重复的科学过程。
- 实验表明,该方法在GPT-OSS-20B上攻击成功率达81.0%,相比直接提示提升54倍,揭示了现有安全对齐方法的系统性漏洞。
📝 摘要(中文)
大型语言模型(LLM)仍然容易受到复杂的提示工程攻击,这些攻击利用上下文框架绕过安全机制,对网络安全应用构成重大风险。我们介绍了一种名为Jailbreak Mimicry的系统方法,用于训练紧凑的攻击者模型,以一次性自动生成基于叙事的越狱提示。我们的方法将对抗性提示发现从手工制作转变为可重复的科学过程,从而能够在AI驱动的安全系统中进行主动漏洞评估。该方法针对OpenAI GPT-OSS-20B Red-Teaming Challenge开发,我们使用参数高效微调(LoRA)在Mistral-7B上,并使用从AdvBench派生的精选数据集,在200个项目的保留测试集上实现了81.0%的攻击成功率(ASR)。跨模型评估显示了漏洞模式的显着变化:我们的攻击在GPT-4上实现了66.5%的ASR,在Llama-3上实现了79.5%的ASR,在Gemini 2.5 Flash上实现了33.0%的ASR,证明了网络安全环境中广泛的适用性和模型特定的防御优势。这比直接提示(1.5% ASR)提高了54倍,并证明了当前安全对齐方法中的系统性漏洞。我们的分析表明,技术领域(网络安全:93% ASR)和基于欺骗的攻击(欺诈:87.8% ASR)尤其容易受到攻击,突出了对AI集成的威胁检测、恶意软件分析和安全系统的威胁,而物理伤害类别显示出更强的抵抗力(55.6% ASR)。我们使用Claude Sonnet 4进行自动有害性评估,并通过人工专家评估进行交叉验证,从而确保了网络安全红队评估的可靠和可扩展性。最后,我们分析了失败机制,并讨论了防御策略,以减轻AI在网络安全中的这些漏洞。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)容易受到对抗性提示攻击的问题,特别是那些利用叙事上下文绕过安全机制的攻击。现有方法依赖于手工制作对抗性提示,效率低下且难以系统性地发现和评估LLM的潜在漏洞。
核心思路:论文的核心思路是训练一个小型攻击者模型,使其能够自动生成有效的越狱提示。通过模仿(Mimicry)已知的对抗性提示,该模型学习生成新的、类似的提示,从而绕过LLM的安全措施。这种方法将对抗性提示的生成从手工过程转变为自动化的、可重复的过程。
技术框架:Jailbreak Mimicry的技术框架主要包含以下几个阶段:1) 数据集构建:使用从AdvBench等来源收集的对抗性提示数据集。2) 模型训练:使用参数高效微调(LoRA)在Mistral-7B等小型LLM上训练攻击者模型。3) 提示生成:攻击者模型生成新的对抗性提示。4) 评估:使用目标LLM评估生成的提示的攻击成功率(ASR),并使用Claude Sonnet 4等模型进行有害性评估。
关键创新:该方法最重要的技术创新在于将对抗性提示的生成过程自动化,并使用小型模型进行训练。这使得能够更快速、更系统地发现LLM的漏洞,并进行大规模的红队评估。与传统的手工提示工程相比,Jailbreak Mimicry具有更高的效率和可扩展性。
关键设计:论文使用了参数高效微调(LoRA)技术,以减少训练攻击者模型所需的计算资源。数据集的选择和处理也至关重要,论文使用了从AdvBench派生的精选数据集。此外,论文还使用了Claude Sonnet 4进行自动有害性评估,并结合人工专家评估进行交叉验证,以确保评估的可靠性。
📊 实验亮点
实验结果表明,Jailbreak Mimicry在GPT-OSS-20B上实现了81.0%的攻击成功率(ASR),相比直接提示(1.5% ASR)提高了54倍。跨模型评估显示,该方法在GPT-4上实现了66.5%的ASR,在Llama-3上实现了79.5%的ASR,表明其具有一定的泛化能力。分析还发现,技术领域和欺骗性攻击更容易受到攻击。
🎯 应用场景
该研究成果可应用于AI安全评估、红队演练、漏洞挖掘和安全防御等领域。通过自动发现LLM的潜在漏洞,可以帮助开发者改进安全机制,提高AI系统的鲁棒性和安全性。该方法还可用于评估不同LLM的安全性能,为用户选择合适的模型提供参考。
📄 摘要(原文)
Large language models (LLMs) remain vulnerable to sophisticated prompt engineering attacks that exploit contextual framing to bypass safety mechanisms, posing significant risks in cybersecurity applications. We introduce Jailbreak Mimicry, a systematic methodology for training compact attacker models to automatically generate narrative-based jailbreak prompts in a one-shot manner. Our approach transforms adversarial prompt discovery from manual craftsmanship into a reproducible scientific process, enabling proactive vulnerability assessment in AI-driven security systems. Developed for the OpenAI GPT-OSS-20B Red-Teaming Challenge, we use parameter-efficient fine-tuning (LoRA) on Mistral-7B with a curated dataset derived from AdvBench, achieving an 81.0% Attack Success Rate (ASR) against GPT-OSS-20B on a held-out test set of 200 items. Cross-model evaluation reveals significant variation in vulnerability patterns: our attacks achieve 66.5% ASR against GPT-4, 79.5% on Llama-3 and 33.0% against Gemini 2.5 Flash, demonstrating both broad applicability and model-specific defensive strengths in cybersecurity contexts. This represents a 54x improvement over direct prompting (1.5% ASR) and demonstrates systematic vulnerabilities in current safety alignment approaches. Our analysis reveals that technical domains (Cybersecurity: 93% ASR) and deception-based attacks (Fraud: 87.8% ASR) are particularly vulnerable, highlighting threats to AI-integrated threat detection, malware analysis, and secure systems, while physical harm categories show greater resistance (55.6% ASR). We employ automated harmfulness evaluation using Claude Sonnet 4, cross-validated with human expert assessment, ensuring reliable and scalable evaluation for cybersecurity red-teaming. Finally, we analyze failure mechanisms and discuss defensive strategies to mitigate these vulnerabilities in AI for cybersecurity.