AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models

📄 arXiv: 2507.01020v2 📥 PDF

作者: Aashray Reddy, Andrew Zagula, Nicholas Saban

分类: cs.CR, cs.LG

发布日期: 2025-04-18 (更新: 2025-12-23)

备注: We encountered issues with the paper being hosted under my personal account, so we republished it under a different account associated with a university email, which makes updates and management easier. As a result, this version is a duplicate of arXiv:2511.02376


💡 一句话要点

AutoAdv:自动化对抗提示框架,用于多轮破解大型语言模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗性攻击 Jailbreaking 自动化提示 多轮交互

📋 核心要点

  1. 现有LLM安全机制在对抗恶意提示攻击时存在漏洞,难以有效防御。
  2. AutoAdv利用参数化攻击LLM,通过多轮交互动态生成对抗性提示,迭代优化攻击策略。
  3. 实验表明,AutoAdv在多种LLM上实现了高达86%的jailbreak成功率,揭示了现有安全机制的脆弱性。

📝 摘要(中文)

大型语言模型(LLMs)仍然容易受到jailbreaking攻击的影响,这些攻击通过精心设计的恶意输入绕过安全防护措施并诱导有害响应。本文提出AutoAdv,一个新颖的框架,可自动生成对抗性提示,以系统地评估和揭示LLM安全机制中的漏洞。该方法利用参数化的攻击者LLM,通过策略性重写技术、专门的系统提示和优化的超参数配置来生成语义伪装的恶意提示。主要贡献是一种动态的多轮攻击方法,该方法分析失败的jailbreak尝试,并迭代生成改进的后续提示,利用角色扮演、误导和上下文操纵等技术。使用StrongREJECT框架,通过连续交互轮次定量评估攻击成功率(ASR)。通过对包括ChatGPT、Llama和DeepSeek在内的最先进模型的广泛实证评估,揭示了重大漏洞,自动化攻击在生成有害内容方面的jailbreak成功率高达86%。研究结果表明,当前的安全机制仍然容易受到复杂的多轮攻击,强调迫切需要更强大的防御策略。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)容易受到对抗性提示攻击的问题。现有的安全机制无法有效防御精心设计的恶意输入,导致模型生成有害或不当内容。这些攻击通常依赖于人工设计的提示,效率低且难以发现所有潜在漏洞。

核心思路:论文的核心思路是利用一个参数化的攻击者LLM自动生成对抗性提示,并通过多轮交互迭代优化攻击策略。通过分析失败的jailbreak尝试,攻击者LLM能够学习并生成更有效的后续提示,从而绕过安全防护措施。这种方法模拟了真实世界中攻击者不断尝试和改进攻击策略的过程。

技术框架:AutoAdv框架包含以下主要模块:1) 攻击者LLM:一个参数化的LLM,负责生成对抗性提示。2) 目标LLM:需要进行jailbreak攻击的LLM。3) StrongREJECT框架:用于评估攻击成功率(ASR)的指标。4) 多轮交互机制:攻击者LLM根据目标LLM的响应,迭代生成后续提示,直到攻击成功或达到最大轮数。攻击者LLM使用策略性重写技术、专门的系统提示和优化的超参数配置来生成语义伪装的恶意提示。

关键创新:AutoAdv的关键创新在于其动态的多轮攻击方法。与传统的单轮攻击相比,AutoAdv能够分析失败的jailbreak尝试,并迭代生成改进的后续提示。这种方法利用了角色扮演、误导和上下文操纵等技术,使得攻击更加隐蔽和有效。此外,自动化生成对抗性提示的方式也大大提高了攻击效率和覆盖范围。

关键设计:攻击者LLM的系统提示被精心设计,以引导其生成具有欺骗性的提示。超参数(例如温度系数)的优化对于平衡探索和利用至关重要。多轮交互机制允许攻击者LLM根据目标LLM的响应调整其策略。StrongREJECT框架提供了一个标准化的评估指标,用于衡量攻击的成功率。

🖼️ 关键图片

img_0

📊 实验亮点

AutoAdv在包括ChatGPT、Llama和DeepSeek在内的多个最先进的LLM上进行了评估,结果显示其jailbreak成功率高达86%。与传统的单轮攻击相比,AutoAdv的多轮攻击方法显著提高了攻击成功率。这些结果表明,当前的安全机制仍然容易受到复杂的多轮攻击,强调了改进防御策略的必要性。

🎯 应用场景

AutoAdv可用于系统性评估和提升大型语言模型的安全性。通过自动化地发现模型中的漏洞,可以帮助开发者改进安全防护机制,防止恶意利用。该研究对于构建更安全、更可靠的人工智能系统具有重要意义,尤其是在涉及敏感信息处理和决策的场景中。

📄 摘要(原文)

Large Language Models (LLMs) continue to exhibit vulnerabilities to jailbreaking attacks: carefully crafted malicious inputs intended to circumvent safety guardrails and elicit harmful responses. As such, we present AutoAdv, a novel framework that automates adversarial prompt generation to systematically evaluate and expose vulnerabilities in LLM safety mechanisms. Our approach leverages a parametric attacker LLM to produce semantically disguised malicious prompts through strategic rewriting techniques, specialized system prompts, and optimized hyperparameter configurations. The primary contribution of our work is a dynamic, multi-turn attack methodology that analyzes failed jailbreak attempts and iteratively generates refined follow-up prompts, leveraging techniques such as roleplaying, misdirection, and contextual manipulation. We quantitatively evaluate attack success rate (ASR) using the StrongREJECT (arXiv:2402.10260 [cs.CL]) framework across sequential interaction turns. Through extensive empirical evaluation of state-of-the-art models--including ChatGPT, Llama, and DeepSeek--we reveal significant vulnerabilities, with our automated attacks achieving jailbreak success rates of up to 86% for harmful content generation. Our findings reveal that current safety mechanisms remain susceptible to sophisticated multi-turn attacks, emphasizing the urgent need for more robust defense strategies.