DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization

📄 arXiv: 2504.18564v2 📥 PDF

作者: Xinzhe Huang, Kedong Xiu, Tianhang Zheng, Churui Zeng, Wangze Ni, Zhan Qin, Kui Ren, Chun Chen

分类: cs.CR, cs.AI

发布日期: 2025-04-21 (更新: 2025-10-04)

备注: 20 pages, 8 figures


💡 一句话要点

提出DualBreach框架,通过目标驱动初始化和多目标优化实现高效的大语言模型双重越狱攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 安全防护 目标驱动 多目标优化

📋 核心要点

  1. 现有攻击方法在绕过安全对齐的LLM和Guardrails时效果有限,缺乏对双重越狱攻击的充分研究。
  2. DualBreach通过目标驱动初始化动态构建提示,并利用多目标优化方法联合调整LLM和Guardrails的提示。
  3. 实验结果表明,DualBreach在双重越狱成功率和查询效率方面优于现有方法,并提出了有效的防御机制EGuard。

📝 摘要(中文)

本文提出DualBreach,一个目标驱动的双重越狱框架,旨在同时绕过大型语言模型(LLM)及其安全防护机制(Guardrails)。DualBreach采用目标驱动初始化(TDI)策略动态构建初始提示,并结合多目标优化(MTO)方法,利用近似梯度联合调整LLM和Guardrails的提示,从而在节省查询次数的同时实现高双重越狱成功率。对于黑盒Guardrails,DualBreach通过使用强大的开源Guardrail或训练代理模型来模仿目标黑盒Guardrail,从而将Guardrails纳入MTO过程。在多个广泛使用的数据集上的大量评估表明,DualBreach在双重越狱场景中表现出色,优于现有方法,以更少的查询次数实现了显著更高的成功率。此外,本文还提出了一种基于XGBoost的集成防御机制EGuard,它集成了多个Guardrails的优势,与Llama-Guard-3相比表现出更优越的性能。

🔬 方法详解

问题定义:现有方法在攻击同时受到LLM和Guardrails保护的系统时,成功率较低,查询效率不高。主要痛点在于无法有效利用Guardrails的信息来指导攻击,以及无法在有限的查询次数内同时优化LLM和Guardrails的提示。

核心思路:DualBreach的核心思路是利用目标驱动初始化(TDI)策略生成更有效的初始提示,并采用多目标优化(MTO)方法联合优化LLM和Guardrails的提示。TDI策略旨在生成更接近攻击目标的初始提示,从而加速优化过程。MTO方法则通过近似梯度,在LLM和Guardrails之间平衡优化,从而提高双重越狱的成功率。

技术框架:DualBreach框架主要包含两个阶段:目标驱动初始化(TDI)和多目标优化(MTO)。在TDI阶段,框架根据攻击目标动态生成初始提示。在MTO阶段,框架利用近似梯度联合优化LLM和Guardrails的提示,以提高双重越狱的成功率。对于黑盒Guardrails,框架首先训练一个代理模型来模拟目标Guardrail的行为,然后将代理模型纳入MTO过程中。

关键创新:DualBreach的关键创新在于提出了目标驱动初始化(TDI)和多目标优化(MTO)策略。TDI策略能够生成更有效的初始提示,加速优化过程。MTO策略能够联合优化LLM和Guardrails的提示,提高双重越狱的成功率。与现有方法相比,DualBreach能够更有效地利用Guardrails的信息来指导攻击,并在有限的查询次数内实现更高的双重越狱成功率。

关键设计:TDI策略通过分析攻击目标,生成包含目标关键词的初始提示。MTO策略采用近似梯度来估计LLM和Guardrails的梯度,并利用这些梯度来更新提示。对于黑盒Guardrails,框架使用Transformer模型训练代理模型,并使用交叉熵损失函数来优化代理模型的性能。此外,框架还设计了一种基于XGBoost的集成防御机制EGuard,通过集成多个Guardrails的优势来提高防御能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DualBreach在多个数据集上进行了广泛评估,实验结果表明,DualBreach在双重越狱成功率和查询效率方面优于现有方法。例如,DualBreach针对GPT-4和Llama-Guard-3的组合,实现了93.67%的平均双重越狱成功率,而现有最佳方法的成功率为88.33%。此外,DualBreach平均每次成功双重越狱仅需1.77次查询,显著优于其他方法。

🎯 应用场景

DualBreach的研究成果可应用于评估和提高大型语言模型及其安全防护机制的安全性。通过模拟真实攻击场景,可以发现LLM和Guardrails的潜在漏洞,并为开发更强大的防御机制提供指导。此外,该研究还可以促进对LLM安全性的更深入理解,并为开发更安全可靠的AI系统做出贡献。

📄 摘要(原文)

Recent research has focused on exploring the vulnerabilities of Large Language Models (LLMs), aiming to elicit harmful and/or sensitive content from LLMs. However, due to the insufficient research on dual-jailbreaking -- attacks targeting both LLMs and Guardrails, the effectiveness of existing attacks is limited when attempting to bypass safety-aligned LLMs shielded by guardrails. Therefore, in this paper, we propose DualBreach, a target-driven framework for dual-jailbreaking. DualBreach employs a Target-driven Initialization (TDI) strategy to dynamically construct initial prompts, combined with a Multi-Target Optimization (MTO) method that utilizes approximate gradients to jointly adapt the prompts across guardrails and LLMs, which can simultaneously save the number of queries and achieve a high dual-jailbreaking success rate. For black-box guardrails, DualBreach either employs a powerful open-sourced guardrail or imitates the target black-box guardrail by training a proxy model, to incorporate guardrails into the MTO process. We demonstrate the effectiveness of DualBreach in dual-jailbreaking scenarios through extensive evaluation on several widely-used datasets. Experimental results indicate that DualBreach outperforms state-of-the-art methods with fewer queries, achieving significantly higher success rates across all settings. More specifically, DualBreach achieves an average dual-jailbreaking success rate of 93.67% against GPT-4 with Llama-Guard-3 protection, whereas the best success rate achieved by other methods is 88.33%. Moreover, DualBreach only uses an average of 1.77 queries per successful dual-jailbreak, outperforming other state-of-the-art methods. For the purpose of defense, we propose an XGBoost-based ensemble defensive mechanism named EGuard, which integrates the strengths of multiple guardrails, demonstrating superior performance compared with Llama-Guard-3.