BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models

📄 arXiv: 2410.09804v3 📥 PDF

作者: Xinyuan Wang, Victor Shea-Jay Huang, Renmiao Chen, Hao Wang, Chengwei Pan, Lei Sha, Minlie Huang

分类: cs.CR, cs.AI, cs.CL, cs.LG, cs.NE

发布日期: 2024-10-13 (更新: 2024-11-27)


💡 一句话要点

BlackDAN:一种黑盒多目标方法,用于大语言模型的有效和上下文相关的越狱攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 多目标优化 黑盒攻击 NSGA-II 安全性评估 对抗样本

📋 核心要点

  1. 现有越狱攻击方法过于关注攻击成功率,忽略了上下文相关性和隐蔽性,导致攻击效果不佳且易被检测。
  2. BlackDAN采用多目标优化框架,利用NSGA-II算法平衡攻击成功率、隐蔽性和语义相关性,生成高质量越狱提示。
  3. 实验表明,BlackDAN在多种LLM和多模态LLM上优于传统方法,提高了攻击成功率和鲁棒性,同时保证了相关性和隐蔽性。

📝 摘要(中文)

大型语言模型(LLMs)在各种任务中表现出卓越的能力,但也面临潜在的安全风险,例如越狱攻击,这些攻击利用漏洞绕过安全措施并生成有害输出。现有的越狱策略主要侧重于最大化攻击成功率(ASR),经常忽略其他关键因素,包括越狱响应与查询的相关性和隐蔽性。这种对单一目标的狭隘关注可能导致无效的攻击,要么缺乏上下文相关性,要么容易被识别。本文介绍BlackDAN,一个创新的黑盒攻击框架,采用多目标优化,旨在生成高质量的提示,有效地促进越狱,同时保持上下文相关性并最小化可检测性。BlackDAN利用多目标进化算法(MOEAs),特别是NSGA-II算法,来优化跨多个目标的越狱,包括ASR、隐蔽性和语义相关性。通过整合诸如突变、交叉和Pareto支配等机制,BlackDAN为生成越狱提供了一个透明且可解释的过程。此外,该框架允许基于用户偏好进行定制,从而能够选择平衡有害性、相关性和其他因素的提示。实验结果表明,BlackDAN优于传统的单目标方法,在各种LLM和多模态LLM中产生更高的成功率和改进的鲁棒性,同时确保越狱响应既相关又不易被检测到。

🔬 方法详解

问题定义:现有的大语言模型越狱攻击方法主要关注提高攻击成功率(ASR),而忽略了生成内容的上下文相关性和隐蔽性。这意味着生成的越狱提示可能与用户的原始意图无关,或者容易被防御机制检测到,从而降低了攻击的有效性。因此,需要一种能够同时优化攻击成功率、上下文相关性和隐蔽性的越狱方法。

核心思路:BlackDAN的核心思路是采用多目标优化算法,将越狱攻击问题建模为一个多目标优化问题。通过同时优化攻击成功率、上下文相关性和隐蔽性,BlackDAN能够生成更有效、更隐蔽的越狱提示。这种方法允许在不同的目标之间进行权衡,从而根据用户的需求定制越狱策略。

技术框架:BlackDAN的整体框架包括以下几个主要模块:1) 提示生成模块:负责生成初始的越狱提示。2) 目标评估模块:评估生成的提示在攻击成功率、上下文相关性和隐蔽性方面的表现。3) 多目标优化模块:使用NSGA-II算法,根据目标评估结果,对提示进行变异、交叉等操作,生成新的提示。4) 提示选择模块:根据Pareto支配关系,选择一组最优的提示,供用户选择。整个流程迭代进行,直到达到预定的迭代次数或满足其他停止条件。

关键创新:BlackDAN最重要的技术创新点在于将多目标优化引入到大语言模型越狱攻击中。与传统的单目标优化方法相比,BlackDAN能够同时优化多个目标,从而生成更有效、更隐蔽的越狱提示。此外,BlackDAN还提供了一个透明且可解释的越狱过程,允许用户根据自己的需求定制越狱策略。

关键设计:BlackDAN的关键设计包括:1) 使用NSGA-II算法进行多目标优化,该算法能够有效地处理多个目标之间的权衡关系。2) 设计了针对攻击成功率、上下文相关性和隐蔽性的评估指标。3) 采用了变异、交叉等遗传算法操作,以生成新的提示。4) 允许用户自定义目标权重,从而根据自己的需求定制越狱策略。具体的损失函数和网络结构未知,因为该方法是黑盒的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BlackDAN在多种LLM和多模态LLM上优于传统的单目标方法。例如,在某些模型上,BlackDAN的攻击成功率比现有方法提高了10%以上,同时保证了生成内容的上下文相关性和隐蔽性。这些结果表明,BlackDAN是一种有效且实用的越狱攻击方法。

🎯 应用场景

BlackDAN的研究成果可应用于评估和提升大语言模型的安全性。通过使用BlackDAN进行越狱攻击,可以发现模型存在的安全漏洞,并针对这些漏洞进行修复,从而提高模型的鲁棒性和安全性。此外,BlackDAN还可以用于生成对抗样本,用于训练更强大的防御模型。

📄 摘要(原文)

While large language models (LLMs) exhibit remarkable capabilities across various tasks, they encounter potential security risks such as jailbreak attacks, which exploit vulnerabilities to bypass security measures and generate harmful outputs. Existing jailbreak strategies mainly focus on maximizing attack success rate (ASR), frequently neglecting other critical factors, including the relevance of the jailbreak response to the query and the level of stealthiness. This narrow focus on single objectives can result in ineffective attacks that either lack contextual relevance or are easily recognizable. In this work, we introduce BlackDAN, an innovative black-box attack framework with multi-objective optimization, aiming to generate high-quality prompts that effectively facilitate jailbreaking while maintaining contextual relevance and minimizing detectability. BlackDAN leverages Multiobjective Evolutionary Algorithms (MOEAs), specifically the NSGA-II algorithm, to optimize jailbreaks across multiple objectives including ASR, stealthiness, and semantic relevance. By integrating mechanisms like mutation, crossover, and Pareto-dominance, BlackDAN provides a transparent and interpretable process for generating jailbreaks. Furthermore, the framework allows customization based on user preferences, enabling the selection of prompts that balance harmfulness, relevance, and other factors. Experimental results demonstrate that BlackDAN outperforms traditional single-objective methods, yielding higher success rates and improved robustness across various LLMs and multimodal LLMs, while ensuring jailbreak responses are both relevant and less detectable.