Benign-to-Toxic Jailbreaking: Inducing Harmful Responses from Harmless Prompts

📄 arXiv: 2505.21556v1 📥 PDF

作者: Hee-Seon Kim, Minbeom Kim, Wonjun Lee, Kihyun Kim, Changick Kim

分类: cs.CV, cs.AI

发布日期: 2025-05-26

备注: LVLM, Jailbreak


💡 一句话要点

提出Benign-to-Toxic越狱方法,利用良性提示诱导大型视觉语言模型产生有害响应

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 越狱攻击 对抗样本 多模态对齐 安全性评估

📋 核心要点

  1. 现有基于优化的越狱方法在处理已包含毒性信息的输入时有效,但难以从无毒输入中诱导有害响应。
  2. 论文提出Benign-to-Toxic (B2T) 越狱范式,通过优化对抗图像,使模型在良性提示下产生有害输出。
  3. 实验表明,B2T方法优于现有方法,具有黑盒迁移能力,并能与文本越狱方法互补,揭示了多模态对齐的潜在漏洞。

📝 摘要(中文)

基于优化的越狱方法通常采用大型视觉语言模型(LVLMs)中的Toxic-Continuation设置,遵循标准的下一个token预测目标。在这种设置下,对抗性图像被优化以使模型预测有毒提示的下一个token。然而,我们发现Toxic-Continuation范式在继续已经有毒的输入方面有效,但在没有明确的有毒信号时,难以诱导安全机制失效。我们提出了一种新的范式:Benign-to-Toxic(B2T)越狱。与之前的工作不同,我们优化对抗性图像以从良性条件诱导有毒输出。由于良性条件不包含任何安全违规行为,因此图像本身必须打破模型的安全机制。我们的方法优于先前的方法,在黑盒设置中进行迁移,并补充了基于文本的越狱。这些结果揭示了多模态对齐中一个未被充分探索的漏洞,并为越狱方法引入了一个全新的方向。

🔬 方法详解

问题定义:现有基于优化的越狱方法,如Toxic-Continuation,主要关注如何让模型在接收到已经包含有害信息的提示后,继续生成有害内容。这种方法依赖于提示中的毒性信号,当输入为良性提示时,模型通常能够保持安全对齐。因此,如何从完全无害的输入中诱导大型视觉语言模型产生有害响应,是一个具有挑战性的问题。

核心思路:论文的核心思路是设计一种新的越狱范式,即Benign-to-Toxic (B2T)。B2T的核心在于,它不再依赖于提示中的毒性信号,而是通过精心设计的对抗性图像,直接绕过模型的安全机制,使其在接收到良性提示和对抗图像的组合后,产生有害的输出。这种方法的目的是揭示模型在多模态对齐方面的潜在漏洞。

技术框架:B2T越狱的技术框架主要包括以下几个步骤:1) 选择一个良性的文本提示作为输入;2) 生成一个对抗性图像,该图像经过优化,能够诱导模型产生有害输出;3) 将良性提示和对抗性图像输入到大型视觉语言模型中;4) 通过优化算法,不断调整对抗性图像,直到模型产生有害输出。整个过程的目标是找到一个能够最大程度地诱导模型产生有害响应的对抗性图像。

关键创新:B2T方法的关键创新在于它改变了越狱的范式。传统的越狱方法主要关注如何利用提示中的毒性信号,而B2T则关注如何通过对抗性图像,直接绕过模型的安全机制。这种新的范式揭示了模型在多模态对齐方面的一个潜在漏洞,即模型可能无法有效地将图像中的信息与文本提示中的信息进行整合,从而导致安全机制失效。

关键设计:B2T方法的关键设计在于对抗性图像的生成。对抗性图像的生成通常采用基于优化的方法,例如梯度下降法。具体来说,可以定义一个损失函数,该损失函数衡量模型输出的毒性程度。然后,通过梯度下降法,不断调整图像的像素值,以最小化损失函数。在优化过程中,可以采用一些正则化技术,以防止对抗性图像过于明显。此外,还可以采用一些对抗训练技术,以提高对抗性图像的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,B2T方法在诱导大型视觉语言模型产生有害响应方面,优于现有的Toxic-Continuation方法。此外,B2T方法具有良好的黑盒迁移能力,即在不同的模型上也能有效地进行越狱。更重要的是,B2T方法可以与文本越狱方法互补,进一步提高了越狱的成功率。这些结果表明,B2T方法是一种有效的越狱方法,并揭示了多模态对齐的潜在漏洞。

🎯 应用场景

该研究成果可应用于评估和提升大型视觉语言模型的安全性。通过B2T方法,可以发现模型在多模态对齐方面的潜在漏洞,从而有针对性地进行改进。此外,该方法还可以用于开发更强大的防御机制,以防止恶意用户利用对抗性图像进行攻击。未来,该研究或可推动多模态安全对齐技术的发展。

📄 摘要(原文)

Optimization-based jailbreaks typically adopt the Toxic-Continuation setting in large vision-language models (LVLMs), following the standard next-token prediction objective. In this setting, an adversarial image is optimized to make the model predict the next token of a toxic prompt. However, we find that the Toxic-Continuation paradigm is effective at continuing already-toxic inputs, but struggles to induce safety misalignment when explicit toxic signals are absent. We propose a new paradigm: Benign-to-Toxic (B2T) jailbreak. Unlike prior work, we optimize adversarial images to induce toxic outputs from benign conditioning. Since benign conditioning contains no safety violations, the image alone must break the model's safety mechanisms. Our method outperforms prior approaches, transfers in black-box settings, and complements text-based jailbreaks. These results reveal an underexplored vulnerability in multimodal alignment and introduce a fundamentally new direction for jailbreak approaches.