VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack
作者: Shiji Zhao, Shukun Xiong, Yao Huang, Yan Jin, Zhenyu Wu, Jiyang Guan, Ranjie Duan, Jialing Tao, Hui Xue, Xingxing Wei
分类: cs.CV
发布日期: 2025-12-05 (更新: 2025-12-08)
💡 一句话要点
提出VRSA:通过视觉推理序列攻击破解多模态大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 越狱攻击 视觉推理 序列攻击 安全性评估
📋 核心要点
- 现有MLLM越狱攻击主要集中在文本模态,忽略了视觉模态中利用推理能力进行攻击的潜在风险。
- VRSA将有害文本分解为一系列相关的子图像,诱导MLLM逐步暴露有害意图,实现更有效的攻击。
- 实验表明,VRSA在开源和闭源MLLM上均优于现有方法,显著提高了攻击成功率。
📝 摘要(中文)
多模态大语言模型(MLLMs)因其强大的跨模态理解和生成能力而被广泛应用于各个领域。然而,更多的模态也带来了更多的漏洞,可能被用于越狱攻击,诱导MLLMs输出有害内容。由于MLLMs强大的推理能力,之前的越狱攻击尝试探索文本模态中的推理安全风险,而视觉模态中的类似威胁在很大程度上被忽视了。为了充分评估视觉推理任务中潜在的安全风险,我们提出了视觉推理序列攻击(VRSA),它通过将原始有害文本分解为几个顺序相关的子图像,诱导MLLMs逐步外化和聚合完整的有害意图。特别地,为了增强图像序列中场景的合理性,我们提出了自适应场景细化来优化与原始有害查询最相关的场景。为了确保生成图像的语义连续性,我们提出了语义连贯补全来迭代地重写每个子文本,并结合该场景中的上下文信息。此外,我们提出了文本-图像一致性对齐来保持语义一致性。一系列实验表明,与GPT-4o和Claude-4.5-Sonnet等开源和闭源MLLMs上最先进的越狱攻击方法相比,VRSA可以实现更高的攻击成功率。
🔬 方法详解
问题定义:现有的多模态大语言模型(MLLMs)容易受到越狱攻击,导致其生成有害内容。虽然已经有一些针对文本模态的攻击方法,但视觉模态中利用推理能力进行攻击的风险被忽视了。现有的方法无法有效地利用视觉信息中的推理线索来诱导MLLMs生成有害内容。
核心思路:VRSA的核心思想是将一个有害的文本指令分解成一系列相关的子图像,每个子图像对应原始指令的一部分。通过逐步呈现这些子图像,MLLM需要进行视觉推理才能理解完整的有害意图,从而更容易被诱导生成有害内容。这种方法利用了MLLM在视觉推理方面的能力,同时也放大了其潜在的安全漏洞。
技术框架:VRSA包含以下几个主要模块:1) 有害文本分解:将原始有害文本分解为一系列顺序相关的子文本。2) 自适应场景细化:优化每个子文本对应的场景,使其与原始有害查询更相关。3) 语义连贯补全:迭代地重写每个子文本,结合上下文信息,确保生成图像的语义连贯性。4) 文本-图像一致性对齐:保持文本和图像之间的语义一致性。整个流程通过序列化的图像输入,逐步引导MLLM暴露有害意图。
关键创新:VRSA的关键创新在于其利用视觉推理的方式进行越狱攻击。与传统的文本攻击不同,VRSA通过图像序列逐步引导MLLM理解有害意图,从而绕过安全机制。自适应场景细化和语义连贯补全进一步增强了攻击的有效性。
关键设计:自适应场景细化使用了一种优化算法,根据原始有害查询来调整图像场景,使其更具欺骗性。语义连贯补全使用循环神经网络(RNN)或Transformer模型,根据上下文信息生成更连贯的子文本。文本-图像一致性对齐使用对比学习损失,确保文本和图像在语义空间中对齐。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VRSA在多种MLLM上均取得了显著的攻击效果,攻击成功率远高于现有的越狱攻击方法。例如,在GPT-4o和Claude-4.5-Sonnet等闭源模型上,VRSA的攻击成功率也明显高于其他基线方法,证明了其有效性和泛化能力。
🎯 应用场景
该研究成果可应用于评估和提升多模态大语言模型的安全性。通过VRSA,可以发现MLLM在视觉推理方面的安全漏洞,并开发相应的防御机制。此外,该研究也为其他模态的越狱攻击提供了新的思路,有助于构建更安全可靠的多模态人工智能系统。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) are widely used in various fields due to their powerful cross-modal comprehension and generation capabilities. However, more modalities bring more vulnerabilities to being utilized for jailbreak attacks, which induces MLLMs to output harmful content. Due to the strong reasoning ability of MLLMs, previous jailbreak attacks try to explore reasoning safety risk in text modal, while similar threats have been largely overlooked in the visual modal. To fully evaluate potential safety risks in the visual reasoning task, we propose Visual Reasoning Sequential Attack (VRSA), which induces MLLMs to gradually externalize and aggregate complete harmful intent by decomposing the original harmful text into several sequentially related sub-images. In particular, to enhance the rationality of the scene in the image sequence, we propose Adaptive Scene Refinement to optimize the scene most relevant to the original harmful query. To ensure the semantic continuity of the generated image, we propose Semantic Coherent Completion to iteratively rewrite each sub-text combined with contextual information in this scene. In addition, we propose Text-Image Consistency Alignment to keep the semantical consistency. A series of experiments demonstrates that the VRSA can achieve a higher attack success rate compared with the state-of-the-art jailbreak attack methods on both the open-source and closed-source MLLMs such as GPT-4o and Claude-4.5-Sonnet.