PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

📄 arXiv: 2507.21540v1 📥 PDF

作者: Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang

分类: cs.CR, cs.CV

发布日期: 2025-07-29


💡 一句话要点

PRISM:利用图像序列操作进行程序化推理,实现LVLM的越狱攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视觉语言模型 越狱攻击 对抗性攻击 组合推理 面向返回编程

📋 核心要点

  1. 现有LVLM越狱方法依赖直接提示,忽略了模型在多步推理中组合信息的脆弱性。
  2. PRISM框架借鉴ROP思想,将有害指令分解为良性视觉片段,诱导模型组合生成恶意输出。
  3. 实验表明,PRISM在SafeBench等基准上显著优于现有方法,攻击成功率提升高达0.39。

📝 摘要(中文)

大型视觉语言模型(LVLMs)的日益成熟伴随着旨在防止有害内容生成的安全对齐机制的进步。然而,这些防御措施仍然容易受到复杂的对抗性攻击。现有的越狱方法通常依赖于直接和语义上明确的提示,忽略了LVLMs在多个推理步骤中组合信息的方式中的细微漏洞。本文提出了一种新颖有效的越狱框架,其灵感来自软件安全中的面向返回编程(ROP)技术。我们的方法将有害指令分解为一系列单独的良性视觉小工具。精心设计的文本提示指导输入序列,提示模型通过其推理过程整合良性视觉小工具,以产生连贯且有害的输出。这使得恶意意图具有突发性,并且难以从任何单个组件中检测到。我们通过在包括SafeBench和MM-SafetyBench在内的已建立基准上进行的大量实验来验证我们的方法,目标是流行的LVLMs。结果表明,我们的方法始终且大幅优于最先进模型上的现有基线,实现了接近完美的攻击成功率(在SafeBench上超过0.90),并将ASR提高了高达0.39。我们的发现揭示了一个关键且未被充分探索的漏洞,该漏洞利用了LVLMs的组合推理能力,突显了迫切需要保护整个推理过程的防御措施。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLMs)虽然具备一定的安全对齐机制,但仍然容易受到对抗性攻击,特别是那些能够利用模型组合推理能力的攻击。现有的越狱方法主要依赖于直接且语义明确的提示,缺乏对模型在多步骤推理过程中潜在漏洞的有效利用。因此,如何设计一种能够有效绕过LVLM安全防御,并利用其组合推理能力进行恶意内容生成的攻击方法是一个关键问题。

核心思路:PRISM的核心思路是借鉴软件安全领域的面向返回编程(ROP)技术,将一个有害的指令分解为一系列单独的、良性的视觉“小工具”(gadgets)。通过精心设计的文本提示,引导模型按照特定的顺序处理这些视觉小工具,最终将这些良性的片段组合成一个具有恶意意图的完整输出。这种方法使得恶意意图隐藏在多个步骤中,难以从单个组件中检测出来。

技术框架:PRISM框架主要包含以下几个关键步骤:1) 将目标恶意指令分解为一系列良性的视觉小工具。2) 设计一个文本提示,该提示能够引导LVLM按照预定的顺序处理这些视觉小工具。3) 将视觉小工具和文本提示输入到LVLM中,诱导模型进行推理和组合。4) 评估LVLM的输出是否符合预期的恶意目标。整个流程旨在利用LVLM的组合推理能力,使其在不知不觉中生成有害内容。

关键创新:PRISM最重要的技术创新在于其将面向返回编程(ROP)的思想引入到LVLM的越狱攻击中。与传统的直接提示攻击不同,PRISM通过分解恶意指令并利用模型的组合推理能力,实现了更加隐蔽和有效的攻击。这种方法能够绕过现有的安全防御机制,揭示了LVLM在多步骤推理过程中存在的潜在漏洞。

关键设计:PRISM的关键设计包括:1) 如何选择和设计良性的视觉小工具,使其在单独看来无害,但组合起来能够实现恶意目标。2) 如何设计文本提示,使其能够有效地引导LVLM按照预定的顺序处理这些视觉小工具。3) 如何评估LVLM的输出,判断其是否符合预期的恶意目标。这些设计需要根据具体的攻击目标和LVLM的特性进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PRISM在SafeBench和MM-SafetyBench等基准测试中取得了显著的成果。在SafeBench上,PRISM实现了接近完美的攻击成功率(超过0.90),表明其能够有效地绕过现有的安全防御机制。与现有基线方法相比,PRISM的攻击成功率(ASR)提升高达0.39,证明了其在LVLM越狱攻击方面的优越性。这些实验结果充分验证了PRISM的有效性和创新性。

🎯 应用场景

PRISM的研究成果可以应用于评估和提升大型视觉语言模型的安全性。通过模拟PRISM攻击,可以发现LVLM在组合推理方面的潜在漏洞,并开发相应的防御机制。此外,该研究还可以促进对LVLM安全对齐策略的改进,使其能够更好地抵御复杂的对抗性攻击,从而降低LVLM被用于恶意目的的风险。

📄 摘要(原文)

The increasing sophistication of large vision-language models (LVLMs) has been accompanied by advances in safety alignment mechanisms designed to prevent harmful content generation. However, these defenses remain vulnerable to sophisticated adversarial attacks. Existing jailbreak methods typically rely on direct and semantically explicit prompts, overlooking subtle vulnerabilities in how LVLMs compose information over multiple reasoning steps. In this paper, we propose a novel and effective jailbreak framework inspired by Return-Oriented Programming (ROP) techniques from software security. Our approach decomposes a harmful instruction into a sequence of individually benign visual gadgets. A carefully engineered textual prompt directs the sequence of inputs, prompting the model to integrate the benign visual gadgets through its reasoning process to produce a coherent and harmful output. This makes the malicious intent emergent and difficult to detect from any single component. We validate our method through extensive experiments on established benchmarks including SafeBench and MM-SafetyBench, targeting popular LVLMs. Results show that our approach consistently and substantially outperforms existing baselines on state-of-the-art models, achieving near-perfect attack success rates (over 0.90 on SafeBench) and improving ASR by up to 0.39. Our findings reveal a critical and underexplored vulnerability that exploits the compositional reasoning abilities of LVLMs, highlighting the urgent need for defenses that secure the entire reasoning process.