When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?

作者: Yuan Tian, Bing Hu, Fang Wu, Xiaomin Li, Binghang Lu, Neil Zhenqiang Gong

分类: cs.CV, cs.AI, cs.CL, cs.CR, cs.LG

发布日期: 2026-05-27

备注: 17 pages, 6 figures, 7 tables

💡 一句话要点

研究多模态大模型中图像工具交互对越狱攻击鲁棒性的影响因素

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉-语言模型 越狱攻击 安全性 图像工具交互

📋 核心要点

现有视觉-语言模型在安全性方面存在不足，容易受到越狱攻击，威胁用户安全。
论文提出通过显式图像工具交互来提高模型安全性，降低越狱攻击的成功率。
实验表明，显式图像工具交互能显著降低越狱攻击成功率，并提出了图像工具安全向量框架进行解释。

📝 摘要（中文）

本文研究了“图像思考”推理这一新兴的视觉-语言模型推理范式，并着重关注其安全性。现有系统包含多种流程设计，包括直接生成回复、纯文本先验轮次、视觉状态操作和显式的外部图像工具调用。本文旨在探究这些范式中哪些能够提高多模态越狱攻击的鲁棒性，以及其内在原因。实验结果表明，显式的图像工具交互在多个视觉-语言模型中均能产生最低的攻击成功率，平均降低约30%。令人惊讶的是，即使返回的图像工具输出被手动覆盖或本身看起来不安全，攻击成功率仍然很低；但在纯文本先验轮次控制下，攻击成功率接近直接回答的水平。这些结果表明，较低的攻击成功率并非源于良性的返回图像语义或纯文本的图像工具轨迹。为了解释这种现象，本文提出了一个图像工具安全向量框架，将图像工具调用建模为隐藏层表征向安全相关方向的残差偏移。表征层面的分析和激活干预验证了这一解释。总而言之，本文结果表明，显式的图像工具交互是提高越狱鲁棒性的一种有前景的设计模式，同时也推动了针对特定流程的安全评估。

🔬 方法详解

问题定义：当前的大型视觉-语言模型（VLM）面临着安全风险，特别是容易受到多模态越狱攻击。现有的研究对VLM的安全性评估不足，尤其是在“图像思考”推理范式下，各种流程设计（如直接回复、文本先验、视觉状态操作、图像工具调用）对安全性的影响尚不明确。因此，需要研究哪种范式能够提高多模态越狱攻击的鲁棒性，并深入理解其内在机制。

核心思路：论文的核心思路是探究显式图像工具交互对VLM越狱攻击鲁棒性的影响。通过实验发现，显式图像工具交互能够显著降低攻击成功率。为了解释这一现象，论文提出了“图像工具安全向量框架”，将图像工具的调用视为对模型隐藏层表征的一种安全方向的调整。这种调整能够引导模型远离不安全的输出，从而提高安全性。

技术框架：论文主要通过实验分析不同流程设计下的VLM安全性。具体包括：1) 直接回复：VLM直接根据输入的问题和图像生成答案；2) 文本先验：在生成答案之前，先让VLM生成一段文本描述图像；3) 视觉状态操作：通过修改图像的某些属性来影响VLM的输出；4) 图像工具调用：VLM调用外部图像工具来辅助生成答案。论文重点分析了图像工具调用对安全性的影响，并提出了图像工具安全向量框架来解释其作用机制。

关键创新：论文的关键创新在于：1) 揭示了显式图像工具交互能够显著提高VLM的越狱鲁棒性；2) 提出了“图像工具安全向量框架”，从表征学习的角度解释了图像工具交互的作用机制。该框架将图像工具调用视为对模型隐藏层表征的一种安全方向的调整，为理解和提高VLM的安全性提供了新的视角。

关键设计：论文的关键设计包括：1) 多种流程设计的对比实验，包括直接回复、文本先验、视觉状态操作和图像工具调用，以评估不同设计对安全性的影响；2) 对图像工具返回结果的手动覆盖实验，以排除返回图像语义的影响；3) 表征层面的分析和激活干预实验，以验证图像工具安全向量框架的有效性。论文还使用了多种VLM模型进行实验，以保证结果的泛化性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，显式的图像工具交互能够显著降低VLM的越狱攻击成功率，平均降低约30%。即使手动覆盖返回的图像工具输出，攻击成功率仍然较低，这表明图像工具交互本身而非返回图像的语义起到了关键作用。通过表征层面的分析和激活干预，验证了图像工具安全向量框架的有效性。

🎯 应用场景

该研究成果可应用于提升多模态大模型的安全性，尤其是在需要与外部工具交互的场景下，例如智能客服、自动驾驶、医疗诊断等。通过引入显式的图像工具交互，可以有效降低模型被恶意利用的风险，提高系统的整体安全性与可靠性，从而促进大模型在安全敏感领域的应用。

📄 摘要（原文）

Think-with-image reasoning is emerging as a new inference paradigm for large vision-language models, but its safety implications remain poorly understood. Existing systems already span multiple process designs, including direct response generation, text-only prior turn, visual-state manipulation, and explicit external image-tool invocation. In this paper, we ask which of these evaluated paradigms improves multimodal jailbreak robustness, and why. Across multiple vision-language models, explicit image-tool interaction yields the lowest attack success rates in our experiments, reducing jailbreak success by around 30% relative on average across the evaluated models. This finding is initially surprising: ASR remains low even when the returned image-tool output is manually overridden or itself unsafe-looking, but returns near direct-answering levels under text-only prior turn controls. These results indicate that the lower ASR is not explained by benign returned-image semantics or by the textual image-tool trace alone. To explain the pattern, we introduce an image-tool safety vector framework that models image-tool invocation as a residual shift in hidden representations toward a safety-relevant direction. Representation-level analyses and activation interventions support this account. Overall, our results suggest that explicit image-tool interaction is a promising design pattern for improving jailbreak robustness, while also motivating pipeline-specific safety evaluation.

When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理