MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks

作者: Wenhao You, Bryan Hooi, Yiwei Wang, Youke Wang, Zong Ke, Ming-Hsuan Yang, Zi Huang, Yujun Cai

分类: cs.CL, cs.CR

发布日期: 2025-03-24

💡 一句话要点

提出MIRAGE框架，利用多模态沉浸式推理和引导探索实现对MLLM的红队越狱攻击。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 越狱攻击 红队测试 安全机制 跨模态推理 角色扮演 叙事驱动

📋 核心要点

现有MLLM安全机制在过滤有害文本输入方面存在不足，容易受到利用跨模态推理能力的越狱攻击。
MIRAGE框架通过构建叙事驱动的视觉故事序列，引导模型进行角色扮演，从而绕过安全机制。
实验表明，MIRAGE在多个MLLM上实现了最先进的攻击成功率，最高提升达17.5%。

📝 摘要（中文）

尽管安全机制在过滤有害文本输入方面取得了显著进展，但多模态大型语言模型（MLLM）仍然容易受到利用其跨模态推理能力的多模态越狱攻击。我们提出了MIRAGE，一种新颖的多模态越狱框架，它利用叙事驱动的上下文和角色沉浸来规避MLLM中的安全机制。通过将有害查询系统地分解为环境、角色和行动三元组，MIRAGE使用Stable Diffusion构建图像和文本的多轮视觉故事序列，引导目标模型完成引人入胜的侦探叙事。这个过程逐步降低模型的防御能力，并通过结构化的上下文线索巧妙地引导其推理，最终引出有害的响应。在对选定数据集和六个主流MLLM的大量实验中，MIRAGE取得了最先进的性能，攻击成功率比最佳基线提高了高达17.5%。此外，我们证明了角色沉浸和结构化语义重建可以激活固有的模型偏差，促进模型自发违反道德保障。这些结果突出了当前多模态安全机制的关键弱点，并强调了迫切需要更强大的防御措施来应对跨模态威胁。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）容易受到多模态越狱攻击的问题。现有的安全机制主要集中在过滤有害文本输入，但对于利用跨模态推理能力的攻击防御不足，攻击者可以通过精心设计的图像和文本组合绕过这些防御。

核心思路：MIRAGE的核心思路是利用叙事驱动的上下文和角色沉浸来逐步降低MLLM的防御能力。通过将有害查询分解为环境、角色和行动三元组，并构建一个引人入胜的视觉故事，引导模型在角色扮演中产生有害响应。这种方法模拟了人类的推理过程，利用了模型固有的偏差。

技术框架：MIRAGE框架包含以下主要阶段：1) 有害查询分解：将有害查询分解为环境、角色和行动三元组。2) 视觉故事生成：使用Stable Diffusion等图像生成模型，根据环境、角色和行动三元组生成一系列图像和文本，构成一个多轮视觉故事。3) 模型引导：将视觉故事输入目标MLLM，通过多轮对话引导模型进行推理和角色扮演。4) 有害响应提取：从模型的响应中提取有害内容。

关键创新：MIRAGE的关键创新在于其利用叙事驱动的上下文和角色沉浸来引导模型产生有害响应。与传统的直接攻击方法不同，MIRAGE通过构建一个逐步引导的推理过程，降低了模型的防御意识，更容易触发其固有的偏差。此外，将有害查询分解为环境、角色和行动三元组，使得攻击更具针对性和可控性。

关键设计：在视觉故事生成阶段，需要精心设计图像和文本的内容，以确保故事的连贯性和逻辑性，同时逐步引导模型进入角色。环境、角色和行动三元组的设计需要充分考虑目标模型的特点和安全机制，选择合适的关键词和场景，以最大程度地提高攻击成功率。此外，多轮对话的轮数和每轮对话的内容也需要进行优化，以平衡引导效果和攻击效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MIRAGE在六个主流MLLM上取得了最先进的攻击成功率，比最佳基线提高了高达17.5%。角色沉浸和结构化语义重建能够有效激活模型固有的偏差，导致模型自发违反道德保障。这些结果突出了当前多模态安全机制的脆弱性，并验证了MIRAGE框架的有效性。

🎯 应用场景

该研究成果可应用于评估和改进多模态大型语言模型的安全性。通过使用MIRAGE框架进行红队测试，可以发现模型在跨模态推理方面的潜在漏洞，并为开发更强大的防御机制提供指导。此外，该研究还可以促进对模型偏差和安全风险的更深入理解。

📄 摘要（原文）

While safety mechanisms have significantly progressed in filtering harmful text inputs, MLLMs remain vulnerable to multimodal jailbreaks that exploit their cross-modal reasoning capabilities. We present MIRAGE, a novel multimodal jailbreak framework that exploits narrative-driven context and role immersion to circumvent safety mechanisms in Multimodal Large Language Models (MLLMs). By systematically decomposing the toxic query into environment, role, and action triplets, MIRAGE constructs a multi-turn visual storytelling sequence of images and text using Stable Diffusion, guiding the target model through an engaging detective narrative. This process progressively lowers the model's defences and subtly guides its reasoning through structured contextual cues, ultimately eliciting harmful responses. In extensive experiments on the selected datasets with six mainstream MLLMs, MIRAGE achieves state-of-the-art performance, improving attack success rates by up to 17.5% over the best baselines. Moreover, we demonstrate that role immersion and structured semantic reconstruction can activate inherent model biases, facilitating the model's spontaneous violation of ethical safeguards. These results highlight critical weaknesses in current multimodal safety mechanisms and underscore the urgent need for more robust defences against cross-modal threats.

MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理