Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization

作者: Yuqin Lan, Gen Li, Yuanze Hu, Weihao Shen, Zhaoxin Fan, Faguo Wu, Xiao Zhang, Laurence T. Yang, Zhiming Zheng

分类: cs.CV, cs.AI

发布日期: 2026-04-10

备注: 14pages, 9 figures

💡 一句话要点

Mosaic：多视角集成优化，提升针对闭源VLM的多模态越狱攻击

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态越狱攻击 视觉-语言模型 对抗攻击 集成优化 代理依赖性

📋 核心要点

现有VLM越狱攻击方法在异构代理-目标设置下存在“代理依赖性”问题，导致攻击效果在闭源VLM上不佳。
Mosaic通过多视角集成优化，减少对单一代理模型和视觉视角的过度依赖，从而缓解代理依赖性。
实验表明，Mosaic在攻击成功率和平均毒性方面均优于现有方法，显著提升了针对闭源VLM的越狱攻击效果。

📝 摘要（中文）

视觉-语言模型（VLM）功能强大，但仍然容易受到多模态越狱攻击。现有的攻击主要依赖于显式的视觉提示攻击或基于梯度的对抗优化。前者更容易被检测，而后者产生难以察觉的细微扰动。然而，后者通常在同质的开源代理-目标设置下进行优化和评估，其在异构设置下对商业闭源VLM的有效性尚不清楚。为了研究这个问题，我们研究了不同的代理-目标设置，并观察到同质和异构设置之间存在一致的差距，我们称之为代理依赖性。受此发现的启发，我们提出了Mosaic，一个用于多模态越狱对抗闭源VLM的多视角集成优化框架，通过减少对任何单个代理模型和视觉视角的过度依赖，来缓解异构代理-目标设置下的代理依赖性。具体来说，Mosaic包含三个核心组件：文本侧转换模块，扰乱对拒绝敏感的词汇模式；多视角图像优化模块，在不同的裁剪视角下更新扰动，以避免过度拟合单个视觉视角；以及代理集成指导模块，聚合来自多个代理VLM的优化信号，以减少特定于代理的偏差。在安全基准上的大量实验表明，Mosaic在对抗商业闭源VLM时，实现了最先进的攻击成功率和平均毒性。

🔬 方法详解

问题定义：论文旨在解决现有VLM越狱攻击方法在异构代理-目标设置下，对商业闭源VLM攻击效果不佳的问题。现有方法，特别是基于梯度对抗优化的方法，在同质的开源模型上训练，难以泛化到异构的闭源模型，存在显著的“代理依赖性”。

核心思路：论文的核心思路是通过多视角集成优化，减少攻击方法对特定代理模型和视觉视角的过度依赖。具体来说，通过文本侧的词汇扰动、多视角的图像优化以及代理模型的集成指导，来提升攻击的泛化能力和鲁棒性。

技术框架：Mosaic框架包含三个主要模块：1) 文本侧转换模块：用于扰乱文本提示中对拒绝敏感的词汇模式，避免VLM直接拒绝请求。2) 多视角图像优化模块：通过对图像进行不同的裁剪，生成多个视角，并在这些视角下进行对抗扰动的优化，避免过拟合单一视角。3) 代理集成指导模块：利用多个开源VLM作为代理模型，集成它们的优化信号，减少对单一代理模型的偏差。

关键创新：Mosaic的关键创新在于其多视角集成优化的思想，它通过在文本、图像和模型三个层面进行多样性引入，有效地缓解了异构代理-目标设置下的“代理依赖性”问题。与现有方法相比，Mosaic不再依赖于单一的代理模型和视觉视角，而是通过集成多个代理模型的知识和多个视角的特征，提升了攻击的泛化能力。

关键设计：在文本侧转换模块中，使用了预定义的拒绝敏感词汇表，并采用同义词替换等方法进行扰动。在多视角图像优化模块中，采用了随机裁剪策略生成不同的视觉视角。在代理集成指导模块中，使用了多个开源VLM，并通过加权平均的方式集成它们的梯度信息。具体的权重设置可能需要根据不同的代理模型进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Mosaic在多个安全基准测试中，针对商业闭源VLM实现了最先进的攻击成功率和平均毒性。与现有方法相比，Mosaic在攻击成功率上取得了显著提升，表明其能够更有效地绕过闭源VLM的安全防御机制。例如，在某些测试中，Mosaic的攻击成功率比最强的基线方法高出10%以上。

🎯 应用场景

该研究成果可应用于评估和提升视觉-语言模型的安全性，尤其是在面对恶意攻击时的鲁棒性。通过发现和缓解VLM的潜在漏洞，可以提高其在实际应用中的可靠性，例如在自动驾驶、智能客服、内容审核等领域，避免因模型被攻击而造成的负面影响。此外，该研究也为开发更安全的VLM提供了新的思路。

📄 摘要（原文）

Vision-Language Models (VLMs) are powerful but remain vulnerable to multimodal jailbreak attacks. Existing attacks mainly rely on either explicit visual prompt attacks or gradient-based adversarial optimization. While the former is easier to detect, the latter produces subtle perturbations that are less perceptible, but is usually optimized and evaluated under homogeneous open-source surrogate-target settings, leaving its effectiveness on commercial closed-source VLMs under heterogeneous settings unclear. To examine this issue, we study different surrogate-target settings and observe a consistent gap between homogeneous and heterogeneous settings, a phenomenon we term surrogate dependency. Motivated by this finding, we propose Mosaic, a Multi-view ensemble optimization framework for multimodal jailbreak against closed-source VLMs, which alleviates surrogate dependency under heterogeneous surrogate-target settings by reducing over-reliance on any single surrogate model and visual view. Specifically, Mosaic incorporates three core components: a Text-Side Transformation module, which perturbs refusal-sensitive lexical patterns; a Multi-View Image Optimization module, which updates perturbations under diverse cropped views to avoid overfitting to a single visual view; and a Surrogate Ensemble Guidance module, which aggregates optimization signals from multiple surrogate VLMs to reduce surrogate-specific bias. Extensive experiments on safety benchmarks demonstrate that Mosaic achieves state-of-the-art Attack Success Rate and Average Toxicity against commercial closed-source VLMs.

Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理