Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization

📄 arXiv: 2604.09253v1 📥 PDF

作者: Yuqin Lan, Gen Li, Yuanze Hu, Weihao Shen, Zhaoxin Fan, Faguo Wu, Xiao Zhang, Laurence T. Yang, Zhiming Zheng

分类: cs.CV, cs.AI

发布日期: 2026-04-10

备注: 14pages, 9 figures


💡 一句话要点

Mosaic:多视角集成优化,提升针对闭源VLM的多模态越狱攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态越狱攻击 视觉-语言模型 对抗攻击 集成优化 代理依赖性

📋 核心要点

  1. 现有VLM越狱攻击方法在异构代理-目标设置下存在“代理依赖性”问题,导致攻击效果在闭源VLM上不佳。
  2. Mosaic通过多视角集成优化,减少对单一代理模型和视觉视角的过度依赖,从而缓解代理依赖性。
  3. 实验表明,Mosaic在攻击成功率和平均毒性方面均优于现有方法,显著提升了针对闭源VLM的越狱攻击效果。

📝 摘要(中文)

视觉-语言模型(VLM)功能强大,但仍然容易受到多模态越狱攻击。现有的攻击主要依赖于显式的视觉提示攻击或基于梯度的对抗优化。前者更容易被检测,而后者产生难以察觉的细微扰动。然而,后者通常在同质的开源代理-目标设置下进行优化和评估,其在异构设置下对商业闭源VLM的有效性尚不清楚。为了研究这个问题,我们研究了不同的代理-目标设置,并观察到同质和异构设置之间存在一致的差距,我们称之为代理依赖性。受此发现的启发,我们提出了Mosaic,一个用于多模态越狱对抗闭源VLM的多视角集成优化框架,通过减少对任何单个代理模型和视觉视角的过度依赖,来缓解异构代理-目标设置下的代理依赖性。具体来说,Mosaic包含三个核心组件:文本侧转换模块,扰乱对拒绝敏感的词汇模式;多视角图像优化模块,在不同的裁剪视角下更新扰动,以避免过度拟合单个视觉视角;以及代理集成指导模块,聚合来自多个代理VLM的优化信号,以减少特定于代理的偏差。在安全基准上的大量实验表明,Mosaic在对抗商业闭源VLM时,实现了最先进的攻击成功率和平均毒性。

🔬 方法详解

问题定义:论文旨在解决现有VLM越狱攻击方法在异构代理-目标设置下,对商业闭源VLM攻击效果不佳的问题。现有方法,特别是基于梯度对抗优化的方法,在同质的开源模型上训练,难以泛化到异构的闭源模型,存在显著的“代理依赖性”。

核心思路:论文的核心思路是通过多视角集成优化,减少攻击方法对特定代理模型和视觉视角的过度依赖。具体来说,通过文本侧的词汇扰动、多视角的图像优化以及代理模型的集成指导,来提升攻击的泛化能力和鲁棒性。

技术框架:Mosaic框架包含三个主要模块:1) 文本侧转换模块:用于扰乱文本提示中对拒绝敏感的词汇模式,避免VLM直接拒绝请求。2) 多视角图像优化模块:通过对图像进行不同的裁剪,生成多个视角,并在这些视角下进行对抗扰动的优化,避免过拟合单一视角。3) 代理集成指导模块:利用多个开源VLM作为代理模型,集成它们的优化信号,减少对单一代理模型的偏差。

关键创新:Mosaic的关键创新在于其多视角集成优化的思想,它通过在文本、图像和模型三个层面进行多样性引入,有效地缓解了异构代理-目标设置下的“代理依赖性”问题。与现有方法相比,Mosaic不再依赖于单一的代理模型和视觉视角,而是通过集成多个代理模型的知识和多个视角的特征,提升了攻击的泛化能力。

关键设计:在文本侧转换模块中,使用了预定义的拒绝敏感词汇表,并采用同义词替换等方法进行扰动。在多视角图像优化模块中,采用了随机裁剪策略生成不同的视觉视角。在代理集成指导模块中,使用了多个开源VLM,并通过加权平均的方式集成它们的梯度信息。具体的权重设置可能需要根据不同的代理模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Mosaic在多个安全基准测试中,针对商业闭源VLM实现了最先进的攻击成功率和平均毒性。与现有方法相比,Mosaic在攻击成功率上取得了显著提升,表明其能够更有效地绕过闭源VLM的安全防御机制。例如,在某些测试中,Mosaic的攻击成功率比最强的基线方法高出10%以上。

🎯 应用场景

该研究成果可应用于评估和提升视觉-语言模型的安全性,尤其是在面对恶意攻击时的鲁棒性。通过发现和缓解VLM的潜在漏洞,可以提高其在实际应用中的可靠性,例如在自动驾驶、智能客服、内容审核等领域,避免因模型被攻击而造成的负面影响。此外,该研究也为开发更安全的VLM提供了新的思路。

📄 摘要(原文)

Vision-Language Models (VLMs) are powerful but remain vulnerable to multimodal jailbreak attacks. Existing attacks mainly rely on either explicit visual prompt attacks or gradient-based adversarial optimization. While the former is easier to detect, the latter produces subtle perturbations that are less perceptible, but is usually optimized and evaluated under homogeneous open-source surrogate-target settings, leaving its effectiveness on commercial closed-source VLMs under heterogeneous settings unclear. To examine this issue, we study different surrogate-target settings and observe a consistent gap between homogeneous and heterogeneous settings, a phenomenon we term surrogate dependency. Motivated by this finding, we propose Mosaic, a Multi-view ensemble optimization framework for multimodal jailbreak against closed-source VLMs, which alleviates surrogate dependency under heterogeneous surrogate-target settings by reducing over-reliance on any single surrogate model and visual view. Specifically, Mosaic incorporates three core components: a Text-Side Transformation module, which perturbs refusal-sensitive lexical patterns; a Multi-View Image Optimization module, which updates perturbations under diverse cropped views to avoid overfitting to a single visual view; and a Surrogate Ensemble Guidance module, which aggregates optimization signals from multiple surrogate VLMs to reduce surrogate-specific bias. Extensive experiments on safety benchmarks demonstrate that Mosaic achieves state-of-the-art Attack Success Rate and Average Toxicity against commercial closed-source VLMs.