GPO-V: Jailbreak Diffusion Vision Language Model by Global Probability Optimization

📄 arXiv: 2605.07399v1 📥 PDF

作者: Yu Pan, Andi Zhang, Yi Wang, Sibei Yang, Wenjie Wang

分类: cs.CV

发布日期: 2026-05-08


💡 一句话要点

提出GPO-V框架:通过全局概率优化实现对扩散视觉语言模型的越狱攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散视觉语言模型 模型安全 越狱攻击 全局概率优化 多模态大模型 对抗性攻击 生成式AI安全

📋 核心要点

  1. 现有基于固定前缀的越狱方法(FPO)在dVLMs上失效,因为模型存在独特的渐进式拒绝机制,导致攻击无法绕过安全防御。
  2. 提出全局概率优化(GPO)范式,通过直接操纵扩散模型的全局去噪轨迹,而非仅限于输入前缀,从而绕过模型的安全对齐机制。
  3. 实验证明GPO-V在多模态场景下具有极高的攻击成功率和跨模型迁移性,揭示了非序列生成架构中被忽视的安全风险。

📝 摘要(中文)

扩散视觉语言模型(dVLMs)基于非因果的扩散大语言模型(dLLMs)架构,在多模态任务中表现出色,且被认为对传统基于固定前缀优化(FPO)的越狱攻击具有鲁棒性。然而,本研究发现dVLMs存在独特的“即时拒绝”与“渐进式拒绝”模式,且渐进式细化过程暴露了新的潜在攻击面。为此,作者提出了全局概率优化(GPO)范式,专门针对掩码扩散模型的去噪轨迹进行操纵,而非依赖前缀。在此基础上,作者开发了首个针对dVLMs的视觉模态越狱框架GPO-V。实验表明,GPO-V能生成隐蔽性高且具备卓越跨模型迁移能力的扰动,揭示了非序列生成架构中关键的安全漏洞,强调了对扩散模型进行安全对齐的紧迫性。

🔬 方法详解

问题定义:论文旨在解决扩散视觉语言模型(dVLMs)在面对越狱攻击时的安全性评估问题。现有针对自回归LLM的FPO攻击在dVLMs上失效,因为dVLMs的非因果生成特性导致模型在去噪过程中会触发“渐进式拒绝”,即随着生成过程的推进,模型会逐渐识别并拒绝恶意指令。

核心思路:论文的核心思路是跳出局部前缀优化的局限,转而对整个去噪轨迹进行全局概率优化(GPO)。通过在扩散过程的每一步操纵生成概率分布,使得模型在去噪过程中逐渐偏离安全对齐的轨道,从而实现对恶意内容的诱导。

技术框架:GPO-V框架主要包含两个阶段:首先是针对扩散模型去噪轨迹的全局优化策略,通过在潜在空间施加扰动来引导生成方向;其次是视觉模态的适配,将视觉输入与文本指令结合,通过优化视觉特征来增强攻击的隐蔽性和有效性。

关键创新:最重要的创新在于将越狱攻击从“文本前缀注入”转向“生成轨迹操纵”。与传统方法不同,GPO-V利用了扩散模型非序列生成的特性,通过全局概率分布的微调,使得攻击能够绕过模型在生成中后期的安全防御机制。

关键设计:关键设计在于对去噪轨迹的梯度计算与优化,通过定义特定的损失函数来最大化恶意输出的概率,同时保持视觉扰动的隐蔽性。该方法不依赖于特定的提示词模板,而是通过对模型内部生成动力学的直接干预来实现越狱。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPO-V在多种主流dVLMs上均表现出极高的攻击成功率,显著优于传统的FPO基线方法。特别是在跨模型迁移性测试中,GPO-V生成的扰动在未见过的模型上也保持了较强的攻击效果,证明了该方法能够有效突破非序列生成架构的安全防线,揭示了当前安全对齐范式的重大局限。

🎯 应用场景

该研究主要应用于多模态大模型的安全性评估与红队测试(Red Teaming)。通过揭示dVLMs的潜在漏洞,研究成果可帮助开发者在模型部署前识别安全隐患,设计更稳健的防御机制,对于提升扩散模型在医疗、金融等高敏感领域的安全性具有重要的理论与实践价值。

📄 摘要(原文)

Diffusion Vision-Language Models (dVLMs), built upon the non-causal foundations of Diffusion Large Language Models (dLLMs), have demonstrated remarkable efficacy in multimodal tasks by departing from the traditional autoregressive generation paradigm. While dVLMs appear inherently robust against conventional jailbreak tactics, which we categorize as Fixed Prefix Optimization (FPO) (e.g., anchoring responses with "Sure, here is"), this perceived resilience is deceptive. Our investigation into the safety landscape of dVLMs reveals a unique refusal pattern: Immediate Refusal and Progressive Refusal. We find that while FPO-based attacks often fail by triggering the latter, the progressive refinement process itself uncovers a novel, latent attack surface. To exploit this vulnerability, we propose Global Probability Optimization (GPO), a general jailbreak paradigm designed specifically for the denoising trajectory of masked diffusion models. Unlike prefix-based methods, GPO manipulates the global generative dynamics to bypass guardrails in diffusion language models. Building on this, we introduce GPO-V, the first visual-modality jailbreak framework tailored for dVLMs. Empirical results demonstrate that GPO-V produces stealthy perturbations with exceptional cross-model transferability, revealing a critical security gap in non-sequential generative architectures. Our findings underscore the critical urgency of addressing safety alignment in dVLMs. These results necessitate an immediate and fundamental re-evaluation of current defense paradigms to mitigate the unique risks of diffusion-based generation. Our code is available at: https://anonymous.4open.science/r/GPO-V-0250.