Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization

📄 arXiv: 2605.10764v1 📥 PDF

作者: Mengqi He, Xinyu Tian, Xin Shen, Shu Zou, Jinhong Ni, Zhaoyuan Yang, Weikang Li, Xuesong Li, Jing Zhang

分类: cs.CV, cs.AI

发布日期: 2026-05-11

备注: Preprint. 17 pages, 8 figures, 6 tables


💡 一句话要点

提出基于熵最大化的无目标越狱方法UJEM-KL,显著提升视觉语言模型的攻击迁移性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 模型越狱 对抗攻击 熵最大化 迁移学习 模型安全性 多模态对齐

📋 核心要点

  1. 现有基于梯度的VLM越狱攻击因优化目标过于严苛,导致跨模型迁移性极差,难以在不同架构间通用。
  2. 论文提出UJEM-KL方法,通过最大化拒绝行为集中点(高熵标记)的熵,并稳定低熵位置,实现高效越狱。
  3. 实验证明该方法在多个VLM上实现了高白盒攻击成功率,并显著提升了跨模型迁移能力,且能有效对抗现有防御。

📝 摘要(中文)

近期研究表明,针对视觉语言模型(VLM)的基于梯度的通用图像越狱攻击在不同模型间的迁移性极差,这引发了对多模态越狱可行性的质疑。本文在严格的无目标威胁模型下重新审视了这一结论,即不强制要求特定的前缀或响应模式。初步实验发现,拒绝行为在自回归解码过程中集中于高熵标记,且在攻击前,非拒绝标记在候选词中已占据显著概率质量。受此启发,我们提出了通过熵最大化进行无目标越狱(UJEM-KL)。该轻量级攻击通过最大化决策标记处的熵来扭转拒绝结果,同时稳定低熵位置以保持输出质量。在三个VLM和两个安全基准上的实验表明,UJEM-KL实现了具有竞争力的白盒攻击成功率,并显著提升了迁移性,在现有防御机制下依然有效。研究结果表明,迁移性受限主要源于过于严苛的优化目标。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)越狱攻击中存在的“迁移性瓶颈”问题。现有方法通常强制模型输出特定拒绝模式,导致优化目标过于僵化,无法在不同模型间有效泛化。

核心思路:研究发现拒绝行为在自回归解码的高熵标记处最为集中。UJEM-KL的核心思想是“熵最大化”,即通过扰动图像输入,使得模型在关键决策点产生高熵,从而破坏原有的拒绝逻辑,同时保持非拒绝位置的稳定性。

技术框架:该方法采用轻量级优化流程。首先识别模型在生成拒绝响应时的关键决策标记,随后通过梯度下降优化图像扰动,以最大化这些标记的熵,同时引入KL散度约束以保持输出质量。

关键创新:与以往强制模型输出特定文本的攻击不同,UJEM-KL采用无目标(Untargeted)策略,通过优化决策空间的熵分布而非特定Token概率,从而降低了对模型特定架构的依赖,提升了迁移性。

关键设计:核心损失函数结合了熵最大化项(针对高熵标记)与KL散度正则项(针对低熵标记)。这种双重设计确保了攻击在破坏安全防御的同时,不会导致模型输出完全不可读的乱码,维持了语义连贯性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UJEM-KL在三个主流VLM上表现优异,不仅在白盒攻击中达到极高的成功率,更重要的是在跨模型迁移实验中表现出显著优势。相比基线方法,该方法在保持输出语义质量的同时,有效突破了多种代表性防御机制,证明了优化目标解耦对提升攻击通用性的关键作用。

🎯 应用场景

该研究主要应用于视觉语言模型的安全性评估与红队测试。通过揭示模型在决策过程中的脆弱性,开发者可以针对性地增强模型的鲁棒性,设计更有效的对齐策略,从而在部署前识别并修复潜在的安全漏洞,提升多模态AI系统的整体安全性。

📄 摘要(原文)

Recent studies show that gradient-based universal image jailbreaks on vision-language models (VLMs) exhibit little or no cross-model transferability, casting doubt on the feasibility of transferable multimodal jailbreaks. We revisit this conclusion under a strictly untargeted threat model without enforcing a fixed prefix or response pattern. Our preliminary experiment reveals that refusal behavior concentrates at high-entropy tokens during autoregressive decoding, and non-refusal tokens already carry substantial probability mass among the top-ranked candidates before attack. Motivated by this finding, we propose Untargeted Jailbreak via Entropy Maximization(UJEM)-KL, a lightweight attack that maximizes entropy at these decision tokens to flip refusal outcomes, while stabilizing the remaining low-entropy positions to preserve output quality. Across three VLMs and two safety benchmarks, UJEM-KL achieves competitive white-box attack success rates and consistently improves transferability, while remaining effective under representative defenses. Our experimental results indicate that the limited transferability primarily stems from overly constrained optimization objectives.