Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization

作者: Mengqi He, Xinyu Tian, Xin Shen, Shu Zou, Jinhong Ni, Zhaoyuan Yang, Weikang Li, Xuesong Li, Jing Zhang

分类: cs.CV, cs.AI

发布日期: 2026-05-11

备注: Preprint. 17 pages, 8 figures, 6 tables

💡 一句话要点

提出基于熵最大化的无目标越狱方法UJEM-KL，显著提升视觉语言模型的攻击迁移性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 模型越狱 对抗攻击 熵最大化 迁移学习 模型安全性 多模态对齐

📋 核心要点

现有基于梯度的VLM越狱攻击因优化目标过于严苛，导致跨模型迁移性极差，难以在不同架构间通用。
论文提出UJEM-KL方法，通过最大化拒绝行为集中点（高熵标记）的熵，并稳定低熵位置，实现高效越狱。
实验证明该方法在多个VLM上实现了高白盒攻击成功率，并显著提升了跨模型迁移能力，且能有效对抗现有防御。

📝 摘要（中文）

近期研究表明，针对视觉语言模型（VLM）的基于梯度的通用图像越狱攻击在不同模型间的迁移性极差，这引发了对多模态越狱可行性的质疑。本文在严格的无目标威胁模型下重新审视了这一结论，即不强制要求特定的前缀或响应模式。初步实验发现，拒绝行为在自回归解码过程中集中于高熵标记，且在攻击前，非拒绝标记在候选词中已占据显著概率质量。受此启发，我们提出了通过熵最大化进行无目标越狱（UJEM-KL）。该轻量级攻击通过最大化决策标记处的熵来扭转拒绝结果，同时稳定低熵位置以保持输出质量。在三个VLM和两个安全基准上的实验表明，UJEM-KL实现了具有竞争力的白盒攻击成功率，并显著提升了迁移性，在现有防御机制下依然有效。研究结果表明，迁移性受限主要源于过于严苛的优化目标。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）越狱攻击中存在的“迁移性瓶颈”问题。现有方法通常强制模型输出特定拒绝模式，导致优化目标过于僵化，无法在不同模型间有效泛化。

核心思路：研究发现拒绝行为在自回归解码的高熵标记处最为集中。UJEM-KL的核心思想是“熵最大化”，即通过扰动图像输入，使得模型在关键决策点产生高熵，从而破坏原有的拒绝逻辑，同时保持非拒绝位置的稳定性。

技术框架：该方法采用轻量级优化流程。首先识别模型在生成拒绝响应时的关键决策标记，随后通过梯度下降优化图像扰动，以最大化这些标记的熵，同时引入KL散度约束以保持输出质量。

关键创新：与以往强制模型输出特定文本的攻击不同，UJEM-KL采用无目标（Untargeted）策略，通过优化决策空间的熵分布而非特定Token概率，从而降低了对模型特定架构的依赖，提升了迁移性。

关键设计：核心损失函数结合了熵最大化项（针对高熵标记）与KL散度正则项（针对低熵标记）。这种双重设计确保了攻击在破坏安全防御的同时，不会导致模型输出完全不可读的乱码，维持了语义连贯性。

🖼️ 关键图片

📊 实验亮点

UJEM-KL在三个主流VLM上表现优异，不仅在白盒攻击中达到极高的成功率，更重要的是在跨模型迁移实验中表现出显著优势。相比基线方法，该方法在保持输出语义质量的同时，有效突破了多种代表性防御机制，证明了优化目标解耦对提升攻击通用性的关键作用。

🎯 应用场景

该研究主要应用于视觉语言模型的安全性评估与红队测试。通过揭示模型在决策过程中的脆弱性，开发者可以针对性地增强模型的鲁棒性，设计更有效的对齐策略，从而在部署前识别并修复潜在的安全漏洞，提升多模态AI系统的整体安全性。

📄 摘要（原文）

Recent studies show that gradient-based universal image jailbreaks on vision-language models (VLMs) exhibit little or no cross-model transferability, casting doubt on the feasibility of transferable multimodal jailbreaks. We revisit this conclusion under a strictly untargeted threat model without enforcing a fixed prefix or response pattern. Our preliminary experiment reveals that refusal behavior concentrates at high-entropy tokens during autoregressive decoding, and non-refusal tokens already carry substantial probability mass among the top-ranked candidates before attack. Motivated by this finding, we propose Untargeted Jailbreak via Entropy Maximization(UJEM)-KL, a lightweight attack that maximizes entropy at these decision tokens to flip refusal outcomes, while stabilizing the remaining low-entropy positions to preserve output quality. Across three VLMs and two safety benchmarks, UJEM-KL achieves competitive white-box attack success rates and consistently improves transferability, while remaining effective under representative defenses. Our experimental results indicate that the limited transferability primarily stems from overly constrained optimization objectives.

Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理