Conceal, Reconstruct, Jailbreak: Exploiting the Reconstruction-Concealment Tradeoff in MLLMs

📄 arXiv: 2605.05709v1 📥 PDF

作者: Md Farhamdur Reza, Richeng Jin, Tianfu Wu, Huaiyu Dai

分类: cs.AI

发布日期: 2026-05-07

备注: 39 pages, including appendices


💡 一句话要点

提出基于重构-隐蔽权衡的MLLM越狱攻击框架,通过字符移除与关键词干扰提升攻击成功率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 越狱攻击 意图混淆 重构-隐蔽权衡 红队测试 模型安全

📋 核心要点

  1. 现有意图混淆攻击难以平衡“隐蔽性”与“重构性”,导致安全过滤器易于识别或模型无法准确恢复原始有害请求。
  2. 提出隐蔽感知变体构建策略,通过贪婪选择字符移除变体,并结合模态感知提示与关键词相关干扰图像,优化攻击效果。
  3. 实验证明该方法在多种主流MLLM上显著提升了越狱成功率,揭示了模型重构能力被滥用的潜在安全风险。

📝 摘要(中文)

基于意图混淆的多模态大语言模型(MLLM)越狱攻击,通过将有害查询转化为隐蔽的多模态输入来绕过安全机制。本文揭示了此类攻击受限于“重构-隐蔽权衡”:转换后的输入既要对安全过滤器隐藏有害意图,又要保证受害者模型能有效重构原始请求。通过对三种代表性黑盒方法的重构分析,研究发现现有转换方法难以平衡这一权衡。为此,本文提出了“隐蔽感知变体构建”方法,通过贪婪选择低有害关键词对齐且具备多样性的字符移除变体,并结合五种模态感知提示策略进行实例化。此外,引入了“关键词相关干扰图像”以提供更有效的辅助视觉上下文。在闭源和开源MLLM上的实验表明,该策略优于强基线,揭示了模型自身的重构能力可被利用来恢复隐藏的有害意图并生成不安全响应。

🔬 方法详解

问题定义:论文旨在解决多模态越狱攻击中存在的“重构-隐蔽权衡”难题。现有方法在试图隐藏有害意图时,往往导致模型无法准确重构原始指令,从而降低了攻击的有效性。

核心思路:核心在于利用模型自身的重构能力。通过字符移除技术降低输入与有害关键词的对齐度以实现隐蔽,同时通过精心设计的提示词和干扰图像引导模型在内部重构出原始有害意图。

技术框架:整体流程包括:1. 字符移除变体生成;2. 基于多样性和低对齐度的贪婪筛选;3. 结合模态感知提示策略的实例化;4. 引入关键词相关干扰图像作为视觉辅助,增强模型对有害意图的重构能力。

关键创新:最重要的创新在于将越狱问题建模为重构与隐蔽的权衡优化,并引入了“关键词相关干扰图像”概念,相比通用干扰图像,其能更精准地引导模型聚焦于有害语义的重构。

关键设计:技术细节包括五种模态感知提示策略,以及一套贪婪选择算法,该算法在保持变体多样性的同时,最小化输入与有害关键词的语义对齐,从而在绕过安全过滤器的同时确保攻击指令的完整性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多个闭源(如GPT-4V)和开源(如LLaVA)模型上进行。结果显示,该方法在越狱成功率上显著优于现有的黑盒攻击基线。通过引入关键词相关干扰图像,攻击者能够以更低的隐蔽成本实现更高的重构精度,证明了模型重构能力是当前MLLM安全防御中一个被严重低估的攻击向量。

🎯 应用场景

该研究主要应用于MLLM的安全评估与红队测试领域。通过揭示模型重构能力带来的潜在漏洞,帮助开发者识别并加固多模态安全防御机制,防止恶意用户利用隐蔽的多模态输入绕过内容审核,提升大模型在实际部署中的安全性与鲁棒性。

📄 摘要(原文)

Intent-obfuscation-based jailbreak attacks on multimodal large language models (MLLMs) transform a harmful query into a concealed multimodal input to bypass safety mechanisms. We show that such attacks are governed by a \emph{reconstruction--concealment tradeoff}: the transformed input must hide harmful intent from safety filters while remaining recoverable enough for the victim model to reconstruct the original request. Through a reconstruction analysis of three representative black-box methods, we find that existing transformations struggle to balance this tradeoff, limiting their effectiveness. In contrast, we show that character-removed variants achieve a better balance. Building on this, we propose \emph{concealment-aware variant construction}, which greedily selects character-removed variants that are low in harmful-keyword alignment and mutually diverse, and instantiates them through five modality-aware prompting strategies. We further introduce \emph{keyword-related distractor images} that depict the harmful keyword in diverse contexts, providing more effective auxiliary visual context than generic distractor images. Experiments across closed-source and open-source MLLMs show the proposed strategies outperform strong baselines, revealing an underexplored vulnerability: a model's own reconstruction ability can be exploited to recover hidden harmful intent and produce unsafe responses.