Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models
作者: Rui Yang Tan, Yujia Hu, Roy Ka-Wei Lee
分类: cs.CR, cs.AI, cs.MM
发布日期: 2026-03-23
备注: 31 pages
💡 一句话要点
ComicJailbreak:利用结构化视觉叙事攻击多模态大语言模型的安全对齐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 安全对齐 越狱攻击 视觉叙事 漫画 对抗攻击 安全评估
📋 核心要点
- 多模态大语言模型在安全对齐方面面临新的挑战,尤其是在处理视觉引导的指令时,容易受到攻击。
- 论文提出ComicJailbreak,利用漫画叙事结构嵌入有害目标,诱导模型产生不安全行为。
- 实验表明,ComicJailbreak攻击成功率高,且现有防御方法难以有效应对,同时安全评估器存在不可靠性。
📝 摘要(中文)
多模态大语言模型(MLLMs)通过视觉推理扩展了纯文本LLMs,但也引入了视觉引导指令下新的安全失效模式。本文研究了漫画模板越狱攻击,该攻击将有害目标嵌入到简单的三格视觉叙事中,并提示模型进行角色扮演并“完成漫画”。在JailbreakBench和JailbreakV的基础上,我们引入了ComicJailbreak,这是一个基于漫画的越狱基准,包含1,167个攻击实例,涵盖10个危害类别和5个任务设置。在15个最先进的MLLM(6个商业模型和9个开源模型)上,基于漫画的攻击实现了与强大的基于规则的越狱攻击相当的成功率,并且大大优于纯文本和随机图像基线,在几个商业模型上的集成成功率超过90%。此外,我们表明,现有的防御方法虽然对有害漫画有效,但当提示良性提示时,会诱导高拒绝率。最后,使用自动判断和有针对性的人工评估,我们表明当前的安全评估器在敏感但无害的内容上可能不可靠。我们的研究结果强调了对叙事驱动的多模态越狱攻击具有鲁棒性的安全对齐的需求。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在视觉叙事引导下的安全对齐问题。现有的MLLMs容易受到恶意利用视觉信息进行攻击,导致模型产生有害或不安全的输出。纯文本的对抗性攻击方法可能无法有效利用视觉信息,而随机图像的攻击缺乏结构性和针对性。因此,需要一种更有效的方法来评估和提高MLLMs在处理复杂视觉叙事时的安全性。
核心思路:论文的核心思路是利用漫画的结构化叙事特性,将有害目标嵌入到一系列有序的图像中,从而引导MLLMs产生不安全的行为。漫画提供了一种简洁而有效的方式来传递复杂的场景和意图,使得攻击者可以更容易地绕过模型的安全机制。通过角色扮演和“完成漫画”的提示,进一步诱导模型参与到有害的叙事中。
技术框架:ComicJailbreak框架主要包含以下几个步骤:1)选择或生成包含有害目标的漫画模板;2)将漫画图像输入MLLM,并结合角色扮演和“完成漫画”的提示;3)评估MLLM的输出是否符合有害目标,即判断越狱是否成功。该框架可以用于评估各种MLLMs的安全性,并分析不同防御方法的效果。
关键创新:论文的关键创新在于利用结构化的视觉叙事(漫画)作为攻击媒介。与传统的纯文本或随机图像攻击相比,漫画能够更有效地传递有害信息,并诱导MLLMs产生不安全的行为。此外,ComicJailbreak提供了一个新的基准测试,用于评估MLLMs在处理复杂视觉叙事时的安全性。
关键设计:ComicJailbreak基准包含1167个攻击实例,涵盖10个危害类别和5个任务设置。漫画模板采用三格结构,旨在简洁明了地传递有害信息。提示语的设计包括角色扮演和“完成漫画”等元素,以增强攻击的有效性。实验中,采用了多种评估指标,包括攻击成功率、拒绝率和人工评估等,以全面评估MLLMs的安全性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ComicJailbreak攻击在15个最先进的MLLM上取得了显著的成功,集成成功率在某些商业模型上超过90%,与强大的基于规则的越狱攻击相当,并优于纯文本和随机图像基线。同时,现有的防御方法虽然对有害漫画有效,但会显著增加良性提示的拒绝率,表明需要更精细的安全对齐策略。
🎯 应用场景
该研究成果可应用于评估和提升多模态大语言模型的安全性,尤其是在处理包含视觉信息的复杂指令时。 ComicJailbreak 提供了一个有价值的基准测试,可以帮助研究人员开发更鲁棒的安全对齐方法,减少 MLLM 在实际应用中被恶意利用的风险,例如在内容生成、智能助手等领域。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) extend text-only LLMs with visual reasoning, but also introduce new safety failure modes under visually grounded instructions. We study comic-template jailbreaks that embed harmful goals inside simple three-panel visual narratives and prompt the model to role-play and "complete the comic." Building on JailbreakBench and JailbreakV, we introduce ComicJailbreak, a comic-based jailbreak benchmark with 1,167 attack instances spanning 10 harm categories and 5 task setups. Across 15 state-of-the-art MLLMs (six commercial and nine open-source), comic-based attacks achieve success rates comparable to strong rule-based jailbreaks and substantially outperform plain-text and random-image baselines, with ensemble success rates exceeding 90% on several commercial models. Then, with the existing defense methodologies, we show that these methods are effective against the harmful comics, they will induce a high refusal rate when prompted with benign prompts. Finally, using automatic judging and targeted human evaluation, we show that current safety evaluators can be unreliable on sensitive but non-harmful content. Our findings highlight the need for safety alignment robust to narrative-driven multimodal jailbreaks.