Robustness of Vision Language Models Against Split-Image Harmful Input Attacks

📄 arXiv: 2602.08136v1 📥 PDF

作者: Md Rafi Ur Rashid, MD Sadik Hossain Shanto, Vishnu Asutosh Dasu, Shagufta Mehnaz

分类: cs.CV, cs.AI

发布日期: 2026-02-08

备注: 22 Pages, long conference paper


💡 一句话要点

提出SIVA攻击,揭示视觉语言模型在分割图像恶意输入下的脆弱性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 安全对齐 分割图像攻击 对抗攻击 知识蒸馏

📋 核心要点

  1. 现有视觉语言模型对整体图像的恶意攻击具有较强鲁棒性,但忽略了分割图像中潜在的恶意语义组合。
  2. 提出分割图像视觉越狱攻击(SIVA),通过分割图像输入绕过VLM的安全对齐机制,利用对抗知识蒸馏提升攻击迁移性。
  3. 实验表明,SIVA攻击在多个VLM上实现了比现有方法高60%的迁移成功率,有效揭示了VLM在分割图像输入下的安全漏洞。

📝 摘要(中文)

视觉语言模型(VLM)已成为现代人工智能的核心组成部分。最近的研究提出了一些使用单张/整体图像的视觉越狱攻击。然而,由于通过偏好优化(例如RLHF)进行的大量安全对齐,目前的VLM对这些攻击表现出很强的鲁棒性。本文发现了一个新的漏洞:虽然VLM预训练和指令微调可以很好地泛化到分割图像输入,但安全对齐通常只在整体图像上执行,并且不考虑分布在多个图像片段中的有害语义。因此,VLM通常无法检测和拒绝有害的分割图像输入,在这种输入中,不安全的线索只有在组合图像后才会出现。我们引入了新的分割图像视觉越狱攻击(SIVA),利用了这种错位。与之前基于优化的攻击相比,由于模型之间的架构和先验不匹配,我们的攻击在黑盒可迁移性方面表现不佳,我们的攻击从简单的分割到自适应的白盒攻击,最终发展为黑盒迁移攻击。我们最强的策略利用了一种新的对抗知识蒸馏(Adv-KD)算法,以显著提高跨模型的可迁移性。在三个最先进的现代VLM和三个越狱数据集上的评估表明,我们最强的攻击比现有的基线实现了高达60%的迁移成功率。最后,我们提出了有效的方法来解决当前VLM安全对齐中的这个关键漏洞。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在安全对齐方面主要针对整体图像进行训练,忽略了恶意信息可能分散在多个分割图像中的情况。因此,当VLM接收到由多个分割图像组成的输入时,即使每个图像单独看起来无害,组合后却可能包含有害语义,导致VLM无法识别并拒绝这些恶意请求。现有攻击方法,如基于优化的攻击,在黑盒场景下迁移性较差,难以有效攻击不同的VLM。

核心思路:论文的核心思路是利用VLM在处理分割图像输入时的安全漏洞,设计一种新的攻击方法,即分割图像视觉越狱攻击(SIVA)。SIVA通过将恶意信息分散到不同的图像片段中,使得VLM难以在单个图像中检测到恶意语义,从而绕过安全对齐机制。此外,为了提高攻击的黑盒迁移性,论文引入了对抗知识蒸馏(Adv-KD)算法,将白盒攻击的知识迁移到黑盒攻击中。

技术框架:SIVA攻击框架包含以下几个阶段: 1. Naive Splitting: 将原始图像简单分割成多个片段。 2. Adaptive White-box Attack: 在白盒环境下,通过优化分割图像的内容,使得VLM产生有害的输出。 3. Black-box Transfer Attack: 将白盒攻击学到的知识迁移到黑盒环境中,攻击未知的VLM。

关键创新:SIVA攻击的关键创新在于: 1. 分割图像攻击: 首次提出利用分割图像绕过VLM安全对齐的攻击方法。 2. 对抗知识蒸馏(Adv-KD): 引入Adv-KD算法,显著提高了攻击在不同VLM之间的迁移性。Adv-KD通过最小化teacher模型(白盒攻击)和student模型(黑盒攻击)输出之间的差异,使得黑盒攻击能够学习到白盒攻击的有效策略。

关键设计: 1. 分割策略: 论文探索了不同的图像分割策略,包括均匀分割和基于语义的分割。 2. 对抗损失函数: 在白盒攻击阶段,使用对抗损失函数来最大化VLM产生有害输出的概率。 3. 知识蒸馏损失函数: 在Adv-KD中,使用KL散度作为知识蒸馏损失函数,衡量teacher模型和student模型输出之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SIVA攻击在三个最先进的VLM(BLIP-2, InstructBLIP, LLaVA)和三个越狱数据集上取得了显著的成果。与现有基线相比,SIVA攻击实现了高达60%的迁移成功率提升,证明了其在黑盒场景下的有效性。特别地,Adv-KD算法在提高攻击迁移性方面发挥了关键作用。

🎯 应用场景

该研究成果可应用于评估和提升视觉语言模型的安全性。通过SIVA攻击,可以发现VLM在处理分割图像输入时的安全漏洞,从而指导研究人员开发更有效的安全对齐方法。此外,该研究还可以用于构建更鲁棒的VLM防御机制,防止恶意用户利用分割图像进行攻击,保障VLM的可靠性和安全性。

📄 摘要(原文)

Vision-Language Models (VLMs) are now a core part of modern AI. Recent work proposed several visual jailbreak attacks using single/ holistic images. However, contemporary VLMs demonstrate strong robustness against such attacks due to extensive safety alignment through preference optimization (e.g., RLHF). In this work, we identify a new vulnerability: while VLM pretraining and instruction tuning generalize well to split-image inputs, safety alignment is typically performed only on holistic images and does not account for harmful semantics distributed across multiple image fragments. Consequently, VLMs often fail to detect and refuse harmful split-image inputs, where unsafe cues emerge only after combining images. We introduce novel split-image visual jailbreak attacks (SIVA) that exploit this misalignment. Unlike prior optimization-based attacks, which exhibit poor black-box transferability due to architectural and prior mismatches across models, our attacks evolve in progressive phases from naive splitting to an adaptive white-box attack, culminating in a black-box transfer attack. Our strongest strategy leverages a novel adversarial knowledge distillation (Adv-KD) algorithm to substantially improve cross-model transferability. Evaluations on three state-of-the-art modern VLMs and three jailbreak datasets demonstrate that our strongest attack achieves up to 60% higher transfer success than existing baselines. Lastly, we propose efficient ways to address this critical vulnerability in the current VLM safety alignment.