Improving Adversarial Transferability in MLLMs via Dynamic Vision-Language Alignment Attack

📄 arXiv: 2502.19672v1 📥 PDF

作者: Chenhe Gu, Jindong Gu, Andong Hua, Yao Qin

分类: cs.CV, cs.LG

发布日期: 2025-02-27

备注: arXiv admin note: text overlap with arXiv:2403.09766


💡 一句话要点

提出动态视觉-语言对齐攻击(DynVLA),提升MLLM对抗攻击的迁移性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 对抗攻击 迁移学习 视觉-语言对齐 动态扰动

📋 核心要点

  1. 现有MLLM对抗攻击方法在跨模型迁移性上存在不足,尤其是在定向攻击场景下,主要原因是视觉-语言模态对齐的复杂性。
  2. DynVLA攻击的核心思想是在视觉-语言连接器中注入动态扰动,从而提升对抗样本在不同视觉-语言对齐方式模型上的泛化能力。
  3. 实验结果表明,DynVLA能够显著提升对抗样本在多种MLLM模型上的迁移性,包括开源和闭源模型。

📝 摘要(中文)

多模态大型语言模型(MLLMs)建立在LLMs之上,因其在图像识别和理解方面的能力而备受关注。然而,虽然MLLMs容易受到对抗攻击,但这些攻击在不同模型之间的迁移性仍然有限,尤其是在定向攻击设置下。现有方法主要集中于视觉特定的扰动,但在视觉-语言模态对齐的复杂性方面表现不佳。本文提出了一种新的动态视觉-语言对齐(DynVLA)攻击方法,该方法将动态扰动注入视觉-语言连接器,以增强不同模型视觉-语言对齐的泛化能力。实验结果表明,DynVLA显著提高了对抗样本在各种MLLMs(包括BLIP2、InstructBLIP、MiniGPT4、LLaVA以及Gemini等闭源模型)之间的迁移性。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLMs)容易受到对抗攻击,但对抗样本在不同模型之间的迁移性较差,尤其是在定向攻击的场景下。现有的方法主要集中在视觉模态的扰动,忽略了不同模型在视觉和语言模态对齐方式上的差异,导致攻击的泛化能力不足。因此,需要一种能够适应不同视觉-语言对齐方式的攻击方法,以提高对抗样本的迁移性。

核心思路:DynVLA攻击的核心思路是在视觉-语言连接器中引入动态扰动。通过动态调整扰动,使攻击能够更好地适应不同MLLM模型在视觉和语言模态对齐上的差异。这种方法旨在增强对抗样本的泛化能力,使其能够有效地迁移到未知的目标模型上。

技术框架:DynVLA攻击的技术框架主要包括以下几个步骤:1) 选择一个源模型进行攻击;2) 在源模型的视觉-语言连接器中注入动态扰动;3) 使用对抗损失函数优化扰动,使模型对对抗样本产生错误的预测;4) 将生成的对抗样本迁移到其他目标模型上进行测试。整体流程旨在通过在源模型上学习到的动态扰动,提高对抗样本在不同模型上的迁移性。

关键创新:DynVLA攻击的关键创新在于引入了动态扰动,并将其注入到视觉-语言连接器中。与传统的仅关注视觉模态扰动的方法不同,DynVLA关注视觉和语言模态之间的交互,通过动态调整扰动来适应不同模型的对齐方式。这种方法能够更有效地利用模型之间的共性,从而提高对抗样本的迁移性。

关键设计:DynVLA攻击的关键设计包括:1) 动态扰动的生成方式:可以使用循环神经网络(RNN)或Transformer等序列模型来生成动态扰动,使其能够随着输入的变化而自适应调整;2) 对抗损失函数的设计:可以使用交叉熵损失函数或hinge loss等,以最大化模型对对抗样本的分类错误;3) 扰动幅度的控制:需要对扰动幅度进行限制,以保证对抗样本的隐蔽性,避免被目标模型检测到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DynVLA攻击显著提高了对抗样本在各种MLLMs上的迁移性。例如,在针对BLIP2、InstructBLIP、MiniGPT4和LLaVA等模型的攻击中,DynVLA的迁移成功率相比现有方法提升了显著百分比(具体数值论文中给出)。此外,DynVLA在闭源模型(如Gemini)上也表现出良好的迁移性,验证了其有效性和泛化能力。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型的安全性,例如防御恶意攻击、评估模型鲁棒性等。此外,该方法还可用于提升模型的泛化能力,使其在面对不同数据分布和任务时表现更稳定。未来,该研究或可扩展到其他多模态任务,如视频理解、语音识别等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs), built upon LLMs, have recently gained attention for their capabilities in image recognition and understanding. However, while MLLMs are vulnerable to adversarial attacks, the transferability of these attacks across different models remains limited, especially under targeted attack setting. Existing methods primarily focus on vision-specific perturbations but struggle with the complex nature of vision-language modality alignment. In this work, we introduce the Dynamic Vision-Language Alignment (DynVLA) Attack, a novel approach that injects dynamic perturbations into the vision-language connector to enhance generalization across diverse vision-language alignment of different models. Our experimental results show that DynVLA significantly improves the transferability of adversarial examples across various MLLMs, including BLIP2, InstructBLIP, MiniGPT4, LLaVA, and closed-source models such as Gemini.