Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation
作者: Hee-Seon Kim, Minbeom Kim, Changick Kim
分类: cs.CV, cs.CL, cs.CR
发布日期: 2024-12-11 (更新: 2024-12-19)
💡 一句话要点
提出双重通用对抗扰动,欺骗跨图像和文本的视觉-语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 对抗攻击 通用对抗扰动 注意力机制 多模态学习
📋 核心要点
- 现有的视觉-语言模型容易受到对抗攻击,尤其是通用对抗扰动(UAP)攻击,单个扰动即可欺骗模型。
- 提出双重通用对抗扰动(Doubly-UAP),旨在同时欺骗视觉和文本输入,提升攻击的通用性。
- 实验表明,Doubly-UAP在视觉-语言任务中实现了高攻击成功率,优于现有基线方法,并具有良好的鲁棒性。
📝 摘要(中文)
大型视觉-语言模型(VLMs)通过将视觉编码器与大型语言模型(LLMs)集成,在多模态任务中表现出卓越的性能。然而,这些模型仍然容易受到对抗攻击。在这些攻击中,通用对抗扰动(UAP)尤其强大,因为单个优化的扰动可以误导模型处理各种输入图像。本文提出了一种专门为VLM设计的新的UAP:双重通用对抗扰动(Doubly-UAP),它能够在图像和文本输入上普遍欺骗VLM。为了成功扰乱视觉编码器的基本过程,我们分析了注意力机制的核心组成部分。在识别出中间到后期层中的值向量最容易受到攻击后,我们以无标签的方式优化Doubly-UAP,并冻结模型。尽管Doubly-UAP是作为LLM的黑盒开发的,但它在VLM上实现了高攻击成功率,并且在视觉-语言任务中始终优于基线方法。广泛的消融研究和分析进一步证明了Doubly-UAP的鲁棒性,并提供了关于它如何影响内部注意力机制的见解。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)容易受到对抗攻击,特别是通用对抗扰动(UAP)攻击。传统的UAP主要针对图像输入,而忽略了文本输入。因此,需要一种能够同时欺骗图像和文本输入的UAP,以提高攻击的通用性和有效性。现有方法的痛点在于无法同时有效地攻击视觉和语言模态。
核心思路:论文的核心思路是设计一种双重通用对抗扰动(Doubly-UAP),该扰动能够同时影响视觉编码器和语言模型,从而欺骗VLM。通过分析注意力机制的核心组成部分,识别出视觉编码器中对扰动最敏感的层和向量,并针对这些部分进行优化。这样设计的目的是为了最大程度地干扰VLM的内部表示,使其产生错误的输出。
技术框架:该方法的技术框架主要包括以下几个步骤:1) 分析VLM的注意力机制,确定视觉编码器中易受攻击的层和向量(主要是中间到后期的值向量)。2) 设计Doubly-UAP,使其能够同时影响图像和文本输入。3) 使用无标签的方式优化Doubly-UAP,同时冻结VLM的参数。4) 评估Doubly-UAP在各种视觉-语言任务上的攻击成功率。
关键创新:该论文最重要的技术创新点在于提出了Doubly-UAP,这是一种能够同时欺骗图像和文本输入的通用对抗扰动。与传统的UAP相比,Doubly-UAP具有更高的通用性和攻击成功率。此外,该论文还通过分析注意力机制,找到了视觉编码器中对扰动最敏感的层和向量,为设计更有效的对抗攻击提供了新的思路。
关键设计:在设计Doubly-UAP时,关键的技术细节包括:1) 选择视觉编码器中间到后期的值向量作为攻击目标。2) 使用无标签的方式优化Doubly-UAP,避免对LLM进行白盒攻击。3) 设计合适的损失函数,以最大化Doubly-UAP对VLM的干扰。具体的参数设置和网络结构细节在论文中没有详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Doubly-UAP在各种视觉-语言任务上实现了高攻击成功率,并且始终优于基线方法。具体的性能数据和提升幅度在摘要中没有给出,属于未知信息。消融研究和分析进一步证明了Doubly-UAP的鲁棒性,并提供了关于它如何影响内部注意力机制的见解。
🎯 应用场景
该研究成果可应用于评估和提高视觉-语言模型的安全性,尤其是在图像和文本信息都需要可靠理解的场景中,例如自动驾驶、医疗诊断、安全监控等。通过研究对抗攻击,可以更好地理解模型的脆弱性,并开发更鲁棒的模型,从而提高人工智能系统的可靠性和安全性。
📄 摘要(原文)
Large Vision-Language Models (VLMs) have demonstrated remarkable performance across multimodal tasks by integrating vision encoders with large language models (LLMs). However, these models remain vulnerable to adversarial attacks. Among such attacks, Universal Adversarial Perturbations (UAPs) are especially powerful, as a single optimized perturbation can mislead the model across various input images. In this work, we introduce a novel UAP specifically designed for VLMs: the Doubly-Universal Adversarial Perturbation (Doubly-UAP), capable of universally deceiving VLMs across both image and text inputs. To successfully disrupt the vision encoder's fundamental process, we analyze the core components of the attention mechanism. After identifying value vectors in the middle-to-late layers as the most vulnerable, we optimize Doubly-UAP in a label-free manner with a frozen model. Despite being developed as a black-box to the LLM, Doubly-UAP achieves high attack success rates on VLMs, consistently outperforming baseline methods across vision-language tasks. Extensive ablation studies and analyses further demonstrate the robustness of Doubly-UAP and provide insights into how it influences internal attention mechanisms.