Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models

📄 arXiv: 2408.02980v1 📥 PDF

作者: Haonan Zheng, Wen Jiang, Xinyang Deng, Wenrui Li

分类: cs.CV

发布日期: 2024-08-06

备注: 13 pages, 8 figures, published in ACMMM2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种样本无关的对抗扰动方法,提升视觉-语言预训练模型的安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言预训练 对抗攻击 样本无关扰动 多模态学习 模型安全性

📋 核心要点

  1. 现有的多模态对抗攻击方法通常是样本特定的,需要为每个样本单独生成扰动,效率较低。
  2. 该论文提出了一种样本无关的对抗扰动方法,通过迭代优化,找到一个通用的扰动方向,可用于攻击任何图像。
  3. 实验表明,该方法生成的扰动具有良好的数据、任务和模型迁移性,能够在不同的VLP模型和数据集上有效降低检索性能。

📝 摘要(中文)

本文研究了视觉-语言预训练(VLP)模型在图像和文本中受到细微但精心设计的扰动时的脆弱性。通过对抗攻击来研究多模态系统的鲁棒性至关重要。大多数多模态攻击是样本特定的,为每个样本生成唯一的扰动来构建对抗样本。据我们所知,这是第一个通过多模态决策边界探索创建通用、样本无关的扰动的工作,该扰动适用于任何图像。首先,我们探索了将样本点移动到线性分类器决策边界之外的策略,并改进了算法以确保在top $k$ 准确率指标下成功攻击。在此基础上,在视觉-语言任务中,我们将视觉和文本模态视为相互的样本点和决策超平面,引导图像嵌入穿过文本构建的决策边界,反之亦然。这个迭代过程不断改进一个通用扰动,最终在输入空间中识别出一个可利用的奇异方向,从而损害VLP模型的检索性能。所提出的算法支持创建全局扰动或对抗补丁。综合实验验证了我们方法的有效性,展示了其在各种VLP模型和数据集上的数据、任务和模型可迁移性。

🔬 方法详解

问题定义:现有的视觉-语言预训练模型容易受到对抗攻击的影响,攻击者可以通过在图像或文本中添加细微的扰动来欺骗模型,导致其性能下降。然而,大多数现有的攻击方法都是样本特定的,即需要为每个样本单独生成对抗扰动,计算成本高,泛化能力差。因此,如何生成一种通用的、样本无关的对抗扰动,以提高攻击效率和模型安全性,是一个重要的研究问题。

核心思路:该论文的核心思路是将视觉和文本模态视为相互的样本点和决策超平面,通过迭代地引导图像嵌入穿过文本构建的决策边界,反之亦然,来寻找一个通用的对抗扰动方向。这种方法利用了多模态决策边界的信息,使得生成的扰动能够有效地欺骗模型,同时具有较好的泛化能力。

技术框架:该方法主要包含以下几个阶段:1) 初始化:随机初始化一个扰动向量。2) 迭代优化:在每一轮迭代中,首先将图像嵌入到视觉空间,然后利用文本模态构建决策超平面,并计算图像嵌入到该超平面的距离。接着,根据距离的大小调整扰动向量,使得图像嵌入能够穿过决策边界。反过来,也对文本嵌入进行类似的操作。3) 扰动生成:经过多轮迭代后,得到一个通用的对抗扰动向量。该扰动可以添加到任何图像中,以生成对抗样本。

关键创新:该论文的关键创新在于提出了一种样本无关的对抗扰动生成方法,该方法能够利用多模态决策边界的信息,生成具有良好泛化能力的对抗扰动。与传统的样本特定攻击方法相比,该方法具有更高的攻击效率和更强的实用性。

关键设计:在迭代优化过程中,论文采用了一种基于梯度下降的优化算法来调整扰动向量。同时,为了保证攻击的有效性,论文还引入了一个top $k$ 准确率指标,用于评估攻击的成功率。此外,论文还设计了一种对抗补丁生成算法,可以将对抗扰动嵌入到图像的特定区域,以提高攻击的隐蔽性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法生成的对抗扰动能够有效地降低VLP模型的检索性能,并且具有良好的数据、任务和模型迁移性。例如,在多个VLP模型和数据集上,该方法能够将检索准确率降低到显著低于正常水平,证明了其攻击的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于提升视觉-语言预训练模型的安全性,例如,通过对抗训练来增强模型的鲁棒性。此外,该方法还可以用于评估不同VLP模型的安全性,并为模型设计提供指导。该研究对于构建更安全可靠的多模态人工智能系统具有重要意义。

📄 摘要(原文)

Recent studies on AI security have highlighted the vulnerability of Vision-Language Pre-training (VLP) models to subtle yet intentionally designed perturbations in images and texts. Investigating multimodal systems' robustness via adversarial attacks is crucial in this field. Most multimodal attacks are sample-specific, generating a unique perturbation for each sample to construct adversarial samples. To the best of our knowledge, it is the first work through multimodal decision boundaries to explore the creation of a universal, sample-agnostic perturbation that applies to any image. Initially, we explore strategies to move sample points beyond the decision boundaries of linear classifiers, refining the algorithm to ensure successful attacks under the top $k$ accuracy metric. Based on this foundation, in visual-language tasks, we treat visual and textual modalities as reciprocal sample points and decision hyperplanes, guiding image embeddings to traverse text-constructed decision boundaries, and vice versa. This iterative process consistently refines a universal perturbation, ultimately identifying a singular direction within the input space which is exploitable to impair the retrieval performance of VLP models. The proposed algorithms support the creation of global perturbations or adversarial patches. Comprehensive experiments validate the effectiveness of our method, showcasing its data, task, and model transferability across various VLP models and datasets. Code: https://github.com/LibertazZ/MUAP