Adversarial Robustness of Vision in Open Foundation Models

📄 arXiv: 2512.17902v1 📥 PDF

作者: Jonathon Fox, William J Buchanan, Pavlos Papadopoulos

分类: cs.CV, cs.AI, cs.CR

发布日期: 2025-12-19

期刊: IEEE Access, 2025

DOI: 10.1109/ACCESS.2025.3645997


💡 一句话要点

研究表明视觉模态是开放域视觉语言模型(VLM)的有效攻击面,且模型鲁棒性与基准性能不直接相关。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗攻击 视觉语言模型 鲁棒性评估 PGD攻击 VQA LLaVA Llama 3.2 Vision

📋 核心要点

  1. 现有视觉语言模型(VLM)容易受到对抗攻击,攻击者通过修改图像来降低模型性能,但对其脆弱性研究不足。
  2. 本文通过对抗攻击评估LLaVA-1.5-13B和Llama 3.2 Vision-8B-2的视觉模态鲁棒性,分析模型在受攻击后的性能下降情况。
  3. 实验表明,Llama 3.2 Vision在基线准确率较低的情况下,对抗攻击下的性能下降幅度小于LLaVA,揭示鲁棒性与基准性能的非直接相关性。

📝 摘要(中文)

随着深度学习的日益普及,理解AI系统识别对象的方式变得越来越困难。因此,攻击者可能会通过添加未见过的元素来修改图像,从而混淆AI对实体的识别。本文研究了LLaVA-1.5-13B和Meta的Llama 3.2 Vision-8B-2的对抗鲁棒性。使用PGD(Projected Gradient Descent)方法对视觉输入模态进行非目标攻击,并在Visual Question Answering (VQA) v2数据集的子集上进行实证评估。使用标准的VQA准确率指标来量化这些对抗攻击的结果。然后将此评估与LLaVA和Llama 3.2 Vision的准确率下降(accuracy drop)进行比较。一个关键发现是,尽管Llama 3.2 Vision在这种设置下的基线准确率较低,但在攻击下的性能下降幅度小于LLaVA,尤其是在较高的扰动水平下。总体而言,研究结果证实,视觉模态代表了降低当代开放权重VLM(包括Meta的Llama 3.2 Vision)性能的可行攻击向量。此外,它们强调对抗鲁棒性不一定与标准基准性能直接相关,并且可能受到底层架构和训练因素的影响。

🔬 方法详解

问题定义:本文旨在研究开放域视觉语言模型(VLM)的对抗鲁棒性,特别是针对视觉输入模态的攻击。现有VLM在图像识别方面表现出色,但容易受到对抗样本的攻击,即通过对图像进行微小但精心设计的修改,导致模型产生错误的预测。现有方法缺乏对VLM在对抗环境下的鲁棒性的深入评估,以及对不同模型架构和训练策略如何影响鲁棒性的理解。

核心思路:本文的核心思路是通过对抗攻击来评估VLM的鲁棒性,并比较不同模型在相同攻击下的性能下降情况。通过分析模型在不同扰动水平下的表现,可以了解模型对对抗样本的敏感程度,并揭示影响鲁棒性的因素。选择LLaVA-1.5-13B和Llama 3.2 Vision-8B-2作为研究对象,是因为它们是具有代表性的开放权重VLM,并且具有不同的架构和训练策略。

技术框架:本文采用对抗攻击的方法来评估VLM的鲁棒性。具体流程如下:1) 选择VQA v2数据集的子集作为评估数据集。2) 使用PGD(Projected Gradient Descent)方法生成对抗样本,对视觉输入模态进行非目标攻击。3) 将原始图像和对抗样本输入到LLaVA-1.5-13B和Llama 3.2 Vision-8B-2模型中,并记录模型的预测结果。4) 使用标准的VQA准确率指标来量化模型的性能。5) 比较模型在原始图像和对抗样本上的准确率,计算准确率下降幅度。

关键创新:本文的关键创新在于对开放域VLM的视觉模态鲁棒性进行了系统的评估,并揭示了对抗鲁棒性与标准基准性能之间的非直接相关性。研究表明,即使模型在标准基准上表现良好,也可能在对抗攻击下表现脆弱。此外,研究还发现,不同的模型架构和训练策略会对鲁棒性产生影响。

关键设计:本文采用PGD(Projected Gradient Descent)方法生成对抗样本。PGD是一种迭代攻击方法,通过在每次迭代中计算损失函数的梯度,并沿着梯度方向对图像进行微小的修改,从而生成对抗样本。为了限制扰动的大小,本文对每次迭代的修改进行投影,确保扰动在一定的范围内。此外,本文还使用了标准的VQA准确率指标来评估模型的性能。VQA准确率是指模型正确回答问题的比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Llama 3.2 Vision虽然基线VQA准确率低于LLaVA,但在PGD攻击下,其准确率下降幅度明显小于LLaVA,尤其是在高扰动水平下。这表明,模型的标准基准性能并不能完全反映其对抗鲁棒性,Llama 3.2 Vision可能具有更强的内在防御机制或更鲁棒的特征表示。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在安全敏感场景下的可靠性,例如自动驾驶、医疗诊断等。通过了解模型的脆弱性,可以开发更鲁棒的防御机制,提高模型在对抗环境下的性能,减少因对抗攻击造成的潜在风险。此外,该研究还可以指导未来VLM的架构设计和训练策略,使其更具鲁棒性。

📄 摘要(原文)

With the increase in deep learning, it becomes increasingly difficult to understand the model in which AI systems can identify objects. Thus, an adversary could aim to modify an image by adding unseen elements, which will confuse the AI in its recognition of an entity. This paper thus investigates the adversarial robustness of LLaVA-1.5-13B and Meta's Llama 3.2 Vision-8B-2. These are tested for untargeted PGD (Projected Gradient Descent) against the visual input modality, and empirically evaluated on the Visual Question Answering (VQA) v2 dataset subset. The results of these adversarial attacks are then quantified using the standard VQA accuracy metric. This evaluation is then compared with the accuracy degradation (accuracy drop) of LLaVA and Llama 3.2 Vision. A key finding is that Llama 3.2 Vision, despite a lower baseline accuracy in this setup, exhibited a smaller drop in performance under attack compared to LLaVA, particularly at higher perturbation levels. Overall, the findings confirm that the vision modality represents a viable attack vector for degrading the performance of contemporary open-weight VLMs, including Meta's Llama 3.2 Vision. Furthermore, they highlight that adversarial robustness does not necessarily correlate directly with standard benchmark performance and may be influenced by underlying architectural and training factors.