Sparse vs Contiguous Adversarial Pixel Perturbations in Multimodal Models: An Empirical Analysis
作者: Cristian-Alexandru Botocan, Raphael Meier, Ljiljana Dolamic
分类: cs.CV, cs.CR, cs.LG
发布日期: 2024-07-25
💡 一句话要点
研究多模态模型在稀疏与连续对抗像素扰动下的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 对抗样本 鲁棒性 L0范数扰动 黑盒攻击
📋 核心要点
- 多模态模型的安全性至关重要,但现有方法对其对抗攻击的鲁棒性评估不足。
- 本文通过L0范数扰动攻击图像像素,并考虑稀疏和连续两种扰动模式,评估模型鲁棒性。
- 实验表明,多模态模型比单模态模型更脆弱,且基于CNN的模型比基于ViT的模型更易受攻击。
📝 摘要(中文)
本文评估了多模态模型对抗对抗样本的鲁棒性,通过构建L0范数扰动攻击预处理后的输入图像来实现。在黑盒设置下,针对四个多模态模型和两个单模态DNN进行了有目标和无目标的误分类攻击。攻击目标是扰动小于0.04%的图像区域,并考虑了扰动像素的不同空间位置:稀疏定位和排列成不同连续形状(行、列、对角线和补丁)的像素。据我们所知,我们首次评估了三个最先进的多模态模型(ALIGN、AltCLIP、GroupViT)对抗不同稀疏和连续像素分布扰动的鲁棒性。结果表明,单模态DNN比多模态模型更鲁棒。此外,使用基于CNN的图像编码器的模型比使用ViT的模型更容易受到攻击——对于无目标攻击,通过扰动小于0.02%的图像区域,我们获得了99%的成功率。
🔬 方法详解
问题定义:本文旨在研究多模态模型在对抗样本攻击下的鲁棒性,特别是针对图像输入进行像素级的扰动。现有方法可能没有充分考虑不同类型的像素扰动(例如,稀疏与连续)对多模态模型的影响,以及不同架构(如CNN和ViT)的多模态模型对攻击的敏感程度差异。
核心思路:核心思路是通过构建L0范数约束下的对抗扰动,模拟攻击者对输入图像进行微小修改,然后观察这些修改对多模态模型预测结果的影响。通过比较不同扰动模式(稀疏、连续)和不同模型架构的攻击成功率,评估模型的鲁棒性。这样设计的目的是为了更全面地了解多模态模型在实际应用中可能面临的安全风险。
技术框架:整体框架包括以下几个步骤:1) 选择目标多模态模型和单模态模型;2) 对输入图像进行预处理;3) 构建L0范数约束下的对抗扰动,包括稀疏和连续两种模式;4) 使用对抗样本攻击目标模型,记录攻击成功率;5) 分析不同扰动模式和模型架构对攻击成功率的影响。主要模块包括对抗样本生成模块和模型评估模块。
关键创新:本文的关键创新在于:1) 首次系统性地评估了三种最先进的多模态模型(ALIGN、AltCLIP、GroupViT)在不同稀疏和连续像素分布扰动下的鲁棒性;2) 比较了多模态模型和单模态模型在对抗攻击下的表现,揭示了多模态模型可能存在的安全漏洞;3) 分析了不同图像编码器(CNN和ViT)对模型鲁棒性的影响。
关键设计:在对抗样本生成方面,使用了L0范数来约束扰动像素的数量,保证扰动的微小性。考虑了两种主要的扰动模式:稀疏扰动,即随机选择少量像素进行修改;连续扰动,即将扰动像素排列成不同的形状(行、列、对角线、补丁)。攻击目标包括有目标攻击和无目标攻击。实验中,扰动像素的数量限制在图像面积的0.04%以内。模型评估指标主要为攻击成功率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多模态模型比单模态模型更容易受到对抗攻击。对于无目标攻击,基于CNN的图像编码器的多模态模型在仅扰动小于0.02%的图像区域时,攻击成功率高达99%。这表明,多模态模型的鲁棒性仍有待提高,尤其是在面对微小的图像扰动时。
🎯 应用场景
该研究成果可应用于提高多模态模型的安全性,例如在自动驾驶、医疗诊断等领域,防止恶意攻击者通过对抗样本干扰模型的正常运行。通过了解多模态模型的脆弱性,可以开发更有效的防御机制,提升系统的可靠性和安全性,从而促进多模态技术在实际场景中的应用。
📄 摘要(原文)
Assessing the robustness of multimodal models against adversarial examples is an important aspect for the safety of its users. We craft L0-norm perturbation attacks on the preprocessed input images. We launch them in a black-box setup against four multimodal models and two unimodal DNNs, considering both targeted and untargeted misclassification. Our attacks target less than 0.04% of perturbed image area and integrate different spatial positioning of perturbed pixels: sparse positioning and pixels arranged in different contiguous shapes (row, column, diagonal, and patch). To the best of our knowledge, we are the first to assess the robustness of three state-of-the-art multimodal models (ALIGN, AltCLIP, GroupViT) against different sparse and contiguous pixel distribution perturbations. The obtained results indicate that unimodal DNNs are more robust than multimodal models. Furthermore, models using CNN-based Image Encoder are more vulnerable than models with ViT - for untargeted attacks, we obtain a 99% success rate by perturbing less than 0.02% of the image area.