Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach

作者: Jiwei Guan, Tianyu Ding, Longbing Cao, Lei Pan, Chen Wang, Xi Zheng

分类: cs.CV, cs.AI

发布日期: 2024-08-24

💡 一句话要点

提出JMTFA，揭示视觉-语言预训练模型在多模态对抗攻击下的脆弱性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言预训练 对抗攻击 多模态学习 Transformer模型 注意力机制

📋 核心要点

现有方法忽略了视觉-语言预训练模型中视觉和文本模态间的跨模态交互，尤其是在跨注意力机制中，导致对抗攻击效果不佳。
提出联合多模态Transformer特征攻击（JMTFA），同时在视觉和文本模态中引入对抗扰动，针对注意力相关性得分进行攻击。
实验表明，JMTFA在视觉-语言理解和推理任务上取得了比现有方法更高的攻击成功率，并揭示了文本模态在VLP模型中的重要作用。

📝 摘要（中文）

本文深入研究了视觉-语言预训练（VLP）Transformer模型的对抗鲁棒性。现有方法主要忽略了视觉和文本模态之间的跨模态交互，尤其是在跨注意力机制中。因此，本文设计了一种新颖的联合多模态Transformer特征攻击（JMTFA），在白盒设置下同时引入视觉和文本模态的对抗扰动。JMTFA策略性地针对注意力相关性得分，以扰乱每个模态中的重要特征，通过融合扰动生成对抗样本，导致模型产生错误的预测。实验结果表明，与现有基线相比，该方法在视觉-语言理解和推理下游任务上实现了较高的攻击成功率。研究发现，文本模态显著影响了VLP Transformer中复杂的融合过程。此外，模型大小与所提出的攻击下的对抗鲁棒性之间没有明显关系。这些发现强调了对抗鲁棒性的一个新维度，并强调了多模态人工智能系统可靠部署中的潜在风险。

🔬 方法详解

问题定义：论文旨在研究视觉-语言预训练模型（VLP）的对抗鲁棒性。现有针对多模态模型的对抗攻击方法，未能充分考虑视觉和文本模态之间通过跨注意力机制产生的复杂交互，导致攻击效果受限。因此，如何有效地攻击VLP模型，揭示其潜在的安全风险，是本文要解决的核心问题。

核心思路：论文的核心思路是设计一种联合多模态攻击方法，同时对视觉和文本模态进行扰动，并着重攻击Transformer模型中的注意力机制。通过扰乱注意力相关性得分，从而影响模型对重要特征的提取和融合，最终导致模型产生错误的预测。这种联合攻击的思路旨在模拟更真实的攻击场景，并更有效地利用跨模态交互的脆弱性。

技术框架：JMTFA的整体框架包括以下几个主要步骤：1) 选择目标VLP模型和下游任务；2) 针对视觉和文本模态，分别计算对抗扰动；3) 将对抗扰动添加到原始输入中，生成对抗样本；4) 将对抗样本输入到VLP模型中，观察模型的预测结果；5) 通过优化扰动，最大化攻击成功率。该框架采用白盒攻击设置，即攻击者可以访问模型的全部信息。

关键创新：JMTFA的关键创新在于其联合多模态攻击策略，以及对注意力机制的针对性攻击。与以往只关注单一模态的攻击方法不同，JMTFA同时扰动视觉和文本模态，更有效地利用了跨模态交互的脆弱性。此外，通过直接攻击注意力相关性得分，JMTFA能够更精准地影响模型对重要特征的提取，从而提高攻击成功率。

关键设计：JMTFA的关键设计包括：1) 扰动生成方式：采用梯度上升法，根据损失函数（例如，交叉熵损失）计算扰动方向和大小；2) 注意力攻击目标：选择Transformer模型中关键的注意力层，例如，跨注意力层；3) 扰动融合方式：将视觉和文本扰动以一定的权重进行融合，以平衡两个模态的攻击强度；4) 损失函数设计：采用交叉熵损失函数，目标是使模型对对抗样本的预测结果与真实标签不同。

🖼️ 关键图片

📊 实验亮点

实验结果表明，JMTFA在视觉-语言理解和推理任务上取得了显著的攻击效果，攻击成功率高于现有基线方法。研究还发现，文本模态在VLP模型的融合过程中起着重要作用，并且模型大小与对抗鲁棒性之间没有明显关系。这些发现揭示了VLP模型在对抗攻击下的脆弱性，并为未来的研究方向提供了新的思路。

🎯 应用场景

该研究成果可应用于评估和提升多模态人工智能系统的安全性。通过对抗攻击，可以发现VLP模型中的潜在漏洞，并为开发更鲁棒的模型提供指导。此外，该研究还可以促进对抗防御技术的发展，例如，对抗训练和输入过滤，从而提高多模态AI系统在实际应用中的可靠性。

📄 摘要（原文）

Vision-language pretraining (VLP) with transformers has demonstrated exceptional performance across numerous multimodal tasks. However, the adversarial robustness of these models has not been thoroughly investigated. Existing multimodal attack methods have largely overlooked cross-modal interactions between visual and textual modalities, particularly in the context of cross-attention mechanisms. In this paper, we study the adversarial vulnerability of recent VLP transformers and design a novel Joint Multimodal Transformer Feature Attack (JMTFA) that concurrently introduces adversarial perturbations in both visual and textual modalities under white-box settings. JMTFA strategically targets attention relevance scores to disrupt important features within each modality, generating adversarial samples by fusing perturbations and leading to erroneous model predictions. Experimental results indicate that the proposed approach achieves high attack success rates on vision-language understanding and reasoning downstream tasks compared to existing baselines. Notably, our findings reveal that the textual modality significantly influences the complex fusion processes within VLP transformers. Moreover, we observe no apparent relationship between model size and adversarial robustness under our proposed attacks. These insights emphasize a new dimension of adversarial robustness and underscore potential risks in the reliable deployment of multimodal AI systems.

Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理