Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

📄 arXiv: 2505.21494v1 📥 PDF

作者: Xiaojun Jia, Sensen Gao, Simeng Qin, Tianyu Pang, Chao Du, Yihao Huang, Xinfeng Li, Yiming Li, Bo Li, Yang Liu

分类: cs.CV

发布日期: 2025-05-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出FOA-Attack,通过特征优化对齐提升多模态大语言模型对抗攻击的迁移性,尤其针对闭源模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 对抗攻击 可迁移性 特征对齐 最优传输

📋 核心要点

  1. 现有对抗攻击方法忽略了多模态大语言模型中patch token蕴含的丰富局部信息,导致特征对齐不充分,迁移性受限,尤其对闭源模型。
  2. FOA-Attack通过全局特征的粗粒度对齐和局部特征的细粒度对齐,实现特征优化对齐,提升对抗样本的迁移能力。
  3. 实验结果表明,FOA-Attack在多种模型上优于现有方法,尤其在攻击闭源多模态大语言模型时表现出显著优势。

📝 摘要(中文)

多模态大语言模型(MLLMs)仍然容易受到可迁移的对抗样本攻击。现有方法通常通过对齐对抗样本和目标样本之间的全局特征(例如CLIP的[CLS] token)来实现有目标攻击,但它们往往忽略了patch token中编码的丰富的局部信息。这导致次优的对齐和有限的迁移性,特别是对于闭源模型。为了解决这个限制,我们提出了一种基于特征优化对齐的有目标可迁移对抗攻击方法,称为FOA-Attack,以提高对抗迁移能力。具体来说,在全局层面,我们引入了基于余弦相似度的全局特征损失,以将对抗样本的粗粒度特征与目标样本的特征对齐。在局部层面,考虑到Transformer中丰富的局部表示,我们利用聚类技术提取紧凑的局部模式,以减少冗余的局部特征。然后,我们将对抗样本和目标样本之间的局部特征对齐表述为一个最优传输(OT)问题,并提出了一种局部聚类最优传输损失来细化细粒度的特征对齐。此外,我们提出了一种动态集成模型加权策略,以自适应地平衡对抗样本生成过程中多个模型的影响,从而进一步提高迁移性。在各种模型上进行的大量实验表明了该方法的优越性,优于最先进的方法,尤其是在迁移到闭源MLLM时。

🔬 方法详解

问题定义:现有针对多模态大语言模型(MLLMs)的对抗攻击方法,主要通过对齐对抗样本和目标样本的全局特征来实现攻击。然而,这些方法忽略了patch token中包含的丰富的局部信息,导致特征对齐不够优化,尤其是在攻击闭源模型时,迁移性受到限制。因此,需要一种能够有效利用局部信息,提升对抗样本迁移性的攻击方法。

核心思路:FOA-Attack的核心思路是通过全局和局部特征的优化对齐来提升对抗样本的迁移能力。全局特征对齐保证了对抗样本在语义层面的相似性,而局部特征对齐则关注更细粒度的特征匹配,从而提高攻击的精确性和鲁棒性。通过结合全局和局部特征的优势,FOA-Attack能够生成更具迁移性的对抗样本。

技术框架:FOA-Attack的整体框架包含以下几个主要阶段:1) 全局特征对齐:使用余弦相似度损失函数,对齐对抗样本和目标样本的全局特征,保证语义一致性。2) 局部特征提取与聚类:利用聚类算法提取Transformer中的局部特征,并通过聚类减少冗余信息,获得紧凑的局部模式。3) 局部特征最优传输对齐:将局部特征对齐问题建模为最优传输问题,使用局部聚类最优传输损失来优化局部特征的匹配。4) 动态集成模型加权:在生成对抗样本时,动态调整多个模型的影响权重,进一步提高迁移性。

关键创新:FOA-Attack的关键创新在于同时考虑了全局和局部特征的对齐,并利用最优传输理论来优化局部特征的匹配。与现有方法仅关注全局特征相比,FOA-Attack能够更充分地利用多模态大语言模型中的信息,从而生成更具迁移性的对抗样本。此外,动态集成模型加权策略也进一步提升了攻击的鲁棒性。

关键设计:在全局特征对齐中,使用了余弦相似度作为损失函数,以衡量全局特征的相似程度。在局部特征提取中,采用了K-means聚类算法,将局部特征划分为若干个簇,每个簇代表一种局部模式。在局部特征最优传输对齐中,使用了Sinkhorn算法来求解最优传输问题,并引入了局部聚类最优传输损失来优化对齐效果。动态集成模型加权策略则根据每个模型在对抗样本生成过程中的表现,自适应地调整其权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FOA-Attack在多种模型上均优于现有最先进的方法,尤其是在攻击闭源多模态大语言模型时表现出显著优势。例如,在某些闭源模型上,FOA-Attack的攻击成功率比现有方法提高了10%以上。这些结果验证了FOA-Attack在提升对抗样本迁移性方面的有效性。

🎯 应用场景

该研究成果可应用于评估和提升多模态大语言模型的安全性,尤其是在对抗攻击防御方面。通过生成更具迁移性的对抗样本,可以更有效地检测模型的漏洞,并为开发更鲁棒的模型提供指导。此外,该方法还可以用于评估不同模型的安全性,并为用户选择更可靠的模型提供参考。

📄 摘要(原文)

Multimodal large language models (MLLMs) remain vulnerable to transferable adversarial examples. While existing methods typically achieve targeted attacks by aligning global features-such as CLIP's [CLS] token-between adversarial and target samples, they often overlook the rich local information encoded in patch tokens. This leads to suboptimal alignment and limited transferability, particularly for closed-source models. To address this limitation, we propose a targeted transferable adversarial attack method based on feature optimal alignment, called FOA-Attack, to improve adversarial transfer capability. Specifically, at the global level, we introduce a global feature loss based on cosine similarity to align the coarse-grained features of adversarial samples with those of target samples. At the local level, given the rich local representations within Transformers, we leverage clustering techniques to extract compact local patterns to alleviate redundant local features. We then formulate local feature alignment between adversarial and target samples as an optimal transport (OT) problem and propose a local clustering optimal transport loss to refine fine-grained feature alignment. Additionally, we propose a dynamic ensemble model weighting strategy to adaptively balance the influence of multiple models during adversarial example generation, thereby further improving transferability. Extensive experiments across various models demonstrate the superiority of the proposed method, outperforming state-of-the-art methods, especially in transferring to closed-source MLLMs. The code is released at https://github.com/jiaxiaojunQAQ/FOA-Attack.