LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models

作者: Alvi Md Ishmam, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Chris Thomas

分类: cs.CV

发布日期: 2026-01-29

备注: Accepted in main technical track AAAI 2026

💡 一句话要点

LAMP：通过预训练模型学习多图像任务的通用对抗扰动

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 对抗攻击 通用对抗扰动 黑盒攻击 视觉语言模型

📋 核心要点

现有对抗攻击主要针对单图像，且依赖不切实际的白盒假设，忽略了多图像MLLM的脆弱性。
LAMP通过注意力约束、跨图像传染约束和索引注意力抑制损失，实现了黑盒通用对抗扰动攻击。
实验表明，LAMP在多种视觉-语言任务和模型上，攻击成功率超越了现有最优方法。

📝 摘要（中文）

多模态大型语言模型（MLLM）在视觉-语言任务中取得了显著的性能。最近的进展使得这些模型能够处理多个图像作为输入。然而，多图像MLLM的脆弱性仍未被探索。现有的对抗攻击主要集中在单图像设置，并且通常假设白盒威胁模型，这在许多现实场景中是不切实际的。本文介绍了一种黑盒方法LAMP，用于学习针对多图像MLLM的通用对抗扰动（UAP）。LAMP应用了一种基于注意力的约束，以阻止模型有效地聚合跨图像的信息。LAMP还引入了一种新颖的跨图像传染约束，该约束迫使受扰动的token影响干净的token，从而在不需要修改所有输入的情况下传播对抗效果。此外，索引注意力抑制损失实现了鲁棒的位置不变攻击。实验结果表明，LAMP优于SOTA基线，并在多个视觉-语言任务和模型中实现了最高的攻击成功率。

🔬 方法详解

问题定义：论文旨在解决多图像多模态大语言模型（MLLM）在面对对抗攻击时的脆弱性问题。现有的对抗攻击方法主要集中于单张图像，并且通常假设攻击者拥有模型的全部信息（白盒攻击），这在实际应用中是不现实的。因此，如何在黑盒场景下，有效地攻击多图像MLLM是一个亟待解决的问题。

核心思路：论文的核心思路是通过学习一种通用的对抗扰动（Universal Adversarial Perturbation, UAP），使其能够应用于不同的输入图像，从而欺骗多图像MLLM。为了实现这一目标，论文设计了多种约束和损失函数，以增强扰动的攻击性和泛化能力。

技术框架：LAMP的整体框架包括以下几个关键模块：1) 扰动生成器：负责生成对抗扰动。2) 注意力约束模块：阻止模型有效地聚合跨图像的信息。3) 跨图像传染约束模块：迫使受扰动的token影响干净的token，传播对抗效果。4) 索引注意力抑制损失：实现鲁棒的位置不变攻击。整个流程是，首先生成扰动，然后将其添加到输入图像中，再将扰动后的图像输入到MLLM中，最后通过计算损失函数来优化扰动生成器。

关键创新：LAMP的关键创新在于以下几个方面：1) 黑盒攻击：无需访问模型内部参数，更符合实际应用场景。2) 通用对抗扰动：生成的扰动可以应用于不同的输入图像，具有更强的泛化能力。3) 跨图像传染约束：通过迫使受扰动的token影响干净的token，实现了更有效的攻击。4) 索引注意力抑制损失：增强了攻击的位置不变性。

关键设计：LAMP的关键设计包括：1) 注意力约束：通过限制模型对不同图像的注意力权重，阻止模型有效地聚合跨图像的信息。具体实现方式未知。2) 跨图像传染约束：通过设计特定的损失函数，迫使受扰动的token影响干净的token，从而传播对抗效果。具体实现方式未知。3) 索引注意力抑制损失：通过抑制特定位置的注意力权重，增强攻击的位置不变性。具体实现方式未知。4) 扰动生成器：具体网络结构未知，但其目标是生成能够欺骗MLLM的对抗扰动。

🖼️ 关键图片

📊 实验亮点

LAMP在多个视觉-语言任务和模型上实现了最高的攻击成功率，超越了现有最优方法。具体性能数据未知，但论文强调了LAMP在黑盒攻击和通用对抗扰动方面的优势，以及跨图像传染约束和索引注意力抑制损失的有效性。

🎯 应用场景

该研究成果可应用于评估和提升多模态大语言模型的安全性，尤其是在图像理解、视觉问答等任务中。通过发现模型的脆弱性，可以促进更鲁棒的模型的开发，从而提高模型在实际应用中的可靠性，例如自动驾驶、医疗诊断等领域。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have achieved remarkable performance across vision-language tasks. Recent advancements allow these models to process multiple images as inputs. However, the vulnerabilities of multi-image MLLMs remain unexplored. Existing adversarial attacks focus on single-image settings and often assume a white-box threat model, which is impractical in many real-world scenarios. This paper introduces LAMP, a black-box method for learning Universal Adversarial Perturbations (UAPs) targeting multi-image MLLMs. LAMP applies an attention-based constraint that prevents the model from effectively aggregating information across images. LAMP also introduces a novel cross-image contagious constraint that forces perturbed tokens to influence clean tokens, spreading adversarial effects without requiring all inputs to be modified. Additionally, an index-attention suppression loss enables a robust position-invariant attack. Experimental results show that LAMP outperforms SOTA baselines and achieves the highest attack success rates across multiple vision-language tasks and models.

LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理