A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation

作者: Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang, JianFeng Ma

分类: cs.CR, cs.CV

发布日期: 2026-05-15

💡 一句话要点

提出CrossMPI：一种针对大型视觉语言模型的图像注入跨模态提示攻击。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 提示注入攻击 跨模态攻击 模型安全 对抗性扰动

📋 核心要点

现有LVLM提示注入攻击主要局限于单模态或无法实现有效的跨模态扰动，限制了攻击效果。
CrossMPI通过图像注入提示，优化模型隐藏状态空间，实现对文本和视觉输入的跨模态引导。
实验表明，CrossMPI在多个LVLM和数据集上显著优于现有基线方法，提升了攻击成功率。

📝 摘要（中文）

大型视觉语言模型（LVLMs）已成为多模态智能的强大范例，但其日益增长的部署也扩大了提示注入的攻击面。尽管人们越来越关注这个问题，但现有的攻击仍然存在一个关键限制：针对一种模态注入的提示仅能引导模型对该单一输入的解释。或者，这些攻击仍然是多模态的，但未能实现跨模态提示扰动。为了弥合这一差距，我们提出了一种新的跨模态提示注入攻击CrossMPI，它可以通过仅图像提示注入来引导模型对文本和视觉输入的解释。我们的设计基于以下关键突破。首先，我们将注入的提示扰动优化的重点从视觉嵌入空间（通常只有$10^5$个参数）转移到模型隐藏状态空间（用于多模态信息集成，具有$10^7$个参数）。然后，我们采用了两种策略来缓解较大参数空间带来的优化挑战。为了约束优化的模型参数空间，我们引入了一种层选择策略，该策略可以识别对多模态集成至关重要的层。有趣的是，与过去的经验不同，我们的分析表明，LVLM提示扰动的最佳层位于模型的中间，而不是最后。为了约束图像扰动空间，我们提出了一种新的距离递减扰动预算分配策略，该策略随着像素距离语义关键区域的距离增加而递减地分配预算。在多个LVLM和数据集上进行的大量实验表明，我们的方法明显优于基线方法。

🔬 方法详解

问题定义：现有针对大型视觉语言模型（LVLM）的提示注入攻击，要么只能影响单一模态的理解，要么无法有效地实现跨模态的提示扰动。这意味着攻击者难以通过一种模态的输入来操控模型对另一种模态输入的理解，从而限制了攻击的有效性和灵活性。现有的攻击方法在跨模态场景下的鲁棒性较差，容易被防御机制所识别和抵御。

核心思路：CrossMPI的核心思路是通过优化图像输入中的细微扰动，使得这些扰动能够影响LVLM模型内部的隐藏状态，从而引导模型对文本和图像的整体理解。这种方法将优化目标从视觉嵌入空间转移到模型隐藏状态空间，利用更大的参数空间来增强攻击的表达能力。通过跨模态的扰动，使得模型在理解文本时受到图像扰动的影响，反之亦然，从而实现更隐蔽和有效的攻击。

技术框架：CrossMPI的整体框架包括以下几个主要步骤：1) 选择目标LVLM模型：确定要攻击的LVLM模型。2) 构建攻击场景：设计包含文本和图像输入的攻击场景。3) 优化图像扰动：利用梯度下降等优化算法，在图像中添加细微的扰动，以最大化攻击目标。4) 层选择：选择对多模态信息集成至关重要的模型中间层作为优化目标。5) 扰动预算分配：根据像素距离语义关键区域的距离，递减地分配扰动预算。6) 评估攻击效果：评估攻击是否成功引导模型产生预期的错误输出。

关键创新：CrossMPI的关键创新在于：1) 跨模态扰动：实现了通过图像输入来影响模型对文本输入的理解，反之亦然。2) 隐藏状态空间优化：将优化目标从视觉嵌入空间转移到模型隐藏状态空间，利用更大的参数空间来增强攻击的表达能力。3) 层选择策略：发现LVLM提示扰动的最佳层位于模型的中间层，而非最后一层。4) 距离递减扰动预算分配：根据像素距离语义关键区域的距离，递减地分配扰动预算，提高了攻击的隐蔽性。

关键设计：CrossMPI的关键设计包括：1) 隐藏状态空间的选择：选择模型中间层的隐藏状态作为优化目标，这些层负责多模态信息的融合。2) 扰动预算的分配策略：采用距离递减的策略，使得距离语义关键区域较近的像素可以分配到更多的扰动预算，从而提高攻击的效率。3) 损失函数的设计：设计损失函数来衡量攻击目标与模型输出之间的差距，并利用梯度下降等优化算法来最小化损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CrossMPI在多个LVLM（包括LLaVA、MiniGPT-v2等）和数据集上显著优于基线方法。例如，在某些攻击场景下，CrossMPI的攻击成功率比现有方法提高了20%以上。此外，研究还发现，选择模型中间层作为优化目标可以显著提高攻击效果，这与以往的经验有所不同。

🎯 应用场景

CrossMPI的研究成果可应用于评估和提升大型视觉语言模型的安全性。通过模拟真实的攻击场景，可以发现模型在跨模态理解方面的潜在漏洞，并开发相应的防御机制。此外，该研究还可以促进对多模态模型鲁棒性的理解，为开发更安全可靠的多模态人工智能系统提供指导。

📄 摘要（原文）

Large vision-language models (LVLMs) have emerged as a powerful paradigm for multimodal intelligence, but their growing deployment also expands the attack surface of prompt injection. Despite this growing concern, existing attacks still suffer from a critical limitation: the injected prompt for one modality only steers the model's interpretation of that singular input. Alternatively, these attacks remain multimodal but fail to achieve cross-modal prompt perturbation. To bridge this gap, we introduce a novel cross-modal prompt injection attack CrossMPI, which can steer the model's interpretation of both textual and visual inputs via image-only prompt injection. Our design is underpinned by the following key breakthroughs. First, we turn the focus of the injected prompt perturbation optimization from the visual embedding space (typically with only $10^5$ parameters) to the model hidden state space (for multimodal information integration and with $10^7$ parameters). Then, two strategies are adopted to mitigate the optimization challenges posed by the larger parameter space. To constrain the optimized model parameter space, we introduce a layer selection strategy that identifies the layers most critical to multimodal integration. Interestingly, deviating from the past experience, our analysis reveals that the optimal layers for LVLM prompt perturbation reside in the middle of the model rather than the last. To constrain the image perturbation space, we propose a new distance-decremental perturbation budget assignment strategy that allocates budgets decrementally as the pixel distance to semantic-critical regions increases. Extensive experiments across multiple LVLMs and datasets show that our method significantly outperforms baseline approaches.

A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理