Adversarial Prompt Injection Attack on Multimodal Large Language Models
作者: Meiwen Ding, Song Xia, Chenqi Kong, Xudong Jiang
分类: cs.CV, cs.AI
发布日期: 2026-03-31
💡 一句话要点
提出针对多模态大语言模型的不可察觉视觉提示注入攻击方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 提示注入攻击 对抗性攻击 视觉提示 不可察觉性
📋 核心要点
- 现有的多模态大语言模型易受提示注入攻击,但现有方法依赖于可感知的文本或视觉提示。
- 该论文提出一种不可察觉的视觉提示注入方法,通过优化图像中的对抗性扰动来嵌入恶意指令。
- 实验表明,该方法在多个闭源MLLM上优于现有方法,证明了其有效性和可迁移性。
📝 摘要(中文)
多模态大语言模型(MLLMs)日益广泛地应用于现实场景,但其指令遵循特性使其容易遭受提示注入攻击。现有的提示注入方法主要依赖于文本提示或人类用户可感知的视觉提示。本文研究了针对强大闭源MLLMs的不可察觉视觉提示注入,其中对抗性指令嵌入在视觉模态中。我们的方法通过有界的文本覆盖自适应地将恶意提示嵌入到输入图像中,以提供语义指导。同时,迭代优化不可察觉的视觉扰动,以在粗粒度和细粒度级别上将受攻击图像的特征表示与恶意视觉和文本目标的特征表示对齐。具体而言,视觉目标被实例化为文本渲染图像,并在优化过程中逐步细化,以更忠实地表示所需的语义并提高可迁移性。在多个闭源MLLMs上的两个多模态理解任务上的大量实验表明,与现有方法相比,我们的方法具有卓越的性能。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)容易受到提示注入攻击的问题,特别是针对闭源MLLMs,现有的攻击方法依赖于明显的文本或视觉提示,容易被防御机制检测到,缺乏隐蔽性和鲁棒性。因此,需要一种更隐蔽、更有效的视觉提示注入方法来评估和提高MLLMs的安全性。
核心思路:核心思路是将恶意指令以不可察觉的方式嵌入到输入图像中,通过优化图像中的对抗性扰动,使得MLLM将图像理解为包含恶意指令的提示,从而引导模型产生攻击者期望的输出。这种方法旨在绕过现有的防御机制,并利用MLLMs对视觉信息的敏感性。
技术框架:该方法主要包含以下几个阶段:1) 恶意提示嵌入:通过有界的文本覆盖将恶意提示自适应地嵌入到输入图像中,提供语义指导。2) 视觉扰动优化:迭代优化不可察觉的视觉扰动,以对齐受攻击图像与恶意视觉和文本目标的特征表示。3) 视觉目标实例化与细化:将视觉目标实例化为文本渲染图像,并在优化过程中逐步细化,以更忠实地表示所需的语义并提高可迁移性。
关键创新:该方法的关键创新在于:1) 不可察觉性:通过优化视觉扰动,使得攻击难以被人类察觉。2) 自适应嵌入:根据图像内容自适应地嵌入恶意提示,提高攻击的有效性。3) 目标对齐:通过在粗粒度和细粒度级别上对齐特征表示,增强攻击的鲁棒性和可迁移性。4) 视觉目标细化:通过迭代细化文本渲染图像,更准确地表达恶意指令的语义。
关键设计:1) 有界文本覆盖:限制文本覆盖的范围,以保证视觉扰动的不可察觉性。2) 特征对齐损失:设计损失函数,用于在粗粒度和细粒度级别上对齐受攻击图像与恶意视觉和文本目标的特征表示。3) 迭代优化:通过迭代优化视觉扰动,逐步提高攻击的有效性。4) 文本渲染图像细化:在优化过程中逐步细化文本渲染图像,以更准确地表达恶意指令的语义。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个闭源MLLMs上,针对两个多模态理解任务,均取得了优于现有方法的性能。该方法能够有效地嵌入不可察觉的视觉提示,并引导MLLMs产生攻击者期望的输出,证明了其有效性和可迁移性。具体的性能数据和对比基线在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于评估和提高多模态大语言模型的安全性,尤其是在图像理解和指令遵循方面。通过发现和利用MLLMs的漏洞,可以促进开发更鲁棒、更安全的模型。此外,该方法还可以用于构建更强大的防御机制,以防止恶意攻击,保障MLLMs在实际应用中的可靠性。
📄 摘要(原文)
Although multimodal large language models (MLLMs) are increasingly deployed in real-world applications, their instruction-following behavior leaves them vulnerable to prompt injection attacks. Existing prompt injection methods predominantly rely on textual prompts or perceptible visual prompts that are observable by human users. In this work, we study imperceptible visual prompt injection against powerful closed-source MLLMs, where adversarial instructions are embedded in the visual modality. Our method adaptively embeds the malicious prompt into the input image via a bounded text overlay to provide semantic guidance. Meanwhile, the imperceptible visual perturbation is iteratively optimized to align the feature representation of the attacked image with those of the malicious visual and textual targets at both coarse- and fine-grained levels. Specifically, the visual target is instantiated as a text-rendered image and progressively refined during optimization to more faithfully represent the desired semantics and improve transferability. Extensive experiments on two multimodal understanding tasks across multiple closed-source MLLMs demonstrate the superior performance of our approach compared to existing methods.