Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Images via Visual Prompt Injection

📄 arXiv: 2604.09024v1 📥 PDF

作者: Zedian Shao, Hongbin Liu, Yuepeng Hu, Neil Zhenqiang Gong

分类: cs.CV, cs.AI, cs.CR, cs.LG

发布日期: 2026-04-10

备注: Appeared in ACL 2026 main conference

期刊: The 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)


💡 一句话要点

提出ImageProtector,通过视觉提示注入防御多模态大语言模型分析图像

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉提示注入 隐私保护 对抗攻击 图像安全

📋 核心要点

  1. 现有方法难以有效防止开源多模态大语言模型大规模自动化分析个人图像中的敏感信息。
  2. ImageProtector通过在图像中嵌入难以察觉的扰动,诱导MLLM产生拒绝响应,从而保护图像隐私。
  3. 实验证明ImageProtector在多个MLLM和数据集上有效,且现有防御手段难以完全消除其影响。

📝 摘要(中文)

多模态大语言模型(MLLMs)已成为分析互联网规模图像数据的强大工具,在带来显著优势的同时,也引发了严重的安全和社会问题。特别是,开源MLLMs可能被滥用,大规模地从个人图像中提取敏感信息,如身份、位置或其他私人细节。本文提出ImageProtector,一种用户侧方法,通过嵌入精心制作的、几乎无法察觉的扰动,作为对MLLMs的视觉提示注入攻击,从而在共享之前主动保护图像。结果是,当攻击者使用MLLM分析受保护的图像时,MLLM始终被诱导生成拒绝响应,例如“对不起,我无法帮助处理该请求”。我们通过实验证明了ImageProtector在六个MLLMs和四个数据集上的有效性。此外,我们评估了三种潜在的对策:高斯噪声、DiffPure和对抗训练,并表明虽然它们部分缓解了ImageProtector的影响,但它们同时降低了模型准确性和/或效率。我们的研究侧重于开源MLLMs和大规模自动化图像分析这一具有重要实际意义的场景,并强调了基于扰动的隐私保护的希望和局限性。

🔬 方法详解

问题定义:论文旨在解决开源多模态大语言模型(MLLMs)被滥用,从而大规模自动化分析个人图像并提取敏感信息的问题。现有方法缺乏有效的用户侧隐私保护机制,无法阻止未经授权的图像分析。

核心思路:核心思路是利用视觉提示注入攻击的思想,在图像中嵌入精心设计的、人眼难以察觉的扰动。这些扰动能够诱导MLLMs产生拒绝响应,从而阻止其分析图像内容,达到保护隐私的目的。这种方法无需修改MLLM本身,用户可以在图像共享前主动进行保护。

技术框架:ImageProtector的技术框架主要包含以下几个步骤:1) 选择需要保护的图像;2) 使用算法生成针对特定MLLM的视觉扰动;3) 将扰动嵌入到图像中,生成受保护的图像;4) 用户共享受保护的图像。当攻击者使用MLLM分析受保护的图像时,MLLM会被诱导产生拒绝响应。

关键创新:关键创新在于提出了一种用户侧的、基于视觉提示注入的隐私保护方法。与传统的隐私保护方法不同,ImageProtector不需要修改MLLM本身,而是通过修改输入图像来干扰MLLM的分析结果。这种方法具有更高的灵活性和可部署性。

关键设计:ImageProtector的关键设计包括:1) 扰动的生成算法,需要保证扰动的有效性和不可察觉性;2) 扰动的嵌入方式,需要保证嵌入后的图像质量;3) 针对不同MLLM的扰动优化策略,以提高攻击的成功率。论文中可能涉及对抗损失函数的设计,以确保生成的扰动能够有效地欺骗MLLM。

📊 实验亮点

实验结果表明,ImageProtector在六个MLLMs和四个数据集上均表现出良好的保护效果,能够有效诱导MLLMs产生拒绝响应。同时,研究评估了高斯噪声、DiffPure和对抗训练等防御手段,发现它们在一定程度上可以缓解ImageProtector的影响,但也会降低模型准确性和/或效率,表明ImageProtector具有一定的鲁棒性。

🎯 应用场景

该研究成果可应用于社交媒体平台、云存储服务等场景,帮助用户保护个人图像隐私,防止未经授权的图像分析和信息泄露。未来,该技术可扩展到视频等其他多媒体数据,并与其他隐私保护技术结合,构建更完善的隐私保护体系。

📄 摘要(原文)

Multi-modal large language models (MLLMs) have emerged as powerful tools for analyzing Internet-scale image data, offering significant benefits but also raising critical safety and societal concerns. In particular, open-weight MLLMs may be misused to extract sensitive information from personal images at scale, such as identities, locations, or other private details. In this work, we propose ImageProtector, a user-side method that proactively protects images before sharing by embedding a carefully crafted, nearly imperceptible perturbation that acts as a visual prompt injection attack on MLLMs. As a result, when an adversary analyzes a protected image with an MLLM, the MLLM is consistently induced to generate a refusal response such as "I'm sorry, I can't help with that request." We empirically demonstrate the effectiveness of ImageProtector across six MLLMs and four datasets. Additionally, we evaluate three potential countermeasures, Gaussian noise, DiffPure, and adversarial training, and show that while they partially mitigate the impact of ImageProtector, they simultaneously degrade model accuracy and/or efficiency. Our study focuses on the practically important setting of open-weight MLLMs and large-scale automated image analysis, and highlights both the promise and the limitations of perturbation-based privacy protection.