Empirical Analysis of Large Vision-Language Models against Goal Hijacking via Visual Prompt Injection
作者: Subaru Kimura, Ryota Tanaka, Shumpei Miyawaki, Jun Suzuki, Keisuke Sakaguchi
分类: cs.CL, cs.CR, cs.LG
发布日期: 2024-08-07
备注: 8 pages, 6 figures, Accepted to NAACL 2024 SRW
💡 一句话要点
提出基于视觉提示注入的目标劫持攻击方法,揭示大型视觉语言模型的安全风险
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉提示注入 目标劫持 大型视觉语言模型 安全风险 GPT-4V
📋 核心要点
- 大型视觉语言模型易受视觉提示注入攻击,攻击者通过图像上的指令改变模型行为。
- 提出目标劫持视觉提示注入(GHVPI)方法,将模型任务切换为攻击者指定任务。
- 实验表明GPT-4V对此类攻击存在显著漏洞,成功率达15.8%,凸显安全风险。
📝 摘要(中文)
本文研究了视觉提示注入(VPI),该方法恶意利用大型视觉语言模型(LVLMs)遵循输入图像上绘制的指令的能力。我们提出了一种新的VPI方法,即“通过视觉提示注入进行目标劫持”(GHVPI),该方法将LVLMs的执行任务从原始任务切换到攻击者指定的替代任务。定量分析表明,GPT-4V容易受到GHVPI的攻击,并表现出15.8%的显著攻击成功率,这是一个不可忽视的安全风险。我们的分析还表明,成功的GHVPI需要LVLMs具有高字符识别能力和指令遵循能力。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)在面对恶意视觉提示注入(VPI)时,任务执行目标被劫持的问题。现有方法缺乏对此类攻击的有效防御,使得LVLMs容易被攻击者控制,执行非预期任务。
核心思路:论文的核心思路是利用VPI,通过在输入图像上添加特定的视觉提示(例如手写指令),诱导LVLMs将原始任务替换为攻击者设定的目标任务。这种方法依赖于LVLMs强大的指令遵循能力和图像理解能力。
技术框架:GHVPI攻击流程如下:1) 选择一个原始任务,例如图像描述;2) 设计一个替代任务,例如回答特定问题;3) 在输入图像上绘制包含替代任务指令的视觉提示;4) 将带有视觉提示的图像输入LVLMs;5) 观察LVLMs是否执行了替代任务而非原始任务。
关键创新:该论文的关键创新在于提出了“目标劫持”的概念,即通过视觉提示注入,完全改变LVLMs的任务执行目标。与以往的VPI攻击不同,GHVPI旨在使LVLMs执行与原始任务完全不同的任务,从而实现更高级别的控制。
关键设计:GHVPI的关键设计在于视觉提示的内容和形式。攻击者需要精心设计视觉提示,使其既能被LVLMs准确识别,又能有效地覆盖或替换原始任务的指令。实验中,作者使用了手写指令作为视觉提示,并评估了不同指令内容和位置对攻击成功率的影响。此外,论文还分析了LVLMs的字符识别能力和指令遵循能力对GHVPI成功率的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4V对GHVPI攻击表现出显著的脆弱性,攻击成功率高达15.8%。分析表明,LVLMs的字符识别能力和指令遵循能力是GHVPI攻击成功的关键因素。这些发现强调了大型视觉语言模型在安全方面面临的挑战,并为未来的安全研究提供了重要方向。
🎯 应用场景
该研究揭示了大型视觉语言模型在安全方面的潜在风险,有助于开发更鲁棒的防御机制,例如输入过滤、对抗训练等。此外,该研究也提醒开发者在部署LVLMs时,需要充分考虑潜在的安全漏洞,并采取相应的安全措施,以防止恶意攻击。
📄 摘要(原文)
We explore visual prompt injection (VPI) that maliciously exploits the ability of large vision-language models (LVLMs) to follow instructions drawn onto the input image. We propose a new VPI method, "goal hijacking via visual prompt injection" (GHVPI), that swaps the execution task of LVLMs from an original task to an alternative task designated by an attacker. The quantitative analysis indicates that GPT-4V is vulnerable to the GHVPI and demonstrates a notable attack success rate of 15.8%, which is an unignorable security risk. Our analysis also shows that successful GHVPI requires high character recognition capability and instruction-following ability in LVLMs.