Prompt Injection Attacks on Large Language Models in Oncology

📄 arXiv: 2407.18981v1 📥 PDF

作者: Jan Clusmann, Dyke Ferber, Isabella C. Wiest, Carolin V. Schneider, Titus J. Brinker, Sebastian Foersch, Daniel Truhn, Jakob N. Kather

分类: cs.CR, cs.AI, cs.LG

发布日期: 2024-07-23

备注: 57 Pages, 5 Figures


💡 一句话要点

揭示医学视觉语言模型易受提示注入攻击的安全漏洞

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 提示注入攻击 医学图像 人工智能安全 深度学习

📋 核心要点

  1. 现有的医学视觉语言模型(VLMs)在医疗领域应用广泛,但缺乏对提示注入攻击的有效防御,存在安全隐患。
  2. 该研究通过在医学图像中嵌入不易察觉的亚视觉提示,诱导VLMs产生有害输出,揭示了其安全漏洞。
  3. 实验证明,包括Claude 3 Opus、GPT-4o等先进VLMs均易受此类攻击,强调了临床应用前缓解漏洞的重要性。

📝 摘要(中文)

视觉语言人工智能模型(VLMs)拥有医学知识,可用于医疗保健的多种场景,如图像判读、虚拟助手和通用决策支持系统。然而,本文证明了当前应用于医学任务的VLMs存在一个根本性的安全缺陷:它们容易受到提示注入攻击,仅通过与VLM交互即可输出有害信息,而无需访问其参数。我们进行了一项定量研究,评估了四种最先进的VLMs(Claude 3 Opus、Claude 3.5 Sonnet、Reka Core和GPT-4o)在医疗保健应用中的漏洞。使用一组N=297的攻击,我们表明所有这些模型都容易受到攻击。具体来说,我们展示了在医学成像数据中嵌入亚视觉提示可能导致模型提供有害输出,并且这些提示对人类观察者来说是不明显的。因此,我们的研究揭示了医学VLMs中的一个关键漏洞,在广泛的临床应用之前应该加以缓解。

🔬 方法详解

问题定义:论文旨在揭示并评估医学视觉语言模型(VLMs)在面对提示注入攻击时的脆弱性。现有VLMs在医疗领域的应用日益广泛,但缺乏对恶意提示的有效防御机制,可能导致模型输出错误或有害信息,从而对患者安全构成威胁。现有方法未能充分考虑这种安全风险,需要进行深入研究和改进。

核心思路:论文的核心思路是通过构造特定的提示注入攻击,诱导VLMs产生非预期或有害的输出,从而暴露其安全漏洞。具体而言,研究人员设计了亚视觉提示,将其嵌入到医学图像中,这些提示对人类观察者来说几乎不可见,但可以被VLMs识别和利用,从而影响模型的决策和输出。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择目标VLMs:选取了在医疗领域具有代表性的四种先进VLMs,包括Claude 3 Opus、Claude 3.5 Sonnet、Reka Core和GPT-4o。2) 设计提示注入攻击:构造了一系列亚视觉提示,这些提示旨在诱导VLMs产生特定的有害输出。3) 嵌入提示:将亚视觉提示嵌入到医学图像中,生成带有恶意信息的图像数据。4) 评估模型响应:将带有提示的图像输入到VLMs中,观察模型的输出,并评估其是否受到提示注入攻击的影响。5) 定量分析:对实验结果进行定量分析,统计VLMs受到攻击的成功率,并评估不同提示的有效性。

关键创新:该研究的关键创新在于:1) 首次系统性地研究了医学VLMs在面对提示注入攻击时的脆弱性。2) 提出了亚视觉提示注入攻击方法,该方法利用人类视觉系统难以察觉的提示,有效绕过了模型的防御机制。3) 通过定量实验证明了多种先进VLMs均易受此类攻击,揭示了其潜在的安全风险。

关键设计:研究中关键的设计包括:1) 亚视觉提示的设计:提示需要足够隐蔽,以避免被人类观察者发现,同时又要能够被VLMs识别和利用。2) 攻击样本的构建:需要选择具有代表性的医学图像,并将提示以适当的方式嵌入到图像中,以确保攻击的有效性。3) 评估指标的选择:需要选择合适的指标来评估VLMs受到攻击的程度,例如输出的准确性、安全性等。

🖼️ 关键图片

img_0
img_1
img_2

📊 实验亮点

实验结果表明,所有测试的VLMs(Claude 3 Opus, Claude 3.5 Sonnet, Reka Core, GPT-4o)均易受提示注入攻击。通过嵌入亚视觉提示,模型在高达一定比例的情况下输出了有害信息,证明了当前医学VLMs在安全性方面存在显著缺陷,需要进一步研究和改进。

🎯 应用场景

该研究成果对医疗人工智能的安全应用具有重要意义。通过揭示医学VLMs的提示注入漏洞,提醒开发者和使用者重视模型安全,并采取相应的防御措施。未来的研究可以集中在开发更强大的防御机制,例如提示过滤、对抗训练等,以提高医学VLMs的安全性,确保其在临床应用中的可靠性和安全性。

📄 摘要(原文)

Vision-language artificial intelligence models (VLMs) possess medical knowledge and can be employed in healthcare in numerous ways, including as image interpreters, virtual scribes, and general decision support systems. However, here, we demonstrate that current VLMs applied to medical tasks exhibit a fundamental security flaw: they can be attacked by prompt injection attacks, which can be used to output harmful information just by interacting with the VLM, without any access to its parameters. We performed a quantitative study to evaluate the vulnerabilities to these attacks in four state of the art VLMs which have been proposed to be of utility in healthcare: Claude 3 Opus, Claude 3.5 Sonnet, Reka Core, and GPT-4o. Using a set of N=297 attacks, we show that all of these models are susceptible. Specifically, we show that embedding sub-visual prompts in medical imaging data can cause the model to provide harmful output, and that these prompts are non-obvious to human observers. Thus, our study demonstrates a key vulnerability in medical VLMs which should be mitigated before widespread clinical adoption.