Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models
作者: Xijie Huang, Xinyuan Wang, Hantao Zhang, Yinghao Zhu, Jiawen Xi, Jingkun An, Hao Wang, Hao Liang, Chengwei Pan
分类: cs.CR, cs.AI, cs.CL, cs.MM
发布日期: 2024-05-26 (更新: 2024-08-21)
🔗 代码/项目: GITHUB
💡 一句话要点
揭示医疗多模态大语言模型漏洞:跨模态越狱攻击与不匹配攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医疗多模态 大语言模型 安全漏洞 对抗攻击 越狱攻击 临床应用 模型评估
📋 核心要点
- 医疗多模态大语言模型(MedMLLM)在临床应用中面临安全挑战,现有研究对其漏洞挖掘不足。
- 论文提出不匹配恶意攻击(2M-attack)及其优化版本(O2M-attack),结合临床数据与非典型现象。
- 构建3MAD数据集并提出MCM优化方法,显著提升了对MedMLLM的攻击成功率,验证了模型的脆弱性。
📝 摘要(中文)
大型语言模型(LLM)的安全问题已被广泛研究,但多模态大型语言模型(MLLM)的安全影响,尤其是在医疗环境(MedMLLM)中,仍未得到充分研究。本文深入探讨了MedMLLM中未被充分挖掘的安全漏洞,尤其是在临床环境中,复杂医疗挑战对问答交互的准确性和相关性提出了严格测试。通过将现有临床医疗数据与非典型的自然现象相结合,我们定义了不匹配恶意攻击(2M-attack),并引入了其优化版本,即优化不匹配恶意攻击(O2M-attack或2M-optimization)。利用我们构建的大量3MAD数据集,该数据集涵盖了广泛的医疗图像模态和有害的医疗场景,我们进行了全面分析,并提出了MCM优化方法,该方法显著提高了MedMLLM的攻击成功率。使用此数据集和攻击方法(包括对LLaVA-Med的白盒攻击和对其他四个SOTA模型的迁移攻击(黑盒))进行的评估表明,即使是设计了增强安全功能的MedMLLM仍然容易受到安全漏洞的影响。我们的工作强调迫切需要共同努力,实施强大的安全措施,并提高开源MedMLLM的安全性和有效性,特别是考虑到越狱攻击和其他恶意或临床上重要的利用在医疗环境中可能造成的严重性。我们的代码可在https://github.com/dirtycomputer/O2M_attack上找到。
🔬 方法详解
问题定义:论文旨在解决医疗多模态大语言模型(MedMLLM)在面对恶意攻击时的安全漏洞问题。现有方法未能充分考虑到临床场景的复杂性和特殊性,导致MedMLLM容易受到攻击,从而可能产生误导性的诊断或治疗建议,对患者安全构成威胁。
核心思路:论文的核心思路是利用临床医疗数据与非典型的自然现象相结合,构造一种“不匹配恶意攻击”(2M-attack)。这种攻击通过引入与医疗图像内容不一致但具有迷惑性的信息,来诱导MedMLLM产生错误的判断。通过优化这种攻击方式(O2M-attack),可以进一步提高攻击的成功率。
技术框架:整体框架包括三个主要部分:1) 构建包含多种医疗图像模态和有害医疗场景的3MAD数据集;2) 设计并实现2M-attack及其优化版本O2M-attack;3) 提出MCM优化方法,用于进一步提升攻击效果。该框架通过对LLaVA-Med进行白盒攻击,并对其他四个SOTA模型进行黑盒迁移攻击,验证了攻击方法的有效性。
关键创新:论文的关键创新在于提出了“不匹配恶意攻击”(2M-attack)的概念,并将其应用于医疗多模态大语言模型的安全评估。这种攻击方式模拟了现实世界中可能出现的恶意输入,能够更有效地揭示MedMLLM的潜在漏洞。此外,MCM优化方法也进一步提升了攻击的成功率。
关键设计:2M-attack的关键设计在于将临床医疗图像与非典型的自然现象(例如,将X光片与风景图片结合)进行融合,从而产生一种“不匹配”的输入。O2M-attack则通过优化融合策略,例如调整图像的融合比例和位置,来进一步提高攻击效果。MCM优化方法的具体技术细节未知,但其目标是最大化攻击成功率。
🖼️ 关键图片
📊 实验亮点
论文构建了包含多种医疗图像模态的3MAD数据集,并提出了2M-attack和O2M-attack。实验结果表明,即使是具有增强安全特性的MedMLLM,在面对这些攻击时仍然表现出脆弱性。通过MCM优化,攻击成功率得到了显著提升,验证了现有MedMLLM在安全性方面存在严重不足。
🎯 应用场景
该研究成果可应用于医疗人工智能系统的安全评估与防护。通过模拟恶意攻击,可以帮助开发者发现并修复MedMLLM的潜在漏洞,提升系统的鲁棒性和可靠性。此外,该研究也为构建更安全的医疗人工智能应用提供了新的思路和方法。
📄 摘要(原文)
Security concerns related to Large Language Models (LLMs) have been extensively explored, yet the safety implications for Multimodal Large Language Models (MLLMs), particularly in medical contexts (MedMLLMs), remain insufficiently studied. This paper delves into the underexplored security vulnerabilities of MedMLLMs, especially when deployed in clinical environments where the accuracy and relevance of question-and-answer interactions are critically tested against complex medical challenges. By combining existing clinical medical data with atypical natural phenomena, we define the mismatched malicious attack (2M-attack) and introduce its optimized version, known as the optimized mismatched malicious attack (O2M-attack or 2M-optimization). Using the voluminous 3MAD dataset that we construct, which covers a wide range of medical image modalities and harmful medical scenarios, we conduct a comprehensive analysis and propose the MCM optimization method, which significantly enhances the attack success rate on MedMLLMs. Evaluations with this dataset and attack methods, including white-box attacks on LLaVA-Med and transfer attacks (black-box) on four other SOTA models, indicate that even MedMLLMs designed with enhanced security features remain vulnerable to security breaches. Our work underscores the urgent need for a concerted effort to implement robust security measures and enhance the safety and efficacy of open-source MedMLLMs, particularly given the potential severity of jailbreak attacks and other malicious or clinically significant exploits in medical settings. Our code is available at https://github.com/dirtycomputer/O2M_attack.