MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks
作者: Hyeonjeong Ha, Qiusi Zhan, Jeonghwan Kim, Dimitrios Bralios, Saikrishna Sanniboina, Nanyun Peng, Kai-Wei Chang, Daniel Kang, Heng Ji
分类: cs.LG, cs.AI, cs.CR, cs.CV
发布日期: 2025-02-25 (更新: 2025-10-08)
备注: Code is available at https://github.com/HyeonjeongHa/MM-PoisonRAG
💡 一句话要点
提出MM-PoisonRAG框架,揭示多模态RAG易受知识投毒攻击的脆弱性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态RAG 知识投毒攻击 安全性 对抗性攻击 局部投毒 全局投毒
📋 核心要点
- 多模态RAG依赖外部知识,但这种依赖性使其易受知识投毒攻击,存在严重的安全风险。
- MM-PoisonRAG框架通过局部和全局投毒攻击,系统性地研究了多模态RAG中的知识投毒漏洞。
- 实验表明,局部攻击能操纵特定查询,全局攻击能彻底破坏模型生成,凸显防御知识投毒的必要性。
📝 摘要(中文)
本文提出了MM-PoisonRAG,首个系统性设计多模态RAG中知识投毒的框架。该框架通过在外部知识库中注入对抗性的多模态内容,诱导模型生成不正确甚至有害的响应,从而暴露其安全风险。论文提出了两种互补的攻击策略:局部投毒攻击(LPA),旨在植入有针对性的多模态错误信息以操纵特定查询;全局投毒攻击(GPA),旨在插入单个对抗性知识,从而广泛扰乱推理并诱导所有查询产生无意义的响应。在任务、模型和访问设置上的综合实验表明,LPA实现了高达56%的攻击成功率,而GPA仅需注入单个对抗性知识即可将模型生成准确率完全降至0%。研究结果揭示了多模态RAG的脆弱性,并强调了针对知识投毒进行防御的迫切需求。
🔬 方法详解
问题定义:论文旨在解决多模态RAG系统在面对恶意知识投毒攻击时的脆弱性问题。现有的RAG系统依赖于外部知识库来增强其生成能力,但这种依赖性也引入了安全风险,即攻击者可以通过篡改或污染知识库中的信息来操纵模型的行为。现有的方法缺乏对多模态RAG系统进行系统性的知识投毒攻击研究,无法充分评估其安全性。
核心思路:论文的核心思路是通过设计两种互补的知识投毒攻击策略,即局部投毒攻击(LPA)和全局投毒攻击(GPA),来系统性地评估多模态RAG系统的安全性。LPA旨在通过植入有针对性的多模态错误信息来操纵特定查询的响应,而GPA旨在通过插入单个对抗性知识来广泛扰乱推理并诱导所有查询产生无意义的响应。
技术框架:MM-PoisonRAG框架包含以下主要模块:1) 数据准备:构建包含文本和图像的多模态数据集。2) 知识库构建:将多模态数据存储到外部知识库中。3) 攻击策略设计:设计LPA和GPA两种攻击策略,用于生成对抗性的多模态内容。4) 投毒攻击实施:将生成的对抗性内容注入到知识库中。5) 模型评估:评估RAG模型在受到投毒攻击后的性能,包括准确率、攻击成功率等。
关键创新:该论文最重要的技术创新点在于提出了MM-PoisonRAG框架,这是首个系统性地研究多模态RAG中知识投毒攻击的框架。与现有方法相比,MM-PoisonRAG不仅考虑了局部攻击,还考虑了全局攻击,能够更全面地评估多模态RAG系统的安全性。此外,该框架还考虑了多模态数据的特性,设计了专门针对多模态数据的攻击策略。
关键设计:在LPA中,关键设计在于如何生成与目标查询相关的对抗性多模态内容,以诱导模型生成错误的响应。在GPA中,关键设计在于如何生成具有广泛影响力的对抗性知识,以扰乱模型的推理能力。具体的参数设置和损失函数取决于所使用的RAG模型和攻击目标,论文中可能没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,局部投毒攻击(LPA)能够以高达56%的攻击成功率操纵特定查询的响应,而全局投毒攻击(GPA)仅需注入单个对抗性知识即可将模型生成准确率完全降至0%。这些结果有力地证明了多模态RAG系统在面对知识投毒攻击时的脆弱性,并突出了开发有效防御机制的紧迫性。
🎯 应用场景
该研究成果可应用于评估和提升多模态RAG系统的安全性,尤其是在需要依赖外部知识的问答、对话和内容生成等场景。通过模拟知识投毒攻击,可以帮助开发者识别系统中的潜在漏洞,并开发相应的防御机制,从而提高系统的鲁棒性和可靠性。该研究对于构建安全可信赖的人工智能系统具有重要意义。
📄 摘要(原文)
Multimodal large language models with Retrieval Augmented Generation (RAG) have significantly advanced tasks such as multimodal question answering by grounding responses in external text and images. This grounding improves factuality, reduces hallucination, and extends reasoning beyond parametric knowledge. However, this reliance on external knowledge poses a critical yet underexplored safety risk: knowledge poisoning attacks, where adversaries deliberately inject adversarial multimodal content into external knowledge bases to steer model toward generating incorrect or even harmful responses. To expose such vulnerabilities, we propose MM-PoisonRAG, the first framework to systematically design knowledge poisoning in multimodal RAG. We introduce two complementary attack strategies: Localized Poisoning Attack (LPA), which implants targeted multimodal misinformation to manipulate specific queries, and Globalized Poisoning Attack (GPA), which inserts a single adversarial knowledge to broadly disrupt reasoning and induce nonsensical responses across all queries. Comprehensive experiments across tasks, models, and access settings show that LPA achieves targeted manipulation with attack success rates of up to 56%, while GPA completely disrupts model generation to 0% accuracy with just a single adversarial knowledge injection. Our results reveal the fragility of multimodal RAG and highlight the urgent need for defenses against knowledge poisoning.