Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks

📄 arXiv: 2603.21654v1 📥 PDF

作者: Yanming Mu, Hao Hu, Feiyang Li, Qiao Yuan, Jiang Wu, Zichuan Liu, Pengcheng Liu, Mei Wang, Hongwei Zhou, Yuling Liu

分类: cs.CR, cs.AI

发布日期: 2026-03-23


💡 一句话要点

全面剖析RAG安全:威胁、防御与基准评测,保障可信赖的知识增强生成。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG安全 数据投毒 对抗攻击 成员推理攻击 安全漏洞 防御机制

📋 核心要点

  1. 现有RAG系统存在多模块架构带来的复杂安全漏洞,容易遭受数据投毒、对抗攻击等威胁。
  2. 论文系统分析RAG流程中的威胁,从输入和输出两端构建防御技术体系,保障数据安全。
  3. 论文整合了测试数据集、安全标准和评估框架,为RAG安全研究提供统一的基准。

📝 摘要(中文)

检索增强生成(RAG)通过整合外部知识库,显著缓解了大型语言模型中的幻觉和领域知识不足问题。然而,RAG的多模块架构引入了复杂的系统级安全漏洞。本文以RAG工作流程为指导,分析了潜在的漏洞机制,并系统地将核心威胁向量分为数据投毒、对抗攻击和成员推理攻击。基于此威胁评估,我们从输入和输出两个阶段构建了RAG防御技术分类。输入侧分析回顾了动态访问控制、同态加密检索和对抗性预过滤等数据保护机制。输出侧考察总结了联邦学习隔离、差分隐私扰动和轻量级数据清理等先进的泄漏预防技术。为了建立统一的实验设计基准,我们整合了权威的测试数据集、安全标准和评估框架。据我们所知,本文首次对RAG系统的安全性进行了端到端的研究。与孤立特定漏洞的现有文献不同,我们系统地映射了整个流程,从而对威胁模型、防御机制和评估基准进行了统一分析。通过深入了解潜在风险,这项工作旨在促进高度稳健和值得信赖的下一代RAG系统的发展。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)系统在实际应用中面临的严重安全问题。现有的RAG系统虽然能够有效缓解大型语言模型的幻觉问题,但其多模块架构引入了新的安全漏洞,例如数据投毒、对抗攻击和成员推理攻击等。这些漏洞可能导致RAG系统输出错误信息、泄露敏感数据,甚至被恶意利用。

核心思路:论文的核心思路是系统性地分析RAG系统的整个流程,识别潜在的威胁向量,并针对性地提出防御机制。论文将防御策略分为输入侧和输出侧,分别关注数据保护和信息泄漏预防。通过构建全面的威胁模型和防御体系,旨在提升RAG系统的鲁棒性和可信度。

技术框架:论文构建了一个RAG安全分析框架,主要包含以下几个阶段: 1. 威胁建模:识别RAG系统中可能存在的安全威胁,包括数据投毒、对抗攻击和成员推理攻击等。 2. 输入侧防御:研究数据保护机制,例如动态访问控制、同态加密检索和对抗性预过滤等,防止恶意数据进入RAG系统。 3. 输出侧防御:研究信息泄漏预防技术,例如联邦学习隔离、差分隐私扰动和轻量级数据清理等,防止敏感信息泄露。 4. 基准评测:整合权威的测试数据集、安全标准和评估框架,为RAG安全研究提供统一的基准。

关键创新:论文的主要创新在于对RAG系统的安全性进行了端到端的系统性分析,并提出了全面的防御体系。与以往的研究只关注特定漏洞不同,本文从整个流程出发,统一分析了威胁模型、防御机制和评估基准。此外,论文还整合了权威的测试数据集和评估框架,为未来的RAG安全研究提供了重要的资源。

关键设计:论文的关键设计包括: * 威胁模型:详细描述了各种攻击方式的原理和影响,为防御策略的设计提供了依据。 * 输入侧防御机制:针对不同的攻击方式,提出了相应的防御策略,例如使用对抗性预过滤来检测和过滤恶意数据。 * 输出侧防御机制:采用了多种隐私保护技术,例如差分隐私扰动,来防止敏感信息泄露。 * 基准评测框架:提供了一套统一的评估标准,方便研究人员比较不同防御策略的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了RAG安全分析框架,并整合了权威的测试数据集、安全标准和评估框架,为RAG安全研究提供了统一的基准。通过对现有防御技术的分析和总结,为未来的研究方向提供了指导。该研究是首次对RAG系统的安全性进行端到端的研究,具有重要的学术价值和实际意义。

🎯 应用场景

该研究成果可广泛应用于各种需要利用外部知识库的RAG系统中,例如智能客服、知识问答、内容生成等。通过提升RAG系统的安全性,可以有效防止恶意攻击和数据泄露,保障用户的信息安全和系统的稳定运行。未来,该研究将促进更安全、可信赖的下一代RAG系统的发展。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) significantly mitigates the hallucinations and domain knowledge deficiency in large language models by incorporating external knowledge bases. However, the multi-module architecture of RAG introduces complex system-level security vulnerabilities. Guided by the RAG workflow, this paper analyzes the underlying vulnerability mechanisms and systematically categorizes core threat vectors such as data poisoning, adversarial attacks, and membership inference attacks. Based on this threat assessment, we construct a taxonomy of RAG defense technologies from a dual perspective encompassing both input and output stages. The input-side analysis reviews data protection mechanisms including dynamic access control, homomorphic encryption retrieval, and adversarial pre-filtering. The output-side examination summarizes advanced leakage prevention techniques such as federated learning isolation, differential privacy perturbation, and lightweight data sanitization. To establish a unified benchmark for future experimental design, we consolidate authoritative test datasets, security standards, and evaluation frameworks. To the best of our knowledge, this paper presents the first end-to-end survey dedicated to the security of RAG systems. Distinct from existing literature that isolates specific vulnerabilities, we systematically map the entire pipeline-providing a unified analysis of threat models, defense mechanisms, and evaluation benchmarks. By enabling deep insights into potential risks, this work seeks to foster the development of highly robust and trustworthy next-generation RAG systems.