Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions

📄 arXiv: 2604.08304v1 📥 PDF

作者: Yuming Xu, Mingtao Zhang, Zhuohan Ge, Haoyang Li, Nicole Hu, Jason Chen Zhang, Qing Li, Lei Chen

分类: cs.CR, cs.AI

发布日期: 2026-04-09


💡 一句话要点

提出RAG安全威胁分类体系,分析攻击、防御与未来方向

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG安全 安全威胁 知识访问 大型语言模型 攻击防御 安全分类

📋 核心要点

  1. 现有RAG安全研究混淆了LLM固有风险与RAG引入的风险,缺乏清晰的边界划分。
  2. 论文核心在于将RAG安全定义为外部知识访问管道的安全,并以此为基础进行分析。
  3. 论文系统性地回顾了RAG各阶段的攻击、防御措施,并指出了当前防御的局限性。

📝 摘要(中文)

检索增强生成(RAG)显著增强了大型语言模型(LLM)的能力,但也因外部知识访问引入了新的安全风险。现有研究虽已涵盖多种RAG漏洞,但常将LLM固有风险与RAG特有风险混淆。本文提出,RAG安全本质上是外部知识访问管道的安全。我们建立了一个操作边界,以区分LLM的固有缺陷与RAG引入或放大的威胁。在此基础上,我们将RAG工作流程抽象为六个阶段,并围绕三个信任边界和四个主要安全面组织文献,包括预检索知识损坏、检索时访问操纵、下游上下文利用和知识泄露。通过系统地回顾相应的攻击、防御、补救机制和评估基准,我们发现当前的防御措施在很大程度上仍然是被动的和分散的。最后,我们讨论了这些差距,并强调了在整个知识访问生命周期中实现分层、边界感知保护的未来方向。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)系统中存在的安全漏洞问题。现有方法往往将RAG引入的风险与大型语言模型(LLM)固有的风险混淆,缺乏对RAG系统安全威胁的系统性分析和分类,导致防御措施不够精准有效。

核心思路:论文的核心思路是将RAG系统的安全问题聚焦于外部知识访问管道的安全。通过明确RAG引入的安全风险边界,将RAG工作流程分解为多个阶段,并分析每个阶段可能存在的安全威胁,从而构建一个全面的RAG安全威胁分类体系。

技术框架:论文将RAG工作流程抽象为六个阶段,并围绕三个信任边界和四个主要安全面进行分析。这四个安全面包括:预检索知识损坏(pre-retrieval knowledge corruption)、检索时访问操纵(retrieval-time access manipulation)、下游上下文利用(downstream context exploitation)和知识泄露(knowledge exfiltration)。论文针对每个安全面,系统性地回顾了相应的攻击、防御、补救机制和评估基准。

关键创新:论文最重要的创新点在于提出了一个RAG安全威胁的分类体系,该体系基于对RAG工作流程的分解和对安全边界的明确划分。与现有方法相比,该体系能够更清晰地识别RAG引入的安全风险,并为开发更有效的防御措施提供指导。

关键设计:论文的关键设计包括:1) 明确RAG安全边界,区分LLM固有风险和RAG引入风险;2) 将RAG工作流程分解为六个阶段,便于分析每个阶段的安全威胁;3) 围绕三个信任边界和四个安全面组织文献,构建全面的安全威胁分类体系;4) 系统性地回顾攻击、防御、补救机制和评估基准,为RAG安全研究提供参考。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文通过对现有RAG安全研究的系统性回顾和分析,揭示了当前防御措施的局限性,并指出了未来研究方向,例如开发分层、边界感知的保护机制,以及在整个知识访问生命周期中加强安全防护。这些发现为RAG安全领域的研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于各种需要利用外部知识的LLM应用场景,例如智能客服、知识问答、内容生成等。通过提升RAG系统的安全性,可以有效防止恶意攻击和信息泄露,保障LLM应用的可靠性和安全性,具有重要的实际应用价值和未来影响。

📄 摘要(原文)

Retrieval-augmented generation (RAG) significantly enhances large language models (LLMs) but introduces novel security risks through external knowledge access. While existing studies cover various RAG vulnerabilities, they often conflate inherent LLM risks with those specifically introduced by RAG. In this paper, we propose that secure RAG is fundamentally about the security of the external knowledge-access pipeline. We establish an operational boundary to separate inherent LLM flaws from RAG-introduced or RAG-amplified threats. Guided by this perspective, we abstract the RAG workflow into six stages and organize the literature around three trust boundaries and four primary security surfaces, including pre-retrieval knowledge corruption, retrieval-time access manipulation, downstream context exploitation, and knowledge exfiltration. By systematically reviewing the corresponding attacks, defenses, remediation mechanisms, and evaluation benchmarks, we reveal that current defenses remain largely reactive and fragmented. Finally, we discuss these gaps and highlight future directions toward layered, boundary-aware protection across the entire knowledge-access lifecycle.