LeakDojo: Decoding the Leakage Threats of RAG Systems

📄 arXiv: 2605.05818v1 📥 PDF

作者: Maosen Zhang, Jianshuo Dong, Boting Lu, Wenyue Li, Xiaoping Zhang, Tianwei Zhang, Han Qiu

分类: cs.CR, cs.AI, cs.CL

发布日期: 2026-05-07

备注: Findings of ACL 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出LeakDojo评估框架,系统性揭示检索增强生成(RAG)系统的知识泄露风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大语言模型安全 隐私泄露 对抗性攻击 知识库安全 模型评估

📋 核心要点

  1. 现有研究缺乏针对复杂RAG系统和强指令遵循LLM的系统性泄露风险评估框架,导致安全评估存在盲区。
  2. 提出LeakDojo框架,通过模块化配置实现对RAG泄露攻击的标准化评估,涵盖多种攻击策略、模型及数据集。
  3. 实验揭示了模型指令遵循能力、RAG忠实度与泄露风险之间的正相关性,为RAG系统的安全防御提供了量化依据。

📝 摘要(中文)

检索增强生成(RAG)技术使大语言模型(LLM)能够利用外部知识库,但也随之暴露了数据库的敏感信息泄露风险。随着RAG系统复杂度的提升及LLM指令遵循能力的增强,现有研究难以对RAG泄露风险进行系统性评估。为此,本文提出了LeakDojo,这是一个用于受控评估RAG泄露风险的可配置框架。通过LeakDojo,研究团队对14个LLM、4个数据集及多种RAG系统进行了6种现有攻击方法的基准测试。研究发现:(1)查询生成与对抗性指令对泄露的贡献是独立的,总泄露风险可由两者乘积近似;(2)模型的指令遵循能力越强,泄露风险越高;(3)RAG系统忠实度(Faithfulness)的提升反而可能增加泄露风险。这些发现为理解和缓解RAG系统中的知识泄露提供了实践指导。

🔬 方法详解

问题定义:论文旨在解决RAG系统在处理外部知识时面临的隐私泄露问题。现有研究多关注单一攻击场景,缺乏对不同LLM架构、检索策略及对抗性指令组合下泄露风险的系统性量化评估。

核心思路:LeakDojo通过解耦攻击过程,将泄露风险分解为“查询生成”与“对抗性指令”两个维度。通过受控实验,量化不同变量对泄露成功率的影响,从而构建一个可扩展的评估基准。

技术框架:框架包含三个核心模块:攻击配置模块(定义攻击策略)、RAG执行模块(模拟检索与生成过程)、以及评估指标模块(计算泄露成功率)。系统支持对不同检索器、向量数据库及LLM进行插拔式测试。

关键创新:首次提出并验证了RAG泄露风险的乘法模型,即泄露风险近似等于查询生成能力与对抗性指令有效性的乘积。此外,揭示了RAG忠实度优化与隐私保护之间的权衡(Trade-off)关系。

关键设计:采用了多维度的基准测试矩阵,涵盖了6种主流攻击方法,并针对14个不同规模和能力的LLM进行对比,通过控制变量法分析了指令遵循能力对攻击效果的放大效应。

📊 实验亮点

实验通过对14个LLM的广泛基准测试,量化了攻击效果。核心发现包括:模型指令遵循能力越强,泄露风险呈显著上升趋势;RAG系统为了提高回答忠实度而增强的检索利用率,反而为攻击者提供了更多提取敏感信息的途径,揭示了性能优化与安全防御之间的潜在冲突。

🎯 应用场景

该研究可广泛应用于企业级RAG系统的安全审计与防御加固。通过LeakDojo,开发者能够评估其知识库在面对恶意查询时的脆弱性,从而在部署前优化检索策略、设计对抗性防御提示词,或在模型微调阶段引入隐私保护机制,降低敏感数据泄露风险。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enables large language models (LLMs) to leverage external knowledge, but also exposes valuable RAG databases to leakage attacks. As RAG systems grow more complex and LLMs exhibit stronger instruction-following capabilities, existing studies fall short of systematically assessing RAG leakage risks. We present LeakDojo, a configurable framework for controlled evaluation of RAG leakage. Using LeakDojo, we benchmark six existing attacks across fourteen LLMs, four datasets, and diverse RAG systems. Our study reveals that (1) query generation and adversarial instructions contribute independently to leakage, with overall leakage well approximated by their product; (2) stronger instruction-following capability correlates with higher leakage risk; and (3) improvements in RAG faithfulness can introduce increased leakage risk. These findings provide actionable insights for understanding and mitigating RAG leakage in practice. Our codebase is available at https://github.com/yeasen-z/LeakDojo.