Silent Leaks: Implicit Knowledge Extraction Attack on RAG Systems through Benign Queries

📄 arXiv: 2505.15420v2 📥 PDF

作者: Yuhao Wang, Wenjie Qu, Shengfang Zhai, Yanze Jiang, Zichen Liu, Yue Liu, Yinpeng Dong, Jiaheng Zhang

分类: cs.CR, cs.AI

发布日期: 2025-05-21 (更新: 2025-09-30)


💡 一句话要点

提出IKEA隐式知识提取攻击,通过良性查询从RAG系统中提取知识。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RAG系统 知识提取攻击 隐式攻击 良性查询 经验反思抽样

📋 核心要点

  1. 现有知识提取方法依赖恶意输入,易被检测,限制了攻击的隐蔽性和有效性。
  2. IKEA利用锚定概念生成良性查询,并通过经验反思抽样和信任区域导向变异,高效探索RAG知识。
  3. 实验表明IKEA在提取效率和攻击成功率上显著优于基线,且提取的知识可构建高性能替代RAG。

📝 摘要(中文)

检索增强生成(RAG)系统通过整合外部知识库来增强大型语言模型(LLM),但也可能使其暴露于提取攻击,从而导致潜在的版权和隐私风险。然而,现有的提取方法通常依赖于提示注入或越狱等恶意输入,容易通过输入或输出级别的检测来发现。本文介绍了一种隐式知识提取攻击(IKEA),它通过良性查询对RAG系统进行知识提取。具体来说,IKEA首先利用锚定概念(与内部知识相关的关键词)生成具有自然外观的查询,然后设计两种机制,引导锚定概念彻底“探索”RAG的知识:(1)经验反思抽样,根据过去的查询-响应历史抽样锚定概念,确保其与主题的相关性;(2)信任区域导向变异,在相似性约束下迭代变异锚定概念,以进一步利用嵌入空间。大量实验表明,IKEA在各种防御措施下都非常有效,在提取效率方面超过基线80%以上,攻击成功率超过90%。此外,由IKEA提取构建的替代RAG系统表现出与原始RAG相当的性能,并且在多个评估任务中优于基于基线的RAG系统,突出了RAG系统中隐蔽的版权侵权风险。

🔬 方法详解

问题定义:论文旨在解决RAG系统面临的隐蔽知识提取攻击问题。现有知识提取方法依赖于恶意输入,如提示注入,容易被检测和防御,因此攻击的隐蔽性和有效性受到限制。如何设计一种能够绕过防御机制,通过看似无害的查询提取RAG系统内部知识的方法是本研究的核心问题。

核心思路:论文的核心思路是通过构造良性查询,诱导RAG系统泄露其内部知识。这种方法避免了直接的恶意攻击,从而降低了被检测的风险。通过精心设计的锚定概念选择和迭代优化机制,确保查询能够有效地探索RAG系统的知识空间。

技术框架:IKEA攻击框架主要包含以下几个阶段: 1. 锚定概念生成:利用与目标知识相关的关键词(锚定概念)作为查询的基础。 2. 经验反思抽样 (Experience Reflection Sampling):根据历史查询-响应记录,选择与当前主题更相关的锚定概念,提高查询的针对性。 3. 信任区域导向变异 (Trust Region Directed Mutation):在语义相似性约束下,迭代地对锚定概念进行变异,以探索更广泛的知识空间。 4. 知识提取:利用生成的查询从RAG系统中获取响应,并将响应作为提取的知识。

关键创新:IKEA的关键创新在于其隐蔽性和高效性。与传统的基于恶意输入的攻击方法不同,IKEA通过良性查询进行攻击,降低了被检测的风险。经验反思抽样和信任区域导向变异机制能够有效地探索RAG系统的知识空间,提高了知识提取的效率。

关键设计: * 经验反思抽样:使用历史查询-响应对来更新锚定概念的概率分布,从而选择更相关的锚定概念。 * 信任区域导向变异:使用预训练的语言模型计算锚定概念之间的语义相似度,并在相似度约束下进行变异。具体而言,通过计算嵌入向量的余弦相似度来衡量语义相似性,并设置阈值来控制变异的幅度。损失函数的设计旨在最大化提取知识的信息量,同时保持查询的良性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IKEA在各种防御措施下,提取效率超过基线80%以上,攻击成功率超过90%。使用IKEA提取的知识构建的替代RAG系统,在多个评估任务中表现出与原始RAG相当甚至更优的性能,证明了IKEA攻击的有效性和潜在危害。

🎯 应用场景

该研究成果可应用于评估和提升RAG系统的安全性,帮助开发者识别和修复潜在的知识泄露漏洞。同时,该研究也提醒用户在使用RAG系统时需要注意版权和隐私风险,避免未经授权的知识传播。此外,该研究方法可以推广到其他类型的知识密集型系统中,提高整体的信息安全水平。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) systems enhance large language models (LLMs) by incorporating external knowledge bases, but this may expose them to extraction attacks, leading to potential copyright and privacy risks. However, existing extraction methods typically rely on malicious inputs such as prompt injection or jailbreaking, making them easily detectable via input- or output-level detection. In this paper, we introduce Implicit Knowledge Extraction Attack (IKEA), which conducts Knowledge Extraction on RAG systems through benign queries. Specifically, IKEA first leverages anchor concepts-keywords related to internal knowledge-to generate queries with a natural appearance, and then designs two mechanisms that lead anchor concepts to thoroughly "explore" the RAG's knowledge: (1) Experience Reflection Sampling, which samples anchor concepts based on past query-response histories, ensuring their relevance to the topic; (2) Trust Region Directed Mutation, which iteratively mutates anchor concepts under similarity constraints to further exploit the embedding space. Extensive experiments demonstrate IKEA's effectiveness under various defenses, surpassing baselines by over 80% in extraction efficiency and 90% in attack success rate. Moreover, the substitute RAG system built from IKEA's extractions shows comparable performance to the original RAG and outperforms those based on baselines across multiple evaluation tasks, underscoring the stealthy copyright infringement risk in RAG systems.