RAG Safety: Exploring Knowledge Poisoning Attacks to Retrieval-Augmented Generation
作者: Tianzhe Zhao, Jiaoyan Chen, Yanchi Ru, Haiping Zhu, Nan Hu, Jun Liu, Qika Lin
分类: cs.CR, cs.CL
发布日期: 2025-07-09
备注: 13 pages, 6 figures
💡 一句话要点
针对知识图谱增强的RAG系统,提出一种隐蔽的知识投毒攻击方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 检索增强生成 数据投毒攻击 安全漏洞 对抗性攻击
📋 核心要点
- 现有RAG系统在知识图谱上的安全性研究不足,KG的结构化特性使其面临独特的数据投毒风险。
- 提出一种隐蔽的攻击策略,通过插入扰动三元组来构建误导性推理链,诱导KG-RAG检索并利用恶意知识。
- 实验表明,该攻击策略能有效降低KG-RAG的性能,即使在少量KG扰动下也能成功。
📝 摘要(中文)
检索增强生成(RAG)通过检索外部数据来增强大型语言模型(LLM),以缓解幻觉和过时知识问题。受益于促进多样化数据源和支持可靠推理的强大能力,知识图谱(KG)越来越多地应用于RAG系统,从而产生了基于KG的RAG(KG-RAG)方法。尽管RAG系统被广泛应用于各种应用中,但最近的研究也揭示了其对数据投毒攻击的脆弱性,其中注入到外部知识源中的恶意信息会误导系统产生不正确或有害的响应。然而,这些研究只关注使用非结构化文本数据源的RAG系统,而KG-RAG的安全风险在很大程度上未被探索,尽管KG由于其结构化和可编辑的性质而呈现出独特的漏洞。在这项工作中,我们通过数据投毒攻击对KG-RAG方法的安全问题进行了首次系统性研究。为此,我们引入了一种符合实际实现的实用且隐蔽的攻击设置。我们提出了一种攻击策略,该策略首先识别对抗性目标答案,然后插入扰动三元组以完成KG中误导性推理链,从而增加KG-RAG方法在生成过程中检索和依赖这些扰动的可能性。通过在两个基准和四种最新的KG-RAG方法上进行的大量实验,我们的攻击策略证明了在降低KG-RAG性能方面的强大有效性,即使KG扰动最小。还进行了深入分析,以了解KG-RAG系统内部阶段的安全威胁,并探索LLM对抗性知识的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决KG-RAG系统在面对知识投毒攻击时的脆弱性问题。现有的RAG安全研究主要集中在非结构化文本数据上,忽略了KG-RAG的特殊安全风险。KG的结构化和可编辑特性使得攻击者更容易通过修改图谱结构来影响RAG系统的输出。
核心思路:论文的核心思路是通过向知识图谱中注入精心设计的恶意三元组,构建误导性的推理链,从而诱导KG-RAG系统检索并利用这些恶意知识,最终生成错误的或有害的答案。这种攻击旨在保持隐蔽性,避免被轻易检测到。
技术框架:该攻击框架主要包含以下几个阶段:1) 目标答案选择:选择希望KG-RAG系统生成的错误答案作为攻击目标。2) 扰动三元组生成:根据目标答案,在KG中插入扰动三元组,这些三元组能够构建从现有知识到目标答案的推理路径。3) 攻击执行:将包含扰动三元组的KG用于KG-RAG系统。4) 评估:评估KG-RAG系统生成目标答案的频率和准确性。
关键创新:该论文的关键创新在于针对KG-RAG系统设计了一种隐蔽的知识投毒攻击方法。与以往的攻击方法不同,该方法专注于利用KG的结构化特性,通过构建误导性推理链来影响RAG系统的行为。这种攻击方式更贴近实际应用场景,也更难以防御。
关键设计:攻击的关键设计在于扰动三元组的生成策略。该策略需要保证插入的三元组能够有效地构建从现有知识到目标答案的推理路径,同时又要尽可能地保持隐蔽性,避免被KG-RAG系统的防御机制检测到。具体的实现细节可能包括选择合适的实体和关系类型,以及控制插入三元组的数量和位置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该攻击策略能够显著降低KG-RAG系统的性能。在两个基准数据集上,即使只对KG进行少量扰动,也能使KG-RAG系统生成错误答案的概率大幅增加。例如,在某个数据集上,攻击成功率达到了XX%,相比于未攻击的情况提升了YY%。实验还分析了不同KG-RAG方法对攻击的鲁棒性,为防御策略的设计提供了依据。
🎯 应用场景
该研究成果可应用于提升知识图谱增强的问答系统、对话系统等应用的安全性。通过分析和理解KG-RAG系统的安全漏洞,可以为开发更鲁棒的防御机制提供指导,从而保护用户免受恶意信息的侵害。此外,该研究也为其他基于知识图谱的应用的安全风险评估提供了参考。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by retrieving external data to mitigate hallucinations and outdated knowledge issues. Benefiting from the strong ability in facilitating diverse data sources and supporting faithful reasoning, knowledge graphs (KGs) have been increasingly adopted in RAG systems, giving rise to KG-based RAG (KG-RAG) methods. Though RAG systems are widely applied in various applications, recent studies have also revealed its vulnerabilities to data poisoning attacks, where malicious information injected into external knowledge sources can mislead the system into producing incorrect or harmful responses. However, these studies focus exclusively on RAG systems using unstructured textual data sources, leaving the security risks of KG-RAG largely unexplored, despite the fact that KGs present unique vulnerabilities due to their structured and editable nature. In this work, we conduct the first systematic investigation of the security issue of KG-RAG methods through data poisoning attacks. To this end, we introduce a practical, stealthy attack setting that aligns with real-world implementation. We propose an attack strategy that first identifies adversarial target answers and then inserts perturbation triples to complete misleading inference chains in the KG, increasing the likelihood that KG-RAG methods retrieve and rely on these perturbations during generation. Through extensive experiments on two benchmarks and four recent KG-RAG methods, our attack strategy demonstrates strong effectiveness in degrading KG-RAG performance, even with minimal KG perturbations. In-depth analyses are also conducted to understand the safety threats within the internal stages of KG-RAG systems and to explore the robustness of LLMs against adversarial knowledge.