KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

📄 arXiv: 2603.11501v1 📥 PDF

作者: Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang

分类: cs.LG, cs.AI, cs.CR

发布日期: 2026-03-12

备注: Accepted in the ACM Web Conference 2026 (WWW 2026)


💡 一句话要点

提出KEPo:针对图结构RAG的知识演化投毒攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱 检索增强生成 投毒攻击 大型语言模型 安全漏洞

📋 核心要点

  1. 现有RAG攻击方法难以有效攻击GraphRAG,因为GraphRAG通过知识图谱的抽象,增强了对原始投毒文本的鲁棒性。
  2. KEPo通过构造包含投毒知识的有害事件,并伪造知识演化路径,从而误导LLM将投毒知识视为最终结果。
  3. 实验结果表明,KEPo在单目标和多目标攻击中均取得了优于现有方法的攻击成功率。

📝 摘要(中文)

基于图的检索增强生成(GraphRAG)通过从外部数据库构建知识图谱(KG)来增强大型语言模型(LLM)生成结果的及时性和准确性。然而,这种对外部数据的依赖引入了新的攻击面。攻击者可以将投毒文本注入数据库,操纵LLM针对攻击者选择的查询生成有害的目标响应。现有研究主要集中于攻击传统的RAG系统,但这些方法对GraphRAG无效。GraphRAG的鲁棒性源于其KG抽象,它在检索之前将注入的文本重组为图,从而使LLM能够基于重构的上下文进行推理,而不是原始的投毒段落。为了揭示GraphRAG中潜在的安全漏洞,我们提出了一种专门为GraphRAG设计的新的投毒攻击方法——知识演化投毒(KEPo)。对于每个目标查询,KEPo首先生成一个包含基于目标答案的投毒知识的有害事件。通过捏造事件背景并伪造从原始事实到有害事件的知识演化路径,它随后对KG进行投毒,并误导LLM将投毒知识视为最终结果。在多目标攻击场景中,KEPo进一步连接多个攻击语料库,使其投毒知识相互加强,同时扩大投毒社区的规模,从而提高攻击有效性。多个数据集上的实验结果表明,KEPo在单目标和多目标攻击中均实现了最先进的攻击成功率,显著优于以前的方法。

🔬 方法详解

问题定义:论文旨在解决GraphRAG系统中存在的知识投毒攻击问题。现有针对传统RAG系统的攻击方法在GraphRAG上效果不佳,因为GraphRAG利用知识图谱对信息进行结构化存储,使得简单的文本注入难以影响LLM的推理过程。因此,如何设计一种能够有效攻击GraphRAG的投毒方法是本研究的核心问题。

核心思路:KEPo的核心思路是通过构造知识演化路径,将原始事实与投毒知识关联起来,从而误导LLM。具体来说,KEPo首先生成包含投毒知识的有害事件,然后通过捏造事件背景和知识演化路径,使得LLM在推理过程中将投毒知识视为合理的结果。这种方法模拟了人类认知中知识演化的过程,使得攻击更具隐蔽性和有效性。

技术框架:KEPo的攻击流程主要包括以下几个阶段:1) 目标选择:选择需要攻击的目标查询和目标答案。2) 投毒事件生成:基于目标答案生成包含投毒知识的有害事件。3) 知识演化路径构造:捏造事件背景,并构建从原始事实到投毒事件的知识演化路径。4) 知识图谱投毒:将构造好的投毒知识注入到知识图谱中。5) LLM推理:利用LLM在被投毒的知识图谱上进行推理,验证攻击效果。

关键创新:KEPo的关键创新在于其知识演化投毒的思想。与传统的文本注入攻击不同,KEPo通过模拟知识演化的过程,使得投毒知识更具合理性和隐蔽性。此外,KEPo还提出了多目标攻击策略,通过连接多个攻击语料库,实现投毒知识的相互加强,从而提高攻击效果。

关键设计:KEPo在知识演化路径构造过程中,需要仔细设计事件背景和知识演化路径,以确保投毒知识的合理性和连贯性。具体来说,可以使用一些常识知识和逻辑推理规则来指导知识演化路径的生成。此外,在多目标攻击场景中,需要设计合适的连接策略,以确保多个攻击语料库之间的知识能够相互加强,从而提高整体攻击效果。论文中可能还涉及一些超参数的调整,例如知识演化路径的长度、投毒知识的强度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KEPo在多个数据集上实现了最先进的攻击成功率,显著优于现有的攻击方法。具体来说,KEPo在单目标攻击和多目标攻击中均取得了显著的性能提升,证明了其有效性和优越性。这些结果表明,GraphRAG系统面临着严重的知识投毒攻击威胁,需要采取有效的防御措施。

🎯 应用场景

KEPo的研究成果可以应用于评估和增强GraphRAG系统的安全性。通过模拟真实的攻击场景,可以发现GraphRAG系统中存在的安全漏洞,并开发相应的防御机制。此外,该研究还可以促进对LLM安全性的更深入理解,并推动开发更安全的LLM应用。

📄 摘要(原文)

Graph-based Retrieval-Augmented Generation (GraphRAG) constructs the Knowledge Graph (KG) from external databases to enhance the timeliness and accuracy of Large Language Model (LLM) generations.However,this reliance on external data introduces new attack surfaces.Attackers can inject poisoned texts into databases to manipulate LLMs into producing harmful target responses for attacker-chosen queries.Existing research primarily focuses on attacking conventional RAG systems.However,such methods are ineffective against GraphRAG.This robustness derives from the KG abstraction of GraphRAG,which reorganizes injected text into a graph before retrieval,thereby enabling the LLM to reason based on the restructured context instead of raw poisoned passages.To expose latent security vulnerabilities in GraphRAG,we propose Knowledge Evolution Poison (KEPo),a novel poisoning attack method specifically designed for GraphRAG.For each target query,KEPo first generates a toxic event containing poisoned knowledge based on the target answer.By fabricating event backgrounds and forging knowledge evolution paths from original facts to the toxic event,it then poisons the KG and misleads the LLM into treating the poisoned knowledge as the final result.In multi-target attack scenarios,KEPo further connects multiple attack corpora,enabling their poisoned knowledge to mutually reinforce while expanding the scale of poisoned communities,thereby amplifying attack effectiveness.Experimental results across multiple datasets demonstrate that KEPo achieves state-of-the-art attack success rates for both single-target and multi-target attacks,significantly outperforming previous methods.