E^2GraphRAG: Streamlining Graph-based RAG for High Efficiency and Effectiveness

📄 arXiv: 2505.24226v4 📥 PDF

作者: Yibo Zhao, Jiapeng Zhu, Ye Guo, Kangkang He, Xiang Li

分类: cs.AI

发布日期: 2025-05-30 (更新: 2025-06-06)

备注: 16 pages


💡 一句话要点

E^2GraphRAG:优化图RAG,实现高效且有效的知识检索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图RAG 知识检索 实体图 双向索引 自适应检索 大型语言模型 信息抽取

📋 核心要点

  1. 现有GraphRAG方法效率低,依赖手动预设查询模式,限制了实际应用。
  2. E^2GraphRAG构建摘要树和实体图,并建立双向索引,实现快速局部和全局检索。
  3. 实验表明,E^2GraphRAG在保持问答性能的同时,显著提升了索引和检索速度。

📝 摘要(中文)

基于图的RAG方法,如GraphRAG,通过构建分层实体图,在知识库的全局理解方面展现出潜力。然而,它们常常效率低下,并且依赖于手动预定义的查询模式,限制了实际应用。本文提出了E^2GraphRAG,一个简化的基于图的RAG框架,旨在提高效率和效果。在索引阶段,E^2GraphRAG利用大型语言模型构建摘要树,并基于文档块使用SpaCy构建实体图。然后,我们在实体和块之间构建双向索引,以捕获它们的多对多关系,从而在局部和全局检索期间实现快速查找。在检索阶段,我们设计了一种自适应检索策略,该策略利用图结构来检索并在局部和全局模式之间进行选择。实验表明,E^2GraphRAG的索引速度比GraphRAG快10倍,检索速度比LightRAG快100倍,同时保持了具有竞争力的问答性能。

🔬 方法详解

问题定义:现有基于图的RAG方法,如GraphRAG,虽然能较好地理解知识库的全局信息,但索引和检索效率较低,难以满足实际应用需求。此外,这些方法通常依赖于人工预定义的查询模式,缺乏灵活性和自适应性。

核心思路:E^2GraphRAG的核心思路是通过构建摘要树和实体图,并建立实体与文档块之间的双向索引,从而加速索引和检索过程。同时,设计自适应检索策略,根据图结构动态选择局部或全局检索模式,提高检索效果。

技术框架:E^2GraphRAG框架主要包含索引和检索两个阶段。在索引阶段,首先使用大型语言模型对文档块进行摘要,构建摘要树;然后,利用SpaCy提取文档块中的实体,构建实体图;最后,建立实体与文档块之间的双向索引。在检索阶段,根据查询语句,利用图结构自适应地选择局部或全局检索模式,并返回相关文档块。

关键创新:E^2GraphRAG的关键创新在于:1) 构建摘要树加速索引过程;2) 建立实体与文档块之间的双向索引,实现快速查找;3) 设计自适应检索策略,根据图结构动态选择检索模式。这些创新使得E^2GraphRAG在效率和效果上都优于现有方法。

关键设计:摘要树的构建采用自底向上的方式,逐层合并摘要,直到形成根节点。双向索引采用哈希表实现,以实现快速查找。自适应检索策略基于图的连通性和实体相关性,动态调整局部和全局检索的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,E^2GraphRAG在索引速度上比GraphRAG快10倍,在检索速度上比LightRAG快100倍,同时保持了与现有方法相当的问答性能。这些数据表明,E^2GraphRAG在效率和效果上都具有显著优势,为实际应用提供了有力支持。

🎯 应用场景

E^2GraphRAG可应用于各种需要高效知识检索的场景,例如智能客服、问答系统、知识图谱应用等。该方法能够快速准确地从海量知识库中检索相关信息,提高用户体验和工作效率。未来,E^2GraphRAG有望在企业知识管理、科研信息检索等领域发挥重要作用。

📄 摘要(原文)

Graph-based RAG methods like GraphRAG have shown promising global understanding of the knowledge base by constructing hierarchical entity graphs. However, they often suffer from inefficiency and rely on manually pre-defined query modes, limiting practical use. In this paper, we propose E^2GraphRAG, a streamlined graph-based RAG framework that improves both Efficiency and Effectiveness. During the indexing stage, E^2GraphRAG constructs a summary tree with large language models and an entity graph with SpaCy based on document chunks. We then construct bidirectional indexes between entities and chunks to capture their many-to-many relationships, enabling fast lookup during both local and global retrieval. For the retrieval stage, we design an adaptive retrieval strategy that leverages the graph structure to retrieve and select between local and global modes. Experiments show that E^2GraphRAG achieves up to 10 times faster indexing than GraphRAG and 100 times speedup over LightRAG in retrieval while maintaining competitive QA performance.