A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models
作者: Qinggang Zhang, Shengyuan Chen, Yuanchen Bei, Zheng Yuan, Huachi Zhou, Zijin Hong, Hao Chen, Yilin Xiao, Chuang Zhou, Junnan Dong, Yi Chang, Xiao Huang
分类: cs.CL, cs.AI, cs.IR
发布日期: 2025-01-21 (更新: 2025-09-29)
🔗 代码/项目: GITHUB
💡 一句话要点
提出GraphRAG,通过图结构知识增强定制化大语言模型,解决专业领域知识集成难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图神经网络 检索增强生成 知识图谱 大语言模型 领域知识 多跳推理 知识集成
📋 核心要点
- 传统RAG在专业领域面临复杂查询理解、跨源知识集成困难以及大规模效率瓶颈等挑战。
- GraphRAG通过图结构化知识表示、高效图检索和结构感知知识集成来增强LLM的专业领域应用。
- 该综述系统分析了GraphRAG的技术基础,考察了其在各专业领域的应用,并指出了未来的研究方向。
📝 摘要(中文)
大型语言模型(LLM)在各种任务中表现出卓越的能力,但由于需要深入的专业知识,它们在专业领域的应用仍然具有挑战性。检索增强生成(RAG)已成为一种有前途的解决方案,通过无缝集成外部知识库来定制LLM以适应专业领域,从而在推理过程中实现对领域特定专业知识的实时访问。然而,传统的基于扁平文本检索的RAG系统面临三个关键挑战:(i)专业背景下复杂的查询理解,(ii)跨分布式来源的知识集成困难,以及(iii)大规模系统效率瓶颈。本调查报告对基于图的检索增强生成(GraphRAG)进行了系统分析,这是一种革新领域特定LLM应用的新范例。GraphRAG通过三个关键创新解决了传统RAG的局限性:(i)显式捕获实体关系和领域层次结构的图结构知识表示,(ii)实现具有多跳推理能力的上下文保持知识检索的高效图检索技术,以及(iii)利用检索到的知识进行准确和逻辑连贯的LLM生成的结构感知知识集成算法。在本调查中,我们系统地分析了GraphRAG的技术基础,并考察了当前在各个专业领域的实现,确定了关键的技术挑战和有希望的研究方向。所有与GraphRAG相关的资源,包括研究论文、开源数据和项目,都收集在https://github.com/DEEP-PolyU/Awesome-GraphRAG,供社区使用。
🔬 方法详解
问题定义:现有RAG方法在专业领域应用中,难以有效理解复杂查询,无法整合来自不同来源的知识,并且在大规模应用中效率低下。这些问题限制了LLM在需要专业知识的场景下的应用。
核心思路:GraphRAG的核心思路是利用图结构来表示知识,从而显式地捕获实体之间的关系和领域层次结构。通过图结构,可以更有效地进行知识检索和集成,从而提高LLM在专业领域的表现。
技术框架:GraphRAG的整体框架包括以下几个主要阶段:1) 构建图结构的知识库;2) 基于图的检索,根据用户查询在图结构中检索相关知识;3) 结构感知的知识集成,将检索到的知识融入LLM的生成过程中,以提高生成结果的准确性和连贯性。
关键创新:GraphRAG的关键创新在于使用图结构来表示知识,并设计了相应的图检索和知识集成算法。与传统的基于文本的RAG方法相比,GraphRAG能够更好地理解查询意图,更有效地利用知识,并生成更准确和连贯的结果。
关键设计:GraphRAG的关键设计包括:1) 如何构建高质量的知识图谱,包括实体识别、关系抽取等;2) 如何设计高效的图检索算法,例如基于图嵌入的相似度搜索;3) 如何设计结构感知的知识集成算法,例如利用图注意力网络来融合检索到的知识。
🖼️ 关键图片
📊 实验亮点
该论文是一篇综述性文章,主要贡献在于系统性地分析了GraphRAG的概念、技术和应用。论文整理了大量相关研究,并指出了GraphRAG未来可能的研究方向。虽然没有提供具体的实验数据,但为研究者提供了一个全面的GraphRAG概览。
🎯 应用场景
GraphRAG可应用于医疗、金融、法律等专业领域,提升LLM在这些领域的问答、文档生成、决策支持等任务中的表现。通过整合领域知识,GraphRAG能够帮助LLM更好地理解专业问题,提供更准确、可靠的答案,并辅助专业人士进行决策。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks, yet their application to specialized domains remains challenging due to the need for deep expertise. Retrieval-Augmented generation (RAG) has emerged as a promising solution to customize LLMs for professional fields by seamlessly integrating external knowledge bases, enabling real-time access to domain-specific expertise during inference. Despite its potential, traditional RAG systems, based on flat text retrieval, face three critical challenges: (i) complex query understanding in professional contexts, (ii) difficulties in knowledge integration across distributed sources, and (iii) system efficiency bottlenecks at scale. This survey presents a systematic analysis of Graph-based Retrieval-Augmented Generation (GraphRAG), a new paradigm that revolutionizes domain-specific LLM applications. GraphRAG addresses traditional RAG limitations through three key innovations: (i) graph-structured knowledge representation that explicitly captures entity relationships and domain hierarchies, (ii) efficient graph-based retrieval techniques that enable context-preserving knowledge retrieval with multihop reasoning ability, and (iii) structure-aware knowledge integration algorithms that leverage retrieved knowledge for accurate and logical coherent generation of LLMs. In this survey, we systematically analyze the technical foundations of GraphRAG and examine current implementations across various professional domains, identifying key technical challenges and promising research directions. All the related resources of GraphRAG, including research papers, open-source data, and projects, are collected for the community in https://github.com/DEEP-PolyU/Awesome-GraphRAG.