LeanRAG: Knowledge-Graph-Based Generation with Semantic Aggregation and Hierarchical Retrieval
作者: Yaoze Zhang, Rong Wu, Pinlong Cai, Xiaoman Wang, Guohang Yan, Song Mao, Ding Wang, Botian Shi
分类: cs.AI
发布日期: 2025-08-14 (更新: 2025-11-12)
备注: Accepted by AAAI-26
🔗 代码/项目: GITHUB
💡 一句话要点
LeanRAG:基于知识图谱的语义聚合与分层检索生成框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 检索增强生成 语义聚合 分层检索 问答系统
📋 核心要点
- 现有基于知识图谱的RAG方法存在高层摘要间缺乏联系,检索过程无法有效利用图结构的问题。
- LeanRAG通过语义聚合算法构建显式关系,形成可导航的语义网络,并采用结构引导的检索策略。
- 实验表明,LeanRAG在问答质量上显著优于现有方法,并降低了46%的检索冗余。
📝 摘要(中文)
检索增强生成(RAG)通过利用外部知识来支持大型语言模型,但其有效性常因检索到上下文不完整或有缺陷的信息而受损。为了解决这个问题,基于知识图谱的RAG方法发展为分层结构,将知识组织成多层次的摘要。然而,这些方法仍然面临两个关键挑战:高层概念摘要作为孤立的“语义岛”存在,缺乏跨社区推理所需的显式关系;检索过程本身在结构上是无知的,常常退化为低效的扁平搜索,无法利用图的丰富拓扑结构。为了克服这些限制,我们提出了LeanRAG,一个深度协作设计的框架,结合了知识聚合和检索策略。LeanRAG首先采用一种新的语义聚合算法,形成实体集群,并在聚合层级的摘要之间构建新的显式关系,创建一个完全可导航的语义网络。然后,一种自下而上的、结构引导的检索策略将查询锚定到最相关的细粒度实体,然后系统地遍历图的语义路径,以收集简洁但上下文全面的证据集。LeanRAG可以减轻图上路径检索相关的巨大开销,并最大限度地减少冗余信息检索。在四个具有不同领域的具有挑战性的QA基准上的大量实验表明,LeanRAG在响应质量方面显著优于现有方法,同时减少了46%的检索冗余。
🔬 方法详解
问题定义:现有基于知识图谱的RAG方法,虽然采用了分层结构,但高层概念摘要之间缺乏明确的关系连接,导致无法进行有效的跨社区推理。同时,检索过程未能充分利用知识图谱的结构信息,退化为低效的扁平搜索,导致检索结果冗余且质量不高。
核心思路:LeanRAG的核心思路是通过语义聚合构建显式的关系连接,形成一个可导航的语义网络,并设计结构感知的检索策略,从而提高检索效率和质量。通过自下而上的方式,从细粒度实体出发,沿着语义路径进行检索,避免了冗余信息的检索。
技术框架:LeanRAG框架主要包含两个阶段:知识聚合和结构引导的检索。在知识聚合阶段,首先通过语义聚合算法将实体聚类,并在聚合层级的摘要之间构建新的显式关系,形成语义网络。在结构引导的检索阶段,首先将查询锚定到最相关的细粒度实体,然后系统地遍历图的语义路径,收集上下文全面的证据集。
关键创新:LeanRAG的关键创新在于其深度协作的设计,将知识聚合和检索策略紧密结合。语义聚合算法能够构建显式的关系连接,形成可导航的语义网络,而结构引导的检索策略则能够充分利用图的结构信息,提高检索效率和质量。这种结合避免了传统方法中高层摘要孤立和检索过程结构盲目的问题。
关键设计:论文中提出的语义聚合算法是关键设计之一,具体的聚合方式和关系构建方法(例如,使用哪些类型的关系,如何确定关系的权重等)需要进一步参考论文细节。结构引导的检索策略中,如何确定起始实体,如何选择遍历路径,以及如何停止遍历等,都是需要仔细设计的关键参数。
🖼️ 关键图片
📊 实验亮点
LeanRAG在四个具有挑战性的QA基准测试中表现出色,显著优于现有方法。实验结果表明,LeanRAG不仅提高了响应质量,还减少了46%的检索冗余。这些结果验证了LeanRAG在知识图谱检索增强生成方面的有效性。
🎯 应用场景
LeanRAG可应用于各种需要知识图谱支持的问答系统、对话系统和信息检索系统。例如,在医疗领域,可以利用医学知识图谱进行疾病诊断和治疗方案推荐;在金融领域,可以利用金融知识图谱进行风险评估和投资决策。该研究有助于提升这些系统的准确性和效率,并为未来的知识图谱应用提供新的思路。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) plays a crucial role in grounding Large Language Models by leveraging external knowledge, whereas the effectiveness is often compromised by the retrieval of contextually flawed or incomplete information. To address this, knowledge graph-based RAG methods have evolved towards hierarchical structures, organizing knowledge into multi-level summaries. However, these approaches still suffer from two critical, unaddressed challenges: high-level conceptual summaries exist as disconnected ``semantic islands'', lacking the explicit relations needed for cross-community reasoning; and the retrieval process itself remains structurally unaware, often degenerating into an inefficient flat search that fails to exploit the graph's rich topology. To overcome these limitations, we introduce LeanRAG, a framework that features a deeply collaborative design combining knowledge aggregation and retrieval strategies. LeanRAG first employs a novel semantic aggregation algorithm that forms entity clusters and constructs new explicit relations among aggregation-level summaries, creating a fully navigable semantic network. Then, a bottom-up, structure-guided retrieval strategy anchors queries to the most relevant fine-grained entities and then systematically traverses the graph's semantic pathways to gather concise yet contextually comprehensive evidence sets. The LeanRAG can mitigate the substantial overhead associated with path retrieval on graphs and minimizes redundant information retrieval. Extensive experiments on four challenging QA benchmarks with different domains demonstrate that LeanRAG significantly outperforming existing methods in response quality while reducing 46\% retrieval redundancy. Code is available at: https://github.com/RaZzzyz/LeanRAG