ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation

作者: Shu Wang, Yixiang Fang, Yingli Zhou, Xilin Liu, Yuchi Ma

分类: cs.IR, cs.AI

发布日期: 2025-02-14 (更新: 2025-08-08)

💡 一句话要点

提出ArchRAG，利用属性社区分层检索增强生成，提升图数据问答准确率并降低token成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 图神经网络 知识图谱 大型语言模型 分层聚类

📋 核心要点

现有图RAG方法难以准确识别相关信息，且在线检索token消耗大，限制了其应用。
ArchRAG利用属性社区增强问题，并提出基于LLM的分层聚类方法构建分层索引。
实验表明，ArchRAG在问答准确率和token成本上均优于现有方法，具有显著优势。

📝 摘要（中文）

检索增强生成（RAG）已被证明能有效整合外部知识到大型语言模型（LLMs）中，以解决问答（QA）任务。目前最先进的RAG方法通常使用图数据作为外部数据，因为它们能捕获丰富的语义信息和实体间的链接关系。然而，现有的基于图的RAG方法无法准确地从图中识别相关信息，并且在在线检索过程中消耗大量的token。为了解决这些问题，我们提出了一种新的基于图的RAG方法，称为属性社区分层RAG（ArchRAG），通过使用属性社区来增强问题，并引入了一种新的基于LLM的分层聚类方法。为了从图中检索与问题最相关的信息，我们为属性社区构建了一种新的分层索引结构，并开发了一种有效的在线检索方法。实验结果表明，ArchRAG在准确性和token成本方面均优于现有方法。

🔬 方法详解

问题定义：论文旨在解决现有基于图的RAG方法在问答任务中存在的两个主要问题：一是无法准确地从图中识别与问题相关的信息；二是在线检索过程中消耗大量的token，导致效率低下。现有方法通常采用简单的图结构或浅层检索策略，难以有效利用图的复杂语义信息和关系结构。

核心思路：ArchRAG的核心思路是利用属性社区结构来增强检索过程，并构建分层索引以提高检索效率。通过将图数据划分为具有语义意义的属性社区，并利用LLM进行分层聚类，可以更精确地定位与问题相关的子图。同时，分层索引结构能够显著减少在线检索的token数量，降低计算成本。

技术框架：ArchRAG的整体框架包括以下几个主要阶段：1) 属性社区构建：利用图的属性信息将图数据划分为多个属性社区。2) 分层聚类：使用LLM对属性社区进行分层聚类，构建分层索引结构。3) 在线检索：根据问题，在分层索引结构中进行检索，找到最相关的属性社区。4) 知识增强生成：将检索到的属性社区信息输入LLM，生成答案。

关键创新：ArchRAG的关键创新在于：1) 提出了一种基于属性社区的图RAG方法，能够更有效地利用图的语义信息。2) 引入了一种基于LLM的分层聚类方法，用于构建分层索引结构，提高了检索效率。3) 设计了一种有效的在线检索方法，能够在分层索引结构中快速定位相关信息。

关键设计：在属性社区构建阶段，可以使用现有的社区发现算法或自定义的属性相似度度量方法。在分层聚类阶段，LLM可以用于计算属性社区之间的语义相似度，并进行聚类。在线检索阶段，可以采用基于向量相似度的检索方法，例如余弦相似度。具体的参数设置和损失函数需要根据具体的应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ArchRAG在问答准确率和token成本方面均优于现有方法。具体而言，ArchRAG在准确率上平均提升了X%，同时token成本降低了Y%。与传统的基于图的RAG方法相比，ArchRAG能够更有效地利用图的语义信息，并显著提高检索效率。

🎯 应用场景

ArchRAG可应用于知识图谱问答、推荐系统、智能客服等领域。通过有效利用图数据的语义信息和关系结构，可以提高问答的准确性和效率，降低计算成本。该方法在金融、医疗、法律等专业领域具有广泛的应用前景，能够为用户提供更精准、更智能的信息服务。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) has proven effective in integrating external knowledge into large language models (LLMs) for solving question-answer (QA) tasks. The state-of-the-art RAG approaches often use the graph data as the external data since they capture the rich semantic information and link relationships between entities. However, existing graph-based RAG approaches cannot accurately identify the relevant information from the graph and also consume large numbers of tokens in the online retrieval process. To address these issues, we introduce a novel graph-based RAG approach, called Attributed Community-based Hierarchical RAG (ArchRAG), by augmenting the question using attributed communities, and also introducing a novel LLM-based hierarchical clustering method. To retrieve the most relevant information from the graph for the question, we build a novel hierarchical index structure for the attributed communities and develop an effective online retrieval method. Experimental results demonstrate that ArchRAG outperforms existing methods in both accuracy and token cost.

ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理