Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning

📄 arXiv: 2505.13994v2 📥 PDF

作者: Ruiyi Yang, Hao Xue, Imran Razzak, Shirui Pan, Hakim Hacid, Flora D. Salim

分类: cs.AI, cs.IR, cs.MA

发布日期: 2025-05-20 (更新: 2025-11-05)

备注: 20 pages, 4 figures


💡 一句话要点

提出SPLIT-RAG,通过问题驱动的图划分提升大规模知识图谱上的RAG效率与准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 知识图谱 图划分 多智能体系统 大型语言模型

📋 核心要点

  1. 现有RAG系统在处理大型知识图谱时,面临效率与准确性的挑战,单体图检索导致不必要的延迟和推理碎片化。
  2. SPLIT-RAG通过问题驱动的语义图划分,将知识图谱分割成语义连贯的子图,并分配轻量级LLM智能体进行协同检索。
  3. 实验结果表明,SPLIT-RAG在效率和准确性方面均优于现有方法,通过逻辑验证解决子图答案的不一致性。

📝 摘要(中文)

检索增强生成(RAG)系统利用外部知识增强大型语言模型(LLM)的能力,但在扩展到大型知识图谱时,面临效率和准确性之间的权衡。现有方法通常依赖于单体图检索,导致简单查询的延迟以及复杂多跳问题的推理碎片化。为了解决这些挑战,本文提出了SPLIT-RAG,一个多智能体RAG框架,通过问题驱动的语义图划分和协同子图检索来解决这些限制。该框架首先创建链接信息的语义划分,然后使用类型专门的知识库来实现多智能体RAG。属性感知的图分割将知识图谱划分为语义连贯的子图,确保子图与不同的查询类型对齐。轻量级LLM智能体被分配到划分的子图,并且在检索期间仅激活相关的分区,从而减少搜索空间并提高效率。最后,分层合并模块通过逻辑验证来解决子图派生答案之间的不一致性。大量的实验验证表明,与现有方法相比,该方法具有显著的改进。

🔬 方法详解

问题定义:现有RAG系统在处理大规模知识图谱时,效率和准确性之间存在trade-off。单体图检索方法对于简单查询引入了不必要的延迟,而对于复杂的多跳问题,则容易导致推理过程的碎片化,难以获得全局一致的答案。因此,如何高效且准确地从大规模知识图谱中检索相关信息,是本文要解决的核心问题。

核心思路:本文的核心思路是“分而治之”。首先,根据问题的类型,将知识图谱划分为多个语义相关的子图。然后,为每个子图分配一个轻量级的LLM智能体,负责在该子图上进行检索。最后,通过一个分层合并模块,对各个子图的答案进行整合和验证,从而得到最终的答案。这种方法能够有效地减小搜索空间,提高检索效率,同时保证答案的准确性和一致性。

技术框架:SPLIT-RAG框架主要包含以下几个模块:1) 语义图划分模块:根据知识图谱中节点的属性和关系,将图划分为多个语义连贯的子图。2) 智能体分配模块:为每个子图分配一个轻量级的LLM智能体,该智能体专门负责在该子图上进行检索和推理。3) 子图检索模块:根据用户的问题,激活相关的子图,并由对应的智能体进行检索,得到候选答案。4) 分层合并模块:对各个子图的候选答案进行整合和验证,通过逻辑验证消除不一致性,最终生成答案。

关键创新:SPLIT-RAG的关键创新在于问题驱动的图划分和多智能体协同检索。传统的RAG方法通常采用单体图检索,而SPLIT-RAG则根据问题的类型,将知识图谱划分为多个语义相关的子图,从而减小了搜索空间,提高了检索效率。此外,SPLIT-RAG还引入了多智能体协同检索机制,每个智能体负责一个子图的检索,从而实现了并行化处理,进一步提高了效率。

关键设计:在语义图划分模块中,使用了属性感知的图分割算法,以确保子图的语义连贯性。在智能体分配模块中,根据子图的特点,选择了合适的轻量级LLM作为智能体。在分层合并模块中,设计了逻辑验证规则,以消除子图答案之间的不一致性。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文通过实验验证了SPLIT-RAG的有效性。实验结果表明,SPLIT-RAG在多个数据集上均优于现有的RAG方法,尤其是在处理复杂的多跳问题时,性能提升显著。具体的性能数据和提升幅度在论文中进行了详细描述(未知)。

🎯 应用场景

SPLIT-RAG适用于需要处理大规模知识图谱的RAG系统,例如智能问答、知识图谱补全、推荐系统等。该方法能够提高检索效率和准确性,从而提升用户体验。未来,可以将SPLIT-RAG应用于更复杂的知识图谱和更广泛的应用场景,例如医疗诊断、金融风控等。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) systems empower large language models (LLMs) with external knowledge, yet struggle with efficiency-accuracy trade-offs when scaling to large knowledge graphs. Existing approaches often rely on monolithic graph retrieval, incurring unnecessary latency for simple queries and fragmented reasoning for complex multi-hop questions. To address these challenges, this paper propose SPLIT-RAG, a multi-agent RAG framework that addresses these limitations with question-driven semantic graph partitioning and collaborative subgraph retrieval. The innovative framework first create Semantic Partitioning of Linked Information, then use the Type-Specialized knowledge base to achieve Multi-Agent RAG. The attribute-aware graph segmentation manages to divide knowledge graphs into semantically coherent subgraphs, ensuring subgraphs align with different query types, while lightweight LLM agents are assigned to partitioned subgraphs, and only relevant partitions are activated during retrieval, thus reduce search space while enhancing efficiency. Finally, a hierarchical merging module resolves inconsistencies across subgraph-derived answers through logical verifications. Extensive experimental validation demonstrates considerable improvements compared to existing approaches.