MoG: Mixture of Experts for Graph-based Retrieval-Augmented Generation

作者: Zheng Yuan, Chuang Zhou, Linhao Luo, Siyu An, Di Yin, Xing Sun, Xiao Huang

分类: cs.CL

发布日期: 2026-05-29

🔗 代码/项目: GITHUB

💡 一句话要点

提出MoG：基于图的检索增强生成混合专家模型，提升复杂推理性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 混合专家模型 图神经网络 知识图谱 复杂推理

📋 核心要点

现有检索增强生成方法在统一知识库中检索时易引入无关信息，影响复杂推理。
MoG利用混合专家模型思想，构建枢纽图和专家图，实现知识的稀疏选择和聚焦检索。
实验表明，MoG在多个基准测试中显著优于现有方法，尤其在MuSiQue数据集上提升显著。

📝 摘要（中文）

本文提出了一种用于图结构知识库的检索增强生成混合专家模型（MoG），旨在解决现有方法在统一知识库中检索时引入无关信息，从而误导复杂推理的问题。MoG将知识组织成两个核心组件：语义和结构上中心化的枢纽图（hub graphs）以及领域相关的专家图（expert graphs）。枢纽图提供上下文线索用于专家激活，而专家图包含特定领域的证据。MoG首先访问枢纽图以识别通用证据并推导上下文线索，然后一个拓扑感知的路由器根据查询动态激活有限的专家图集合，从而将检索限制在聚焦的证据子空间。在具有挑战性的基准测试中进行的大量实验表明，MoG始终优于强大的基线模型，在MuSiQue数据集上实现了超过20%的相对改进。

🔬 方法详解

问题定义：现有检索增强生成方法依赖于从统一的知识库中检索信息，这可能导致检索到与当前任务无关的信息，从而误导大型语言模型的生成过程，尤其是在需要复杂推理的场景下。现有方法的痛点在于无法有效地聚焦于相关的知识子集，导致噪声信息的干扰。

核心思路：MoG的核心思路是借鉴混合专家模型（MoE）的思想，将知识库组织成多个专家，每个专家负责特定领域的知识。通过一个路由器，根据查询动态地选择激活相关的专家，从而实现对知识的稀疏访问和聚焦检索。这种方法能够有效地减少无关信息的干扰，提高检索的准确性和效率。

技术框架：MoG的整体框架包含以下几个主要模块：1) 枢纽图（Hub Graphs）：包含语义和结构上中心化的知识，提供上下文信息。2) 专家图（Expert Graphs）：包含领域相关的知识，每个专家图负责一个特定的知识领域。3) 拓扑感知路由器（Topology-aware Router）：根据查询和枢纽图的信息，动态地选择激活相关的专家图。4) 检索增强生成模块：利用检索到的知识，增强大型语言模型的生成能力。

关键创新：MoG的关键创新在于将混合专家模型的思想引入到图结构的知识库中，并设计了一个拓扑感知的路由器，能够根据查询动态地选择激活相关的专家图。与现有方法相比，MoG能够更有效地聚焦于相关的知识子集，减少无关信息的干扰，提高检索的准确性和效率。此外，枢纽图的设计也为专家路由提供了上下文信息，提高了路由的准确性。

关键设计：MoG的关键设计包括：1) 枢纽图的构建：选择语义和结构上中心化的知识作为枢纽节点，并构建枢纽图。2) 专家图的构建：将知识库划分为多个领域，每个领域构建一个专家图。3) 拓扑感知路由器的设计：利用图神经网络学习节点表示，并根据节点表示和查询，计算每个专家图的激活概率。4) 损失函数的设计：采用交叉熵损失函数，优化路由器的参数，使得路由器能够准确地选择激活相关的专家图。

🖼️ 关键图片

📊 实验亮点

MoG在多个具有挑战性的基准测试中取得了显著的性能提升，尤其是在MuSiQue数据集上，MoG实现了超过20%的相对改进。实验结果表明，MoG能够有效地聚焦于相关的知识子集，减少无关信息的干扰，提高检索的准确性和效率。这些结果验证了MoG的有效性和优越性。

🎯 应用场景

MoG可应用于需要复杂推理和知识检索的各种场景，例如问答系统、对话系统、知识图谱推理等。通过聚焦于相关的知识子集，MoG可以提高这些系统的准确性和效率，并减少无关信息的干扰。该研究对于提升大型语言模型在知识密集型任务中的性能具有重要意义，并有望推动相关领域的发展。

📄 摘要（原文）

Retrieval-augmented generation is intensively studied to ground large language models on external evidence. However, retrieving from a unified knowledge base could inevitably introduce irrelevant information that may mislead generation for complex reasoning. Inspired by the conditional computation of mixture of experts (MoE), where a router sparsely selects specialized experts alongside shared ones for each input, we propose \textbf{M}ixture \textbf{o}f experts for \textbf{G}raph-based Retrieval-Augmented Generation, i.e., \textbf{MoG}. It organizes knowledge into two core components: (i) diverse, always-accessible hub graphs that encode semantically and structurally central knowledge and provide contextual clues for expert activation, and (ii) sparsely activated expert graphs that contain domain-specific evidence. MoG first accesses hub graphs to identify general evidence and derive contextual clues. Then, a topology-aware router dynamically activates a limited set of expert graphs conditioned on the query, thereby confining retrieval to a focused evidence subspace. Extensive experiments on challenging benchmarks show that MoG consistently outperforms strong baselines, with over 20\% relative improvement on MuSiQue. Our code is available in https://github.com/DEEP-PolyU/MoG.

MoG: Mixture of Experts for Graph-based Retrieval-Augmented Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理