GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning

作者: Chuanyue Yu, Kuo Zhao, Yuhan Li, Heng Chang, Mingjian Feng, Xiangzhe Jiang, Yufei Sun, Jia Li, Yuzhi Zhang, Jianxin Li, Ziwei Zhang

分类: cs.LG

发布日期: 2025-07-31

💡 一句话要点

GraphRAG-R1：提出基于过程约束强化学习的图检索增强生成框架，提升LLM多跳推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图检索增强生成 强化学习 多跳推理 知识图谱 大型语言模型

📋 核心要点

现有GraphRAG方法在处理需要多跳推理的复杂问题时，依赖预定义启发式规则，未能充分利用LLM的推理潜力。
GraphRAG-R1通过过程约束的强化学习训练LLM，使其能够分解问题、自主检索信息并进行有效推理，从而提升多跳推理能力。
实验表明，GraphRAG-R1在领域内和领域外数据集上均优于现有GraphRAG方法，且能灵活集成多种检索方法，持续提升性能。

📝 摘要（中文）

图检索增强生成（GraphRAG）通过利用图结构进行知识表示和建模复杂的现实世界关系，在增强LLM的推理能力方面表现出巨大的有效性。然而，现有的GraphRAG方法在处理需要多跳推理的复杂问题时仍然面临重大瓶颈，因为它们的查询和检索阶段主要基于预定义的启发式方法，并且没有充分利用LLM的推理潜力。为了解决这个问题，我们提出了GraphRAG-R1，一个自适应的GraphRAG框架，通过使用过程约束的基于结果的强化学习（RL）训练LLM来增强多跳推理能力。我们的方法可以分解复杂问题，自主调用检索工具来获取必要的信息，并执行有效的推理。具体来说，我们利用了Group Relative Policy Optimization (GRPO)的修改版本，该版本支持具有思考能力的回滚。接下来，我们设计了两个过程约束的奖励函数。为了处理浅层检索问题，我们设计了一个渐进式检索衰减（PRA）奖励来鼓励必要的检索。然后，为了处理过度思考问题，我们设计了成本感知F1（CAF）奖励来平衡模型性能和计算成本。我们进一步设计了一个阶段相关的训练策略，包含与冷启动和这两个奖励相对应的三个训练阶段。最后，我们的方法采用混合图文检索来提高推理能力。大量的实验结果表明，与最先进的GraphRAG方法相比，GraphRAG-R1提高了LLM在解决领域内和领域外数据集上的复杂推理问题的能力。此外，我们的框架可以灵活地与各种现有的检索方法集成，从而持续提高性能。

🔬 方法详解

问题定义：现有的GraphRAG方法在处理需要多跳推理的复杂问题时，其查询和检索过程依赖于预定义的启发式规则，无法充分发挥大型语言模型（LLM）的推理能力。这些方法在分解复杂问题、自主获取信息以及有效推理方面存在局限性，导致性能瓶颈。

核心思路：GraphRAG-R1的核心思路是利用过程约束的强化学习（RL）来训练LLM，使其具备更强的多跳推理能力。通过强化学习，模型能够学习如何分解复杂问题，自主调用检索工具获取所需信息，并进行有效的推理。这种方法旨在克服现有GraphRAG方法对预定义规则的依赖，使模型能够自适应地进行推理。

技术框架：GraphRAG-R1的整体框架包含以下几个主要模块：1) 基于Group Relative Policy Optimization (GRPO) 的强化学习训练，支持具有思考能力的回滚；2) 渐进式检索衰减（PRA）奖励，用于鼓励必要的检索，解决浅层检索问题；3) 成本感知F1（CAF）奖励，用于平衡模型性能和计算成本，解决过度思考问题；4) 阶段相关的训练策略，包含与冷启动和两个奖励相对应的三个训练阶段；5) 混合图文检索，提高推理能力。

关键创新：GraphRAG-R1的关键创新在于其利用过程约束的强化学习来优化LLM的检索和推理过程。与传统的基于启发式规则的方法不同，GraphRAG-R1通过学习的方式，使模型能够自适应地进行多跳推理。此外，PRA和CAF奖励函数的引入，有效地解决了浅层检索和过度思考问题，进一步提升了模型的性能。

关键设计：在强化学习训练中，采用了Group Relative Policy Optimization (GRPO) 的修改版本，以支持具有思考能力的回滚。PRA奖励函数的设计旨在鼓励模型进行必要的检索，避免浅层检索。CAF奖励函数则通过平衡模型性能和计算成本，防止过度思考。此外，阶段相关的训练策略确保模型在不同阶段能够有效地学习和优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GraphRAG-R1在领域内和领域外数据集上均优于现有的GraphRAG方法。具体而言，GraphRAG-R1在复杂推理问题上的性能显著提升，并且能够灵活地与各种现有的检索方法集成，持续提高性能。这些结果验证了GraphRAG-R1在提升LLM推理能力方面的有效性。

🎯 应用场景

GraphRAG-R1可应用于需要复杂推理和知识检索的各种场景，如问答系统、知识图谱推理、智能客服、决策支持等。该研究的实际价值在于提升LLM在复杂问题上的推理能力，使其能够更好地理解和解决现实世界的问题。未来，该方法有望进一步扩展到其他领域，如医疗诊断、金融分析等。

📄 摘要（原文）

Graph Retrieval-Augmented Generation (GraphRAG) has shown great effectiveness in enhancing the reasoning abilities of LLMs by leveraging graph structures for knowledge representation and modeling complex real-world relationships. However, existing GraphRAG methods still face significant bottlenecks when handling complex problems that require multi-hop reasoning, as their query and retrieval phases are largely based on pre-defined heuristics and do not fully utilize the reasoning potentials of LLMs. To address this problem, we propose GraphRAG-R1, an adaptive GraphRAG framework by training LLMs with process-constrained outcome-based reinforcement learning (RL) to enhance the multi-hop reasoning ability. Our method can decompose complex problems, autonomously invoke retrieval tools to acquire necessary information, and perform effective reasoning. Specifically, we utilize a modified version of Group Relative Policy Optimization (GRPO) that supports rollout-with-thinking capability. Next, we design two process-constrained reward functions. To handle the shallow retrieval problem, we design a Progressive Retrieval Attenuation (PRA) reward to encourage essential retrievals. Then, to handle the over-thinking problem, we design Cost-Aware F1 (CAF) reward to balance the model performance with computational costs. We further design a phase-dependent training strategy, containing three training stages corresponding to cold start and these two rewards. Lastly, our method adopts a hybrid graph-textual retrieval to improve the reasoning capacity. Extensive experimental results demonstrate that GraphRAG-R1 boosts LLM capabilities in solving complex reasoning problems compared to state-of-the-art GraphRAG methods on both in-domain and out-of-domain datasets. Furthermore, our framework can be flexibly integrated with various existing retrieval methods, consistently delivering performance improvements.

GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理