GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning
作者: Chuanyue Yu, Kuo Zhao, Yuhan Li, Heng Chang, Mingjian Feng, Xiangzhe Jiang, Yufei Sun, Jia Li, Yuzhi Zhang, Jianxin Li, Ziwei Zhang
分类: cs.LG
发布日期: 2025-07-31
💡 一句话要点
GraphRAG-R1:提出基于过程约束强化学习的图检索增强生成框架,提升LLM多跳推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图检索增强生成 强化学习 多跳推理 知识图谱 大型语言模型
📋 核心要点
- 现有GraphRAG方法在处理需要多跳推理的复杂问题时,依赖预定义启发式规则,未能充分利用LLM的推理潜力。
- GraphRAG-R1通过过程约束的强化学习训练LLM,使其能够分解问题、自主检索信息并进行有效推理,从而提升多跳推理能力。
- 实验表明,GraphRAG-R1在领域内和领域外数据集上均优于现有GraphRAG方法,且能灵活集成多种检索方法,持续提升性能。
📝 摘要(中文)
图检索增强生成(GraphRAG)通过利用图结构进行知识表示和建模复杂的现实世界关系,在增强LLM的推理能力方面表现出巨大的有效性。然而,现有的GraphRAG方法在处理需要多跳推理的复杂问题时仍然面临重大瓶颈,因为它们的查询和检索阶段主要基于预定义的启发式方法,并且没有充分利用LLM的推理潜力。为了解决这个问题,我们提出了GraphRAG-R1,一个自适应的GraphRAG框架,通过使用过程约束的基于结果的强化学习(RL)训练LLM来增强多跳推理能力。我们的方法可以分解复杂问题,自主调用检索工具来获取必要的信息,并执行有效的推理。具体来说,我们利用了Group Relative Policy Optimization (GRPO)的修改版本,该版本支持具有思考能力的回滚。接下来,我们设计了两个过程约束的奖励函数。为了处理浅层检索问题,我们设计了一个渐进式检索衰减(PRA)奖励来鼓励必要的检索。然后,为了处理过度思考问题,我们设计了成本感知F1(CAF)奖励来平衡模型性能和计算成本。我们进一步设计了一个阶段相关的训练策略,包含与冷启动和这两个奖励相对应的三个训练阶段。最后,我们的方法采用混合图文检索来提高推理能力。大量的实验结果表明,与最先进的GraphRAG方法相比,GraphRAG-R1提高了LLM在解决领域内和领域外数据集上的复杂推理问题的能力。此外,我们的框架可以灵活地与各种现有的检索方法集成,从而持续提高性能。
🔬 方法详解
问题定义:现有的GraphRAG方法在处理需要多跳推理的复杂问题时,其查询和检索过程依赖于预定义的启发式规则,无法充分发挥大型语言模型(LLM)的推理能力。这些方法在分解复杂问题、自主获取信息以及有效推理方面存在局限性,导致性能瓶颈。
核心思路:GraphRAG-R1的核心思路是利用过程约束的强化学习(RL)来训练LLM,使其具备更强的多跳推理能力。通过强化学习,模型能够学习如何分解复杂问题,自主调用检索工具获取所需信息,并进行有效的推理。这种方法旨在克服现有GraphRAG方法对预定义规则的依赖,使模型能够自适应地进行推理。
技术框架:GraphRAG-R1的整体框架包含以下几个主要模块:1) 基于Group Relative Policy Optimization (GRPO) 的强化学习训练,支持具有思考能力的回滚;2) 渐进式检索衰减(PRA)奖励,用于鼓励必要的检索,解决浅层检索问题;3) 成本感知F1(CAF)奖励,用于平衡模型性能和计算成本,解决过度思考问题;4) 阶段相关的训练策略,包含与冷启动和两个奖励相对应的三个训练阶段;5) 混合图文检索,提高推理能力。
关键创新:GraphRAG-R1的关键创新在于其利用过程约束的强化学习来优化LLM的检索和推理过程。与传统的基于启发式规则的方法不同,GraphRAG-R1通过学习的方式,使模型能够自适应地进行多跳推理。此外,PRA和CAF奖励函数的引入,有效地解决了浅层检索和过度思考问题,进一步提升了模型的性能。
关键设计:在强化学习训练中,采用了Group Relative Policy Optimization (GRPO) 的修改版本,以支持具有思考能力的回滚。PRA奖励函数的设计旨在鼓励模型进行必要的检索,避免浅层检索。CAF奖励函数则通过平衡模型性能和计算成本,防止过度思考。此外,阶段相关的训练策略确保模型在不同阶段能够有效地学习和优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GraphRAG-R1在领域内和领域外数据集上均优于现有的GraphRAG方法。具体而言,GraphRAG-R1在复杂推理问题上的性能显著提升,并且能够灵活地与各种现有的检索方法集成,持续提高性能。这些结果验证了GraphRAG-R1在提升LLM推理能力方面的有效性。
🎯 应用场景
GraphRAG-R1可应用于需要复杂推理和知识检索的各种场景,如问答系统、知识图谱推理、智能客服、决策支持等。该研究的实际价值在于提升LLM在复杂问题上的推理能力,使其能够更好地理解和解决现实世界的问题。未来,该方法有望进一步扩展到其他领域,如医疗诊断、金融分析等。
📄 摘要(原文)
Graph Retrieval-Augmented Generation (GraphRAG) has shown great effectiveness in enhancing the reasoning abilities of LLMs by leveraging graph structures for knowledge representation and modeling complex real-world relationships. However, existing GraphRAG methods still face significant bottlenecks when handling complex problems that require multi-hop reasoning, as their query and retrieval phases are largely based on pre-defined heuristics and do not fully utilize the reasoning potentials of LLMs. To address this problem, we propose GraphRAG-R1, an adaptive GraphRAG framework by training LLMs with process-constrained outcome-based reinforcement learning (RL) to enhance the multi-hop reasoning ability. Our method can decompose complex problems, autonomously invoke retrieval tools to acquire necessary information, and perform effective reasoning. Specifically, we utilize a modified version of Group Relative Policy Optimization (GRPO) that supports rollout-with-thinking capability. Next, we design two process-constrained reward functions. To handle the shallow retrieval problem, we design a Progressive Retrieval Attenuation (PRA) reward to encourage essential retrievals. Then, to handle the over-thinking problem, we design Cost-Aware F1 (CAF) reward to balance the model performance with computational costs. We further design a phase-dependent training strategy, containing three training stages corresponding to cold start and these two rewards. Lastly, our method adopts a hybrid graph-textual retrieval to improve the reasoning capacity. Extensive experimental results demonstrate that GraphRAG-R1 boosts LLM capabilities in solving complex reasoning problems compared to state-of-the-art GraphRAG methods on both in-domain and out-of-domain datasets. Furthermore, our framework can be flexibly integrated with various existing retrieval methods, consistently delivering performance improvements.