Graph Reasoning Paradigm: Structured and Symbolic Reasoning with Topology-Aware Reinforcement Learning for Large Language Models

📄 arXiv: 2601.12995v1 📥 PDF

作者: Runxuan Liu, Xianhao Ou, Xinyan Ma, Jiyuan Wang, Jiafeng Liang, Jiaqi Li, Tao He, Zheng Chu, Rongchuan Mu, Zekun Wang, Baoxin Wang, Dayong Wu, Ming Liu, Shijin Wang, Guoping Hu, Bing Qin

分类: cs.CL

发布日期: 2026-01-19


💡 一句话要点

提出图推理范式GRP,结合拓扑感知强化学习,提升大语言模型结构化推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图推理 强化学习 大语言模型 结构化推理 符号化推理

📋 核心要点

  1. 现有大语言模型推理主要以文本形式进行,语义评估计算量大,存在训练瓶颈。
  2. 提出图推理范式GRP,利用图结构表示和认知标签实现结构化和符号化推理。
  3. 设计PASC-GRPO算法,通过结构化评估和分层裁剪优势估计,提升模型性能。

📝 摘要(中文)

本文提出图推理范式(GRP),旨在提升大语言模型(LLM)的推理能力。现有方法主要依赖于文本形式的推理,对非结构化数据进行语义评估存在计算瓶颈。尽管基于可验证奖励的强化学习(RLVR)有所改进,但仍面临粗粒度监督、奖励利用、高训练成本和泛化性差等问题。GRP通过图结构表示和步级认知标签实现结构化和符号化推理。此外,设计了过程感知分层裁剪分组相对策略优化(PASC-GRPO),利用结构化评估替代语义评估,通过图结构化的结果奖励实现过程感知验证,并通过分层裁剪优势估计来缓解奖励利用问题。实验表明,该方法在数学推理和代码生成任务上取得了显著改进。

🔬 方法详解

问题定义:现有大语言模型在推理过程中,主要依赖于文本形式的链式思考(Chain-of-Thought, CoT)。这种非结构化的文本表示方式,在进行语义评估时面临计算瓶颈。即使采用基于可验证奖励的强化学习(RLVR)进行优化,仍然存在监督信号粗糙、容易发生奖励利用(reward hacking)、训练成本高昂以及泛化能力不足等问题。因此,如何实现大语言模型的结构化和符号化推理,是本文要解决的核心问题。

核心思路:本文的核心思路是引入图推理范式(Graph Reasoning Paradigm, GRP),将推理过程表示为图结构,并为每个推理步骤赋予认知标签。通过图结构化的表示,可以利用图的拓扑信息进行推理,并采用结构化的评估方式替代传统的语义评估,从而提高训练效率和模型性能。此外,通过设计过程感知的强化学习算法,可以更有效地利用奖励信号,避免奖励利用问题。

技术框架:GRP的整体框架包括以下几个主要组成部分:1) 图结构表示:将推理过程表示为图,节点表示推理步骤,边表示推理步骤之间的依赖关系。2) 认知标签:为每个推理步骤赋予认知标签,例如“定义”、“推导”、“结论”等,用于描述该步骤的语义含义。3) 过程感知强化学习:设计过程感知的强化学习算法,例如PASC-GRPO,用于优化模型的推理策略。PASC-GRPO算法利用图结构化的结果奖励实现过程感知验证,并通过分层裁剪优势估计来缓解奖励利用问题。

关键创新:本文最重要的技术创新点在于提出了图推理范式(GRP),将推理过程表示为图结构,并结合拓扑感知的强化学习算法。与现有方法相比,GRP实现了结构化和符号化的推理,可以更有效地利用推理过程中的信息,并采用结构化的评估方式替代传统的语义评估,从而提高训练效率和模型性能。此外,PASC-GRPO算法通过过程感知的奖励设计和分层裁剪优势估计,有效缓解了奖励利用问题。

关键设计:PASC-GRPO算法的关键设计包括:1) 过程感知的奖励函数:根据图结构化的推理结果,设计过程感知的奖励函数,用于评估每个推理步骤的质量。2) 分层裁剪优势估计:采用分层裁剪的优势估计方法,对优势函数进行裁剪,从而缓解奖励利用问题。3) 拓扑感知的策略优化:在策略优化过程中,考虑图的拓扑结构信息,例如节点的度、节点的中心性等,从而更好地利用图结构信息进行推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GRP在数学推理和代码生成任务上取得了显著的改进。例如,在数学推理任务上,GRP相比于基线模型,准确率提升了超过10%。在代码生成任务上,GRP生成的代码质量更高,能够通过更多的测试用例。这些结果验证了GRP的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理、智能问答等。通过结构化推理过程,可以提高模型的准确性和可解释性,并为开发更强大的通用人工智能系统奠定基础。未来,该方法有望应用于医疗诊断、金融分析等领域,辅助专业人员进行决策。

📄 摘要(原文)

Long Chain-of-Thought (LCoT), achieved by Reinforcement Learning with Verifiable Rewards (RLVR), has proven effective in enhancing the reasoning capabilities of Large Language Models (LLMs). However, reasoning in current LLMs is primarily generated as plain text, where performing semantic evaluation on such unstructured data creates a computational bottleneck during training. Despite RLVR-based optimization, existing methods still suffer from coarse-grained supervision, reward hacking, high training costs, and poor generalization. To address these issues, we propose the Graph Reasoning Paradigm (GRP), which realizes structured and symbolic reasoning, implemented via graph-structured representations with step-level cognitive labels. Building upon GRP, we further design Process-Aware Stratified Clipping Group Relative Policy Optimization (PASC-GRPO), which leverages structured evaluation to replace semantic evaluation, achieves process-aware verification through graph-structured outcome rewards, and mitigates reward hacking via stratified clipping advantage estimation. Experiments demonstrate significant improvements across mathematical reasoning and code generation tasks. Data, models, and code will be released later.