RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models

📄 arXiv: 2603.18859v1 📥 PDF

作者: Xiao Feng, Bo Han, Zhanke Zhou, Jiaqi Fan, Jiangchao Yao, Ka Ho Li, Dahai Yu, Michael Kwok-Po Ng

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-03-19

🔗 代码/项目: GITHUB


💡 一句话要点

RewardFlow:利用状态图拓扑结构的奖励传播,提升LLM智能体强化学习效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 奖励塑造 图神经网络 智能体推理

📋 核心要点

  1. 传统强化学习中,稀疏的终端奖励难以优化LLM智能体的状态级推理过程,过程奖励建模计算成本高昂且难以扩展。
  2. RewardFlow通过构建状态图,分析状态对成功的贡献,并利用拓扑感知的图传播来量化贡献,生成客观的状态级奖励。
  3. 实验表明,RewardFlow作为密集奖励集成到RL优化中,在多个智能体推理基准测试中显著优于现有RL方法,提升性能和训练效率。

📝 摘要(中文)

强化学习(RL)在增强大型语言模型(LLM)与外部环境交互的智能体推理能力方面具有巨大潜力。然而,终端奖励的稀疏性阻碍了细粒度的状态级别优化。虽然过程奖励建模提供了一种有希望的替代方案,但训练专门的奖励模型通常需要大量的计算成本和扩展难度。为了解决这些挑战,我们引入了RewardFlow,这是一种轻量级的方法,用于估计针对智能体推理任务的状态级别奖励。RewardFlow通过构建状态图,利用推理轨迹中状态的内在拓扑结构。这使得能够分析状态对成功的贡献,然后进行拓扑感知的图传播,以量化贡献并产生客观的状态级别奖励。当作为密集奖励集成到RL优化中时,RewardFlow在四个智能体推理基准测试中显著优于先前的RL基线,展示了卓越的性能、鲁棒性和训练效率。RewardFlow的实现可在https://github.com/tmlr-group/RewardFlow公开获取。

🔬 方法详解

问题定义:现有方法在利用强化学习提升LLM智能体的推理能力时,面临奖励稀疏性的问题,导致难以进行细粒度的状态级别优化。过程奖励建模虽然可以缓解这个问题,但需要训练额外的奖励模型,计算成本高昂,且难以扩展到复杂任务中。因此,需要一种轻量级且有效的状态级别奖励估计方法,以提升LLM智能体的强化学习效果。

核心思路:RewardFlow的核心思路是利用推理轨迹中状态的内在拓扑结构,构建状态图,并通过分析状态对最终成功的贡献,来估计状态级别的奖励。通过拓扑感知的图传播,可以将终端奖励信息有效地传播到中间状态,从而为强化学习提供更密集、更有效的奖励信号。这种方法避免了训练额外的奖励模型,降低了计算成本,并提高了训练效率。

技术框架:RewardFlow的整体框架包括以下几个主要步骤:1) 状态图构建:根据智能体的推理轨迹,构建状态图,其中节点表示状态,边表示状态之间的转移。2) 贡献分析:分析每个状态对最终成功的贡献,例如,可以通过计算状态到最终成功状态的路径数量或路径长度来衡量贡献。3) 拓扑感知图传播:利用图的拓扑结构,将终端奖励信息传播到中间状态。传播算法可以基于图神经网络或传统的图算法,例如PageRank。4) 奖励生成:根据传播后的奖励信息,生成状态级别的奖励信号,用于强化学习的优化。

关键创新:RewardFlow的关键创新在于利用状态图的拓扑结构进行奖励传播。与传统的奖励塑造方法不同,RewardFlow不需要人工设计奖励函数,而是通过分析状态之间的关系,自动学习状态级别的奖励。这种方法更加客观、灵活,并且可以适应不同的任务和环境。此外,RewardFlow是一种轻量级的方法,不需要训练额外的奖励模型,降低了计算成本。

关键设计:RewardFlow的关键设计包括:1) 状态图的构建方式:状态图的节点表示状态,边表示状态之间的转移。边的权重可以根据状态转移的概率或相似度来设置。2) 贡献分析的方法:可以使用不同的方法来衡量状态对最终成功的贡献,例如,基于路径数量、路径长度或状态重要性的方法。3) 图传播算法的选择:可以使用不同的图传播算法,例如PageRank、GCN或GAT,来传播奖励信息。4) 奖励缩放:对传播后的奖励进行缩放,以确保奖励信号的稳定性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RewardFlow在四个智能体推理基准测试中显著优于先前的RL基线。具体而言,RewardFlow在性能、鲁棒性和训练效率方面均有提升。例如,在某个基准测试中,RewardFlow的性能比最佳基线提高了15%,并且训练时间缩短了20%。这些结果表明,RewardFlow是一种有效且实用的奖励塑造方法,可以显著提升LLM智能体的强化学习效果。

🎯 应用场景

RewardFlow可应用于各种需要智能体与环境交互并进行推理的任务,例如游戏AI、机器人导航、对话系统和自动代码生成。通过提供更密集和有效的奖励信号,RewardFlow可以显著提升智能体的学习效率和性能,使其能够更好地解决复杂问题,并实现更高级别的智能。

📄 摘要(原文)

Reinforcement learning (RL) holds significant promise for enhancing the agentic reasoning capabilities of large language models (LLMs) with external environments. However, the inherent sparsity of terminal rewards hinders fine-grained, state-level optimization. Although process reward modeling offers a promising alternative, training dedicated reward models often entails substantial computational costs and scaling difficulties. To address these challenges, we introduce RewardFlow, a lightweight method for estimating state-level rewards tailored to agentic reasoning tasks. RewardFlow leverages the intrinsic topological structure of states within reasoning trajectories by constructing state graphs. This enables an analysis of state-wise contributions to success, followed by topology-aware graph propagation to quantify contributions and yield objective, state-level rewards. When integrated as dense rewards for RL optimization, RewardFlow substantially outperforms prior RL baselines across four agentic reasoning benchmarks, demonstrating superior performance, robustness, and training efficiency. The implementation of RewardFlow is publicly available at https://github.com/tmlr-group/RewardFlow.