FlowRL: Matching Reward Distributions for LLM Reasoning

作者: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-18 (更新: 2025-11-04)

💡 一句话要点

FlowRL：通过匹配奖励分布提升LLM推理能力，解决过优化问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 奖励分布匹配 推理 流量平衡

📋 核心要点

现有LLM推理模型倾向于过度优化主要奖励信号，忽略多样性推理路径。
FlowRL通过匹配奖励分布而非最大化奖励，鼓励模型探索更多样化的推理路径。
实验表明，FlowRL在数学和代码推理任务上显著优于PPO和GRPO。

📝 摘要（中文）

本文提出FlowRL，一种通过流量平衡匹配完整奖励分布的大语言模型（LLM）强化学习（RL）方法，而非最大化奖励。现有先进的推理模型采用奖励最大化方法（如PPO和GRPO），容易过度优化主要的奖励信号，忽略不常见但有效的推理路径，从而降低多样性。FlowRL将标量奖励通过可学习的划分函数转换为归一化的目标分布，然后最小化策略与目标分布之间的反向KL散度。这种方法实现了流量平衡优化，促进了多样化的探索和可泛化的推理轨迹。在数学和代码推理任务上的实验表明，FlowRL在数学基准测试上比GRPO平均提升10.0%，比PPO提升5.1%，并在代码推理任务上表现始终更好。这些结果表明，奖励分布匹配是LLM强化学习中实现高效探索和多样化推理的关键步骤。

🔬 方法详解

问题定义：现有基于奖励最大化的LLM强化学习方法，如PPO和GRPO，在推理任务中存在过优化问题。它们倾向于集中于最常见的奖励信号，而忽略了那些不常见但同样有效的推理路径，导致模型缺乏探索多样性的能力，泛化性能受限。

核心思路：FlowRL的核心思路是将奖励最大化问题转化为奖励分布匹配问题。通过学习一个目标奖励分布，并鼓励策略生成的行为与该分布相匹配，从而避免模型过度关注单一的奖励信号。这种方法旨在促进模型探索更广泛的推理路径，提高其泛化能力和鲁棒性。

技术框架：FlowRL的技术框架主要包含以下几个步骤：1) 使用LLM生成推理轨迹；2) 使用奖励函数对轨迹进行评估，得到标量奖励；3) 使用可学习的划分函数将标量奖励转换为归一化的目标奖励分布；4) 计算策略生成的行为分布与目标奖励分布之间的反向KL散度；5) 使用强化学习算法（如PPO）最小化反向KL散度，更新LLM的策略。

关键创新：FlowRL的关键创新在于将奖励最大化问题转化为奖励分布匹配问题。与传统的奖励最大化方法不同，FlowRL不直接最大化标量奖励，而是学习一个目标奖励分布，并鼓励策略生成的行为与该分布相匹配。这种方法能够更好地平衡探索和利用，避免模型过度关注单一的奖励信号，从而提高模型的泛化能力和鲁棒性。

关键设计：FlowRL的关键设计包括：1) 使用可学习的划分函数将标量奖励转换为归一化的目标奖励分布。划分函数的设计需要保证目标分布的合理性和可学习性；2) 使用反向KL散度作为策略与目标分布之间的距离度量。反向KL散度能够更好地惩罚策略偏离目标分布的行为；3) 使用强化学习算法（如PPO）最小化反向KL散度，更新LLM的策略。PPO算法的选择需要保证训练的稳定性和效率。

🖼️ 关键图片

📊 实验亮点

FlowRL在数学和代码推理任务上取得了显著的性能提升。在数学基准测试中，FlowRL比GRPO平均提升10.0%，比PPO提升5.1%。在代码推理任务中，FlowRL也表现出始终优于其他基线的性能。这些实验结果表明，FlowRL能够有效地解决LLM强化学习中的过优化问题，提高模型的推理能力和泛化能力。

🎯 应用场景

FlowRL具有广泛的应用前景，可应用于各种需要复杂推理能力的场景，例如数学问题求解、代码生成、逻辑推理、知识图谱推理等。该方法能够提高LLM在这些任务中的准确性和泛化能力，使其能够更好地解决实际问题。此外，FlowRL还可以应用于机器人控制、游戏AI等领域，提升智能体的决策能力和适应性。

📄 摘要（原文）

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of $10.0\%$ over GRPO and $5.1\%$ over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

FlowRL: Matching Reward Distributions for LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理