FlowRL: Matching Reward Distributions for LLM Reasoning

作者: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-18 (更新: 2025-11-04)

💡 一句话要点

FlowRL：通过匹配奖励分布提升大语言模型推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 奖励分布匹配 推理 流量平衡

📋 核心要点

现有基于奖励最大化的LLM强化学习方法，易过度优化主要奖励信号，忽略多样推理路径。
FlowRL通过流量平衡匹配奖励分布，鼓励多样化探索和泛化推理轨迹。
实验表明，FlowRL在数学和代码推理任务上显著优于PPO和GRPO。

📝 摘要（中文）

本文提出FlowRL，一种通过流量平衡匹配完整奖励分布而非最大化奖励的大语言模型（LLM）强化学习方法。现有的先进推理模型采用奖励最大化方法（例如，PPO和GRPO），这往往过度优化主要的奖励信号，而忽略了不常见但有效的推理路径，从而降低了多样性。相比之下，我们使用可学习的配分函数将标量奖励转换为归一化的目标分布，然后最小化策略和目标分布之间的反向KL散度。我们将这个想法实现为一种流量平衡优化方法，该方法促进了多样化的探索和可泛化的推理轨迹。我们在数学和代码推理任务上进行了实验：FlowRL在数学基准测试中实现了比GRPO平均提高10.0％和比PPO平均提高5.1％的显著改进，并且在代码推理任务中表现始终更好。这些结果突出了奖励分布匹配是LLM强化学习中有效探索和多样化推理的关键步骤。

🔬 方法详解

问题定义：现有的大语言模型强化学习方法，如PPO和GRPO，主要通过最大化奖励来优化模型。这种方法的缺点在于，它容易过度关注那些频率较高的奖励信号，而忽略了那些虽然不常见但同样有效的推理路径。这导致模型探索不足，推理路径单一，泛化能力受限。因此，需要一种方法能够鼓励模型探索更多样化的推理路径，从而提高模型的整体性能和泛化能力。

核心思路：FlowRL的核心思路是将奖励最大化问题转化为奖励分布匹配问题。具体来说，它不是简单地最大化标量奖励，而是将标量奖励转换为一个归一化的目标分布，然后通过最小化策略生成的分布与目标分布之间的差异来优化模型。这种方法的关键在于，它鼓励模型探索整个奖励分布，而不仅仅是那些具有最高奖励的路径。

技术框架：FlowRL的整体框架包括以下几个主要步骤：1) 使用大语言模型生成推理轨迹；2) 使用奖励模型对推理轨迹进行评估，得到标量奖励；3) 使用可学习的配分函数将标量奖励转换为归一化的目标分布；4) 计算策略生成的分布与目标分布之间的反向KL散度；5) 使用优化算法（如Adam）最小化反向KL散度，从而更新模型参数。

关键创新：FlowRL最重要的技术创新点在于它将奖励最大化问题转化为奖励分布匹配问题。与传统的奖励最大化方法相比，FlowRL能够更好地平衡探索和利用，鼓励模型探索更多样化的推理路径，从而提高模型的整体性能和泛化能力。此外，FlowRL还引入了可学习的配分函数，用于将标量奖励转换为归一化的目标分布，这使得FlowRL能够更好地适应不同的任务和奖励结构。

关键设计：FlowRL的关键设计包括以下几个方面：1) 使用反向KL散度作为损失函数，用于衡量策略生成的分布与目标分布之间的差异；2) 使用可学习的配分函数，用于将标量奖励转换为归一化的目标分布；3) 使用Adam优化算法，用于最小化反向KL散度，从而更新模型参数。配分函数的具体形式未知，论文中可能没有详细说明其网络结构和参数设置。

📊 实验亮点

FlowRL在数学和代码推理任务上取得了显著的性能提升。在数学基准测试中，FlowRL比GRPO平均提高了10.0％，比PPO平均提高了5.1％。在代码推理任务中，FlowRL也表现出了一致的优越性。这些结果表明，奖励分布匹配是LLM强化学习中有效探索和多样化推理的关键步骤。

🎯 应用场景

FlowRL具有广泛的应用前景，可以应用于各种需要复杂推理能力的场景，例如数学问题求解、代码生成、知识图谱推理、对话生成等。通过鼓励模型探索更多样化的推理路径，FlowRL可以提高模型在这些任务上的性能和泛化能力，从而为实际应用带来更大的价值。此外，FlowRL还可以用于提高模型的鲁棒性和安全性，使其能够更好地应对各种挑战和攻击。

📄 摘要（原文）

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of $10.0\%$ over GRPO and $5.1\%$ over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

FlowRL: Matching Reward Distributions for LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册