FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

作者: Chiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou

分类: cs.LG

发布日期: 2026-03-20

💡 一句话要点

FIPO：通过未来KL散度影响的策略优化，激发大语言模型的深度推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 策略优化 大语言模型 深度推理 KL散度 信用分配 思维链 奖励函数

📋 核心要点

现有基于结果奖励（ORM）的强化学习方法在训练大语言模型时，无法区分轨迹中token的重要性，导致性能受限。
FIPO算法通过引入未来KL散度，对token进行加权，从而实现更精细的信用分配，提升模型推理能力。
实验表明，FIPO显著提升了模型的思维链长度和数学问题解决准确率，超越了现有的一些开源模型。

📝 摘要（中文）

本文提出了一种名为未来KL散度影响的策略优化（FIPO）的强化学习算法，旨在克服大型语言模型中的推理瓶颈。尽管GRPO风格的训练可以有效地扩展，但它通常依赖于基于结果的奖励（ORM），该奖励将全局优势均匀地分配给轨迹中的每个token。我们认为，这种粗粒度的信用分配通过未能区分关键的逻辑枢纽和琐碎的token，从而设置了性能上限。FIPO通过将折扣的未来KL散度纳入策略更新中来解决这个问题，从而创建了一种密集的优势公式，该公式根据token对后续轨迹行为的影响来重新加权token。实验结果表明，FIPO使模型能够突破标准基线中观察到的长度停滞。在Qwen2.5-32B上评估，FIPO将平均思维链长度从大约4,000个token扩展到超过10,000个token，并将AIME 2024 Pass@1的准确率从50.0%提高到峰值58.0%（收敛于大约56.0%）。这优于DeepSeek-R1-Zero-Math-32B（约47.0%）和o1-mini（约56.0%）。我们的结果表明，建立密集的优势公式是发展基于ORM的算法以释放基础模型全部推理潜力的重要途径。我们开源了基于verl框架构建的训练系统。

🔬 方法详解

问题定义：论文旨在解决大语言模型在进行复杂推理时遇到的瓶颈问题。现有方法，特别是基于结果奖励（ORM）的强化学习方法，在训练过程中将全局奖励均匀分配给轨迹中的每个token，无法区分关键的逻辑步骤和无关紧要的token，导致模型难以学习到有效的推理策略。这种粗粒度的信用分配方式限制了模型的推理能力和性能上限。

核心思路：FIPO的核心思路是通过引入折扣的未来KL散度来改进策略更新过程。具体来说，FIPO不是简单地将全局奖励分配给每个token，而是根据每个token对后续轨迹行为的影响来重新加权token。通过计算每个token对未来策略的影响（用KL散度衡量），可以更准确地评估token的重要性，从而实现更精细的信用分配。

技术框架：FIPO的整体框架基于强化学习，特别是策略优化方法。其主要流程包括：1) 使用大语言模型生成轨迹；2) 计算每个token的未来KL散度，衡量其对后续策略的影响；3) 根据未来KL散度对token进行加权，得到密集的优势函数；4) 使用加权后的优势函数更新策略。该框架的关键在于未来KL散度的计算和应用，它将token与未来的行为联系起来，从而实现更有效的学习。

关键创新：FIPO最重要的创新点在于引入了未来KL散度来指导策略优化。与传统的ORM方法相比，FIPO能够更准确地评估每个token的贡献，从而实现更精细的信用分配。这种方法能够有效地解决现有方法中存在的信用分配问题，提升模型的推理能力。

关键设计：FIPO的关键设计包括：1) 未来KL散度的计算方式：论文中具体描述了如何计算每个token对未来策略的KL散度，这涉及到对模型输出概率分布的比较；2) 折扣因子的选择：折扣因子用于控制未来影响的权重，需要根据具体任务进行调整；3) 优势函数的构建：论文中定义了如何将未来KL散度融入优势函数中，从而指导策略更新。

🖼️ 关键图片

📊 实验亮点

FIPO在Qwen2.5-32B模型上进行了评估，实验结果表明，FIPO显著提升了模型的推理能力。具体来说，FIPO将平均思维链长度从大约4,000个token扩展到超过10,000个token，并将AIME 2024 Pass@1的准确率从50.0%提高到峰值58.0%（收敛于大约56.0%）。这一结果优于DeepSeek-R1-Zero-Math-32B（约47.0%）和o1-mini（约56.0%），表明FIPO在提升模型推理能力方面具有显著优势。

🎯 应用场景

FIPO算法具有广泛的应用前景，可以应用于各种需要复杂推理的大语言模型任务中，例如数学问题求解、代码生成、逻辑推理等。通过提升模型的推理能力，FIPO可以帮助模型更好地理解和解决复杂问题，从而提高模型的实用价值。未来，FIPO还可以与其他技术相结合，例如知识图谱、外部工具等，进一步提升模型的推理能力和泛化能力。

📄 摘要（原文）

We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理