FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

📄 arXiv: 2603.19835v1 📥 PDF

作者: Chiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou

分类: cs.LG

发布日期: 2026-03-20


💡 一句话要点

FIPO:通过未来KL散度影响的策略优化,激发大语言模型的深度推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 策略优化 大语言模型 深度推理 KL散度 信用分配 思维链 奖励函数

📋 核心要点

  1. 现有基于结果奖励(ORM)的强化学习方法在训练大语言模型时,无法区分轨迹中token的重要性,导致性能受限。
  2. FIPO算法通过引入未来KL散度,对token进行加权,从而实现更精细的信用分配,提升模型推理能力。
  3. 实验表明,FIPO显著提升了模型的思维链长度和数学问题解决准确率,超越了现有的一些开源模型。

📝 摘要(中文)

本文提出了一种名为未来KL散度影响的策略优化(FIPO)的强化学习算法,旨在克服大型语言模型中的推理瓶颈。尽管GRPO风格的训练可以有效地扩展,但它通常依赖于基于结果的奖励(ORM),该奖励将全局优势均匀地分配给轨迹中的每个token。我们认为,这种粗粒度的信用分配通过未能区分关键的逻辑枢纽和琐碎的token,从而设置了性能上限。FIPO通过将折扣的未来KL散度纳入策略更新中来解决这个问题,从而创建了一种密集的优势公式,该公式根据token对后续轨迹行为的影响来重新加权token。实验结果表明,FIPO使模型能够突破标准基线中观察到的长度停滞。在Qwen2.5-32B上评估,FIPO将平均思维链长度从大约4,000个token扩展到超过10,000个token,并将AIME 2024 Pass@1的准确率从50.0%提高到峰值58.0%(收敛于大约56.0%)。这优于DeepSeek-R1-Zero-Math-32B(约47.0%)和o1-mini(约56.0%)。我们的结果表明,建立密集的优势公式是发展基于ORM的算法以释放基础模型全部推理潜力的重要途径。我们开源了基于verl框架构建的训练系统。

🔬 方法详解

问题定义:论文旨在解决大语言模型在进行复杂推理时遇到的瓶颈问题。现有方法,特别是基于结果奖励(ORM)的强化学习方法,在训练过程中将全局奖励均匀分配给轨迹中的每个token,无法区分关键的逻辑步骤和无关紧要的token,导致模型难以学习到有效的推理策略。这种粗粒度的信用分配方式限制了模型的推理能力和性能上限。

核心思路:FIPO的核心思路是通过引入折扣的未来KL散度来改进策略更新过程。具体来说,FIPO不是简单地将全局奖励分配给每个token,而是根据每个token对后续轨迹行为的影响来重新加权token。通过计算每个token对未来策略的影响(用KL散度衡量),可以更准确地评估token的重要性,从而实现更精细的信用分配。

技术框架:FIPO的整体框架基于强化学习,特别是策略优化方法。其主要流程包括:1) 使用大语言模型生成轨迹;2) 计算每个token的未来KL散度,衡量其对后续策略的影响;3) 根据未来KL散度对token进行加权,得到密集的优势函数;4) 使用加权后的优势函数更新策略。该框架的关键在于未来KL散度的计算和应用,它将token与未来的行为联系起来,从而实现更有效的学习。

关键创新:FIPO最重要的创新点在于引入了未来KL散度来指导策略优化。与传统的ORM方法相比,FIPO能够更准确地评估每个token的贡献,从而实现更精细的信用分配。这种方法能够有效地解决现有方法中存在的信用分配问题,提升模型的推理能力。

关键设计:FIPO的关键设计包括:1) 未来KL散度的计算方式:论文中具体描述了如何计算每个token对未来策略的KL散度,这涉及到对模型输出概率分布的比较;2) 折扣因子的选择:折扣因子用于控制未来影响的权重,需要根据具体任务进行调整;3) 优势函数的构建:论文中定义了如何将未来KL散度融入优势函数中,从而指导策略更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FIPO在Qwen2.5-32B模型上进行了评估,实验结果表明,FIPO显著提升了模型的推理能力。具体来说,FIPO将平均思维链长度从大约4,000个token扩展到超过10,000个token,并将AIME 2024 Pass@1的准确率从50.0%提高到峰值58.0%(收敛于大约56.0%)。这一结果优于DeepSeek-R1-Zero-Math-32B(约47.0%)和o1-mini(约56.0%),表明FIPO在提升模型推理能力方面具有显著优势。

🎯 应用场景

FIPO算法具有广泛的应用前景,可以应用于各种需要复杂推理的大语言模型任务中,例如数学问题求解、代码生成、逻辑推理等。通过提升模型的推理能力,FIPO可以帮助模型更好地理解和解决复杂问题,从而提高模型的实用价值。未来,FIPO还可以与其他技术相结合,例如知识图谱、外部工具等,进一步提升模型的推理能力和泛化能力。

📄 摘要(原文)

We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.