InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

📄 arXiv: 2602.06960v2 📥 PDF

作者: Yuchen Yan, Liang Jiang, Jin Jiang, Shuaicheng Li, Zujie Wen, Zhiqiang Zhang, Jun Zhou, Jian Shao, Yueting Zhuang, Yongliang Shen

分类: cs.CL, cs.AI

发布日期: 2026-02-06 (更新: 2026-02-09)

备注: Project Page: https://zju-real.github.io/InftyThink-Plus Code: https://github.com/ZJU-REAL/InftyThink-Plus


💡 一句话要点

InftyThink+:通过强化学习实现高效无限视野推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 迭代推理 思维链 长文本推理 模型总结

📋 核心要点

  1. 现有大型推理模型受限于思维链的二次方成本和上下文长度限制,且易受中间信息丢失的影响。
  2. InftyThink+提出了一种端到端的强化学习框架,通过优化迭代推理轨迹,学习战略性的总结和继续决策。
  3. 实验表明,InftyThink+在准确率、泛化能力和推理效率方面均优于现有方法,尤其是在AIME24数据集上提升显著。

📝 摘要(中文)

大型推理模型通过扩展推理时的思维链(chain-of-thought)来获得强大的性能,但这种模式存在二次方成本、上下文长度限制以及因中间信息丢失而导致的推理能力下降等问题。迭代推理通过定期总结中间思想来缓解这些问题,但现有方法依赖于监督学习或固定的启发式方法,并且无法优化何时总结、保留什么以及如何恢复推理。我们提出了InftyThink+,这是一个端到端的强化学习框架,它优化了整个迭代推理轨迹,建立在模型控制的迭代边界和显式总结之上。InftyThink+采用两阶段训练方案,首先进行监督冷启动,然后进行轨迹级别的强化学习,使模型能够学习战略性的总结和继续决策。在DeepSeek-R1-Distill-Qwen-1.5B上的实验表明,InftyThink+在AIME24上提高了21%的准确率,并且明显优于传统的长思维链强化学习,同时更好地泛化到分布外基准。此外,InftyThink+显著降低了推理延迟并加速了强化学习训练,在提高性能的同时也提高了推理效率。

🔬 方法详解

问题定义:现有的大型语言模型在进行复杂推理时,依赖于长链式的思维过程。然而,这种方法存在几个关键问题:一是计算成本随着推理步骤的增加呈平方级增长;二是受限于模型的上下文长度,无法处理无限视野的推理任务;三是容易出现“中间信息丢失”现象,导致推理性能下降。现有迭代推理方法虽然尝试通过定期总结中间信息来缓解这些问题,但它们依赖于监督学习或固定的启发式规则,无法自适应地学习何时进行总结、保留哪些信息以及如何继续推理。

核心思路:InftyThink+的核心思路是将迭代推理过程建模为一个强化学习问题,通过学习一个策略来控制推理过程中的总结和继续决策。模型不再依赖固定的规则或人工标注的数据,而是通过与环境的交互,学习到最优的推理轨迹。这种方法允许模型根据当前的状态动态地调整推理策略,从而更有效地利用有限的计算资源和上下文长度。

技术框架:InftyThink+采用一个两阶段的训练框架。第一阶段是监督冷启动,使用人工标注的数据来预训练模型,使其具备初步的推理和总结能力。第二阶段是轨迹级别的强化学习,使用强化学习算法来优化整个推理轨迹。具体来说,模型通过与环境交互,生成一系列的推理步骤,并根据最终的推理结果获得奖励。然后,使用强化学习算法来更新模型的策略,使其能够更好地选择何时进行总结和继续推理。整个框架包含三个主要模块:推理模块、总结模块和决策模块。推理模块负责生成下一步的推理步骤,总结模块负责将中间信息进行总结,决策模块负责决定何时进行总结和继续推理。

关键创新:InftyThink+的关键创新在于将迭代推理过程建模为一个强化学习问题,并使用端到端的强化学习框架来优化整个推理轨迹。与现有方法相比,InftyThink+能够自适应地学习推理策略,从而更有效地利用有限的计算资源和上下文长度。此外,InftyThink+还引入了模型控制的迭代边界和显式总结机制,使得模型能够更好地控制推理过程。

关键设计:InftyThink+的关键设计包括:1) 使用Transformer架构作为推理模块和总结模块的基础模型;2) 使用策略梯度算法(如REINFORCE或PPO)来训练决策模块;3) 设计合适的奖励函数,鼓励模型进行准确和高效的推理;4) 使用经验回放技术来提高强化学习的训练效率;5) 探索不同的总结策略,如基于注意力机制的总结和基于关键词提取的总结。

📊 实验亮点

实验结果表明,InftyThink+在AIME24数据集上取得了显著的性能提升,准确率提高了21%。此外,InftyThink+在推理速度和强化学习训练效率方面也优于现有方法。与传统的长思维链强化学习相比,InftyThink+在分布外数据集上表现出更好的泛化能力。这些结果表明,InftyThink+是一种有效且高效的无限视野推理方法。

🎯 应用场景

InftyThink+具有广泛的应用前景,可以应用于各种需要复杂推理的场景,例如问答系统、知识图谱推理、代码生成和自然语言理解。该方法可以提高这些应用在处理长文本和复杂问题时的准确性和效率,并有望推动人工智能在更广泛领域的应用。

📄 摘要(原文)

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.