Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL
作者: Ian Wu, Yuxiao Qu, Amrith Setlur, Aviral Kumar
分类: cs.LG
发布日期: 2026-02-03
备注: preprint
💡 一句话要点
提出推理缓存(RC)算法,通过短程强化学习实现LLM在长程推理上的持续改进。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 长程推理 迭代解码 推理缓存
📋 核心要点
- 现有强化学习方法在固定问题分布和训练预算下运行,限制了测试时分布偏移下的外推能力。
- RC算法利用LLM的响应生成和总结能力不对称性,构建迭代改进的推理链,实现持续学习。
- 实验表明,RC算法显著提升了模型在长程推理任务上的性能,超越了同等规模和更大规模的模型。
📝 摘要(中文)
本文提出了一种名为推理缓存(RC)的迭代解码算法,旨在使大型语言模型(LLM)能够超越其训练预算,通过在测试时进行适应来解决日益困难的问题,即外推能力。RC算法在训练和推理过程中取代了标准的自回归解码,并利用LLM在响应生成和总结能力之间的不对称性来构建推理链,从而在迭代中持续改进。经过RC训练的模型可以进行外推,并在推理过程中持续改进,其推理范围比训练时看到的范围长一个数量级以上。实验结果表明,使用RC算法训练的4B模型,在16k token的训练预算下,在HMMT 2025上的性能从40%提高到近70%,测试时使用0.5m token,优于同等规模的模型和许多更大的推理LLM。此外,经过RC训练的模型可以更有效地利用现有的支架(scaffolds)来进一步扩展测试时的性能,这归功于通过训练学到的改进的总结条件生成能力。
🔬 方法详解
问题定义:现有大型语言模型(LLM)在面对超出训练数据范围的长程推理问题时,泛化能力不足。传统的强化学习方法难以应对测试时分布偏移带来的挑战,无法实现持续改进和外推能力。因此,需要一种新的方法,使LLM能够在测试时不断适应和优化,从而解决更复杂的问题。
核心思路:RC算法的核心思路是利用LLM在生成和总结能力上的不对称性。具体来说,LLM擅长根据上下文生成连贯的文本,也擅长对已有文本进行总结和提炼。RC算法通过迭代地生成推理步骤,并对已生成的推理链进行总结,从而不断改进推理质量。这种迭代过程类似于人类的思考过程,即不断提出假设、验证假设、并根据验证结果调整假设。
技术框架:RC算法的核心是一个迭代解码过程,它取代了标准的自回归解码。在每一轮迭代中,模型首先根据当前状态生成一个推理步骤,然后对已生成的推理链进行总结。总结后的信息被用作下一轮迭代的上下文,从而引导模型生成更准确、更相关的推理步骤。整个过程可以看作是一个短程强化学习过程,其中模型的目标是最大化最终推理结果的准确性。
关键创新:RC算法的关键创新在于它将长程推理问题分解为一系列短程决策问题,并通过迭代的方式逐步优化推理链。与传统的自回归解码相比,RC算法能够更好地利用LLM的生成和总结能力,从而实现更有效的推理。此外,RC算法还引入了推理缓存机制,用于存储和重用已生成的推理步骤,从而提高推理效率。
关键设计:RC算法的关键设计包括:1) 使用强化学习来训练模型,目标是最大化最终推理结果的准确性;2) 设计合适的奖励函数,鼓励模型生成高质量的推理步骤;3) 使用推理缓存来存储和重用已生成的推理步骤;4) 设计有效的总结机制,将已生成的推理链压缩成简洁的上下文信息。
📊 实验亮点
实验结果表明,使用RC算法训练的4B模型在HMMT 2025数学竞赛数据集上取得了显著的性能提升,从40%提高到近70%,超过了同等规模的模型和许多更大的推理LLM。此外,RC算法还能够更有效地利用现有的支架(scaffolds)来进一步扩展测试时的性能,这表明RC算法具有很强的泛化能力和适应性。
🎯 应用场景
RC算法可应用于需要长程推理和持续改进的各种领域,如数学问题求解、代码生成、知识图谱推理、对话系统等。该算法能够提升LLM在复杂任务上的性能,并使其能够适应不断变化的环境。此外,RC算法还可以与其他技术相结合,如知识增强、提示工程等,以进一步提高LLM的推理能力。
📄 摘要(原文)
Large Language Models (LLMs) that can continually improve beyond their training budgets are able to solve increasingly difficult problems by adapting at test time, a property we refer to as extrapolation. However, standard reinforcement learning (RL) operates over fixed problem distributions and training budgets, which limits extrapolation amidst distribution shift at test time. To address this, we introduce RC, an iterative decoding algorithm that replaces standard autoregressive decoding during both training and inference. RC exploits an asymmetry between the response generation and summarization capabilities of LLMs to construct reasoning chains that consistently improve across iterations. Models trained to use RC can extrapolate and continually improve over reasoning horizons more than an order of magnitude longer than those seen during training. Empirically, training a 4B model with RC using a 16k-token training budget improves performance on HMMT 2025 from 40% to nearly 70% with 0.5m tokens at test time, outperforming both comparably sized models and many larger reasoning LLMs. Finally, we also show that models trained with RC can more effectively leverage existing scaffolds to further scale test-time performance, due to the improved summary-conditioned generation abilities learned through training.