Stateful Reasoning via Insight Replay
作者: Bin Lei, Caiwen Ding, Jiachen Yang, Ang Li, Xin Eric Wang
分类: cs.AI
发布日期: 2026-05-14
💡 一句话要点
提出InsightReplay,解决长链CoT推理中关键信息遗忘问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 链式思考 长链推理 信息遗忘 状态式推理 大型语言模型 知识重放 推理优化
📋 核心要点
- 现有CoT推理方法在长链推理中存在关键信息遗忘问题,导致性能下降。
- InsightReplay通过定期提取和重放关键见解,保持模型对重要信息的关注。
- 实验表明,InsightReplay在多个模型和数据集上均能有效提升推理准确率。
📝 摘要(中文)
链式思考(CoT)推理已成为激发大型语言模型多步推理的基础,但最近的研究表明,其优势并未随链长度单调增长:虽然更长的CoT通常使模型能够处理更难的问题,但在给定问题上,准确率通常随CoT长度增加到一定程度后下降。我们发现这种现象的一个主要原因是:随着CoT的增长,模型对推理过程中早期产生的关键见解的关注逐渐减弱,使得这些见解在最需要时越来越难以获取。因此,我们提出InsightReplay,一种有状态的推理方法,其中模型定期从其推理轨迹中提取关键见解,并在活跃生成前沿附近重放它们,保持它们在推理扩展时可访问。在涵盖模型规模{8B, 30B}、模型系列{Qwen3.5, DeepSeek-R1-Distill-Qwen, Gemma-4}和推理基准{AIME, HMMT, GPQA Diamond, LiveCodeBench v5}的2×3×4基准网格上的大量实验表明,3轮InsightReplay在所有24种设置中均产生准确率提升,与标准CoT相比,平均提升+1.65个百分点,在R1-Distill-32B的LiveCodeBench v5子集上,单次设置增益最大,为+9.2个百分点。我们的结果表明,测试时扩展的有效性不仅取决于模型推理的多少,还取决于关键中间见解在整个长推理轨迹中是否保持可访问。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在使用链式思考(CoT)进行长链推理时,由于推理步骤增加,模型逐渐遗忘或弱化早期关键见解的问题。现有CoT方法的痛点在于,随着推理链条的延长,模型对早期重要信息的关注度下降,导致最终结果的准确性降低。
核心思路:论文的核心思路是让模型周期性地回顾并重放推理过程中产生的关键见解。通过这种“状态式”的推理方式,模型可以保持对早期关键信息的持续关注,避免在长链推理中丢失重要线索。这样设计的目的是为了模拟人类在解决复杂问题时,会不断回顾和整合先前信息的认知过程。
技术框架:InsightReplay的整体框架是在标准的CoT推理流程中加入“见解提取”和“见解重放”两个关键步骤。具体流程如下:1. 模型进行一定步骤的CoT推理;2. 模型从已生成的推理轨迹中提取关键见解;3. 模型将提取的见解重新注入到当前的推理过程中,作为后续推理的上下文;4. 重复以上步骤,直到完成整个推理过程。
关键创新:InsightReplay最重要的技术创新在于其“状态式”的推理模式。与传统的CoT方法不同,InsightReplay不是简单地将所有推理步骤串联起来,而是通过周期性的见解提取和重放,使模型能够动态地更新和调整其推理状态。这种方法能够有效地解决长链推理中的信息遗忘问题。
关键设计:InsightReplay的关键设计包括:1. 见解提取策略:如何从推理轨迹中准确地提取出关键见解?(论文中可能使用了某种启发式方法或学习算法);2. 重放频率:多久进行一次见解提取和重放?(论文中使用了3轮重放);3. 重放方式:如何将提取的见解重新注入到推理过程中?(论文中可能使用了拼接或注意力机制)。这些细节决定了InsightReplay的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InsightReplay在所有24种设置中均优于标准CoT,平均提升1.65个百分点。在R1-Distill-32B模型的LiveCodeBench v5子集上,InsightReplay取得了9.2个百分点的显著提升。这些结果表明,InsightReplay能够有效地解决长链推理中的信息遗忘问题,提升模型的推理准确率。
🎯 应用场景
InsightReplay可应用于需要长链推理的各种任务,例如复杂问题求解、代码生成、科学推理等。该方法能够提升大型语言模型在这些任务上的性能,使其能够更好地处理复杂和具有挑战性的问题。未来,InsightReplay有望成为提升LLM推理能力的重要技术手段。
📄 摘要(原文)
Chain-of-Thought (CoT) reasoning has become a foundation for eliciting multi-step reasoning in large language models, but recent studies show that its benefits do not scale monotonically with chain length: while longer CoT generally enables a model to tackle harder problems, on a given problem, accuracy typically increases with CoT length up to a point, after which it declines. We identify a major cause of this phenomenon: as the CoT grows, the model's attention to critical insights produced earlier in the trace gradually weakens, making those insights progressively less accessible when they are most needed. Therefore, we propose \textbf{InsightReplay}, a stateful reasoning approach in which the model periodically extracts critical insights from its reasoning trace and replays them near the active generation frontier, keeping them accessible as the reasoning scales. Extensive experiments on a $\mathbf{2}!\times!\mathbf{3}!\times!\mathbf{4}$ benchmark grid, covering model scales ${\text{8B}, \text{30B}}$, model families ${\text{Qwen3.5}, \text{DeepSeek-R1-Distill-Qwen}, \text{Gemma-4}}$, and reasoning benchmarks ${\text{AIME}, \text{HMMT}, \text{GPQA Diamond}, \text{LiveCodeBench v5}}$, show that 3-round InsightReplay yields accuracy gains across \textbf{all 24 settings}, with an averaged improvement of $\mathbf{+1.65}$ points over standard CoT, and a largest single-setting gain of $\mathbf{+9.2}$ points on R1-Distill-32B's LiveCodeBench v5 subset. Our results suggest that the effectiveness of test-time scaling depends not only on how much a model reasons, but also on whether critical intermediate insights remain accessible throughout long reasoning trajectories.