Early Stopping for Large Reasoning Models via Confidence Dynamics

📄 arXiv: 2604.04930 📥 PDF

作者: Parsa Hosseini, Sumit Nawathe, Mahdi Salmani, Meisam Razaviyayn, Soheil Feizi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出CoDE-Stop,利用置信度动态提前停止大型推理模型,提升效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理 链式思维 提前停止 置信度动态

📋 核心要点

  1. 大型推理模型计算成本高昂,且过度推理会降低性能,因此需要一种方法来确定何时停止推理。
  2. CoDE-Stop利用推理过程中中间答案的置信度动态,判断何时终止推理,无需额外训练。
  3. 实验表明,CoDE-Stop在多个推理基准测试中,实现了更好的准确率-计算量权衡,并显著减少了token使用量。

📝 摘要(中文)

大型推理模型依赖于长链式思维生成来解决复杂问题,但过长的推理过程会带来巨大的计算成本,甚至由于过度思考而降低性能。一个关键的挑战是确定模型何时应该停止推理并给出最终答案。本文研究了推理过程中中间答案的置信度,并观察到两种特征行为:正确的推理轨迹通常会较早地达到高置信度的答案,而错误的推理过程往往会产生冗长且无成效的推理轨迹,并且表现出不太可靠的置信度动态。受此启发,我们提出了一种名为CoDE-Stop(置信度动态提前停止)的提前停止方法,该方法利用中间答案置信度的动态来决定何时终止推理,无需额外的训练,并且可以轻松地集成到现有模型中。我们在多个模型上,针对不同的推理和科学基准测试评估了CoDE-Stop。与之前的提前停止方法相比,它实现了更有利的准确率-计算量权衡,并且与标准的全长推理相比,总token使用量减少了25-50%。此外,我们还提供了推理过程中置信度动态的分析,深入了解了正确和错误轨迹中置信度如何变化。

🔬 方法详解

问题定义:大型语言模型在复杂推理任务中,通常采用链式思维(Chain-of-Thought, CoT)方法,生成中间推理步骤以得出最终答案。然而,过长的推理链会导致计算成本显著增加,并且可能因为“过度思考”而降低最终答案的准确性。现有方法缺乏一种有效的机制来判断何时停止推理,从而在准确性和计算效率之间取得平衡。

核心思路:CoDE-Stop的核心思想是观察推理过程中中间答案的置信度变化。作者发现,正确的推理轨迹通常会较早地达到高置信度的答案,而错误的推理轨迹则表现出较低且不稳定的置信度。因此,可以通过监控中间答案的置信度动态,来判断推理过程是否有效,并决定何时停止推理。

技术框架:CoDE-Stop的整体框架非常简单,易于集成到现有的CoT推理模型中。它主要包含以下几个阶段:1. 模型生成中间推理步骤和对应的答案。2. 计算每个中间答案的置信度。3. 根据置信度动态(例如,置信度是否达到阈值、置信度变化率等)判断是否应该停止推理。4. 如果满足停止条件,则输出当前答案作为最终答案;否则,继续生成下一个推理步骤。

关键创新:CoDE-Stop的关键创新在于利用了中间答案的置信度动态作为提前停止的信号。与以往的提前停止方法(例如,基于推理步骤数量或固定阈值)相比,CoDE-Stop能够更准确地判断推理过程的有效性,从而在准确性和计算效率之间取得更好的平衡。它不需要额外的训练,可以直接应用于现有的模型。

关键设计:CoDE-Stop的关键设计在于如何定义和计算中间答案的置信度,以及如何根据置信度动态来确定停止条件。论文中可能采用了多种置信度计算方法,例如,基于模型输出概率的熵、基于多个模型一致性的置信度等。停止条件可以基于置信度阈值、置信度变化率、或者两者结合。具体的参数设置(例如,置信度阈值)可能需要根据不同的任务和模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoDE-Stop在多种推理和科学基准测试中表现出色,与之前的提前停止方法相比,实现了更有利的准确率-计算量权衡。实验结果表明,CoDE-Stop能够将总token使用量减少25-50%,同时保持甚至提高推理准确性。这些结果验证了CoDE-Stop的有效性和实用性。

🎯 应用场景

CoDE-Stop可应用于各种需要大型语言模型进行复杂推理的场景,例如科学问题解答、数学问题求解、代码生成等。通过减少不必要的推理步骤,可以显著降低计算成本,提高推理效率,并有可能提升最终答案的准确性。该方法具有广泛的应用前景,可以促进大型语言模型在资源受限环境下的部署和应用。

📄 摘要(原文)

Large reasoning models rely on long chain-of-thought generation to solve complex problems, but extended reasoning often incurs substantial computational cost and can even degrade performance due to overthinking. A key challenge is determining when the model should stop reasoning and produce the final answer. In this work, we study the confidence of intermediate answers during reasoning and observe two characteristic behaviors: correct reasoning trajectories often reach high-confidence answers early, while incorrect rollouts tend to produce long, unproductive reasoning traces and exhibit less reliable confidence dynamics. Motivated by these observations, we propose CoDE-Stop (Confidence Dynamics Early Stop), an early stopping method that leverages the dynamics of intermediate answer confidence to decide when to terminate reasoning, requiring no additional training and easily integrating into existing models. We evaluate CoDE-Stop on diverse reasoning and science benchmarks across multiple models. Compared to prior early stopping methods, it achieves a more favorable accuracy-compute tradeoff and reduces total token usage by 25-50% compared to standard full-length reasoning. In addition, we provide analyses of confidence dynamics during reasoning, offering insights into how confidence changes in both correct and incorrect trajectories.