TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning
作者: Alliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-03-13
备注: 35 pages, 31 figures
💡 一句话要点
TERMINATOR:学习思维链推理中提前停止的最优退出点,减少过度思考。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链推理 提前退出 过度思考 大型语言模型 自监督学习
📋 核心要点
- 大型推理模型存在过度思考问题,即使答案已生成仍消耗过多计算资源。
- TERMINATOR通过预测答案首次出现位置,构建最优推理长度数据集,实现提前退出。
- 实验表明,TERMINATOR在多个数据集上显著减少CoT长度,并超越现有最佳方法。
📝 摘要(中文)
大型推理模型(LRMs)通过思维链(CoT)推理在复杂推理任务上表现出色,使其能够在得出最终答案之前生成中间思考token。然而,LRMs经常遭受严重的过度思考,即使在答案已经提前生成后,也会花费过多的计算时间。先前的工作已经确定了最佳推理长度的存在,在该点截断推理可以显著缩短CoT输出,而性能几乎没有变化。然而,确定实际数据集的最佳CoT长度非常困难,因为它们完全依赖于任务和模型。在本文中,我们精确地解决了这个问题,并设计了TERMINATOR,一种用于LRMs在推理时缓解过度思考的提前退出策略。TERMINATOR的核心思想是,LRM最终答案的首次出现通常是可以预测的,我们利用这些首次答案位置来创建一个新的最优推理长度数据集,以训练TERMINATOR。通过这种方法,TERMINATOR在四个具有挑战性的实际数据集(MATH-500、AIME 2025、HumanEval和GPQA)上平均实现了14%-55%的CoT长度显著减少,同时优于当前最先进的方法。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRMs)在思维链(CoT)推理中存在的过度思考问题。现有方法的主要痛点在于,即使模型已经生成了正确的答案,它仍然会继续生成无用的中间步骤,导致计算资源的浪费和推理效率的降低。确定最佳的CoT长度以避免过度思考是一个难题,因为最佳长度高度依赖于具体的任务和模型。
核心思路:论文的核心思路是,LRM在CoT推理过程中,最终答案的首次出现位置往往是可以预测的。通过学习预测这个首次出现的位置,可以训练一个提前退出机制,在模型生成答案后及时停止推理,从而避免过度思考。这种方法的核心在于利用模型自身的预测能力来优化推理过程。
技术框架:TERMINATOR的整体框架包含以下几个主要步骤:1)利用LRM生成CoT推理过程;2)确定每个样本中答案首次出现的位置;3)基于这些首次出现的位置,构建一个最优推理长度的数据集;4)使用该数据集训练一个提前退出模型(TERMINATOR);5)在推理阶段,TERMINATOR根据当前生成的token序列,预测是否应该提前退出。
关键创新:论文的关键创新在于提出了一种自监督的方式来学习最优的CoT长度。与以往需要人工标注或启发式规则的方法不同,TERMINATOR利用LRM自身的预测能力,自动生成训练数据。这种方法具有更高的灵活性和适应性,可以应用于不同的任务和模型。
关键设计:TERMINATOR的具体实现细节可能因所使用的LRM和任务而异。一种可能的设计是使用一个轻量级的分类器或回归器,输入是当前生成的token序列的表示,输出是是否应该提前退出的概率。损失函数可以使用交叉熵损失或均方误差损失。具体的网络结构和参数设置需要根据实验结果进行调整。论文中可能还涉及一些数据增强或正则化技术,以提高模型的泛化能力。具体细节未知。
📊 实验亮点
实验结果表明,TERMINATOR在MATH-500、AIME 2025、HumanEval和GPQA四个具有挑战性的数据集上,平均实现了14%-55%的CoT长度减少,同时性能优于当前最先进的方法。这表明TERMINATOR能够有效地缓解LRM的过度思考问题,并在实际应用中具有显著的优势。
🎯 应用场景
该研究成果可广泛应用于需要大型语言模型进行复杂推理的场景,例如问答系统、代码生成、数学问题求解等。通过减少过度思考,可以显著降低计算成本,提高推理效率,并使得LRM在资源受限的环境中也能有效运行。未来,该方法可以进一步扩展到其他类型的推理任务和模型。
📄 摘要(原文)
Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.