Early Stopping Chain-of-thoughts in Large Language Models
作者: Minjia Mao, Bowen Yin, Yu Zhu, Xiao Fang
分类: cs.CL
发布日期: 2025-09-17
💡 一句话要点
提出ES-CoT,通过提前停止CoT生成降低大语言模型推理成本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 思维链 推理加速 提前停止 答案收敛
📋 核心要点
- 现有CoT推理方法生成冗长的推理链,导致大语言模型推理成本高昂,效率低下。
- ES-CoT通过监控推理过程中答案的收敛情况,在答案趋于稳定时提前停止生成,从而缩短推理链。
- 实验表明,ES-CoT在保持准确率的同时,平均减少了约41%的推理token数量,显著提升了推理效率。
📝 摘要(中文)
本文提出了一种名为ES-CoT的推理时方法,旨在通过检测答案收敛并提前停止生成,从而缩短大语言模型中思维链(CoT)的生成过程,同时最大限度地减少性能损失。在每个推理步骤结束时,该方法提示大语言模型输出其当前的最终答案,称为步答案。然后,跟踪连续相同步答案的运行长度,以此作为答案收敛的度量。一旦运行长度出现急剧增加并超过最小阈值,则终止生成。我们为这种启发式方法提供了经验和理论支持:步答案稳定地收敛到最终答案,并且大的运行长度跳跃可靠地标志着这种收敛。在三个大语言模型的五个推理数据集上的实验表明,ES-CoT平均减少了约41%的推理token数量,同时保持了与标准CoT相当的准确性。此外,ES-CoT与自洽性提示无缝集成,并在超参数选择中保持稳健性,突显了其作为一种高效推理的实用有效方法。
🔬 方法详解
问题定义:现有的大语言模型通过生成思维链(CoT)来解决复杂问题,但CoT的长度直接影响推理成本。过长的CoT会导致不必要的计算开销,降低推理效率。因此,如何在保证推理性能的前提下,减少CoT的长度,降低推理成本,是一个重要的研究问题。
核心思路:ES-CoT的核心思路是观察到在CoT推理过程中,模型给出的中间答案会逐渐收敛到最终答案。通过监控中间答案的连续重复次数(运行长度),可以判断答案是否已经收敛。当运行长度超过一定阈值时,认为答案已经稳定,可以提前停止推理。
技术框架:ES-CoT的整体流程如下: 1. CoT生成:使用大语言模型生成CoT,每一步生成一个推理步骤。 2. 步答案提取:在每个推理步骤结束后,提示大语言模型输出其当前的最终答案(步答案)。 3. 运行长度计算:计算连续相同步答案的运行长度。 4. 提前停止判断:如果运行长度超过预设的最小阈值,则终止CoT生成,并将当前步答案作为最终答案。 5. 输出最终答案:输出最终答案。
关键创新:ES-CoT的关键创新在于提出了一种基于答案收敛的提前停止策略。与传统的CoT方法相比,ES-CoT不需要生成完整的CoT,而是在答案趋于稳定时提前停止,从而节省了计算资源。与一些需要额外训练的提前停止方法不同,ES-CoT是一种推理时方法,不需要额外的训练数据。
关键设计:ES-CoT的关键设计包括: 1. 步答案提取方式:通过特定的prompt来引导LLM输出当前步的答案。 2. 运行长度阈值:需要设置一个最小运行长度阈值,以避免过早停止推理。论文中提到ES-CoT对超参数选择具有鲁棒性,因此阈值的选择可能不是非常敏感。 3. 运行长度跳跃检测:论文提到运行长度的急剧增加是答案收敛的可靠标志,具体如何检测“急剧增加”可能需要进一步研究。
📊 实验亮点
实验结果表明,ES-CoT在五个推理数据集和三个大语言模型上均取得了显著的效果。平均而言,ES-CoT减少了约41%的推理token数量,同时保持了与标准CoT相当的准确性。此外,ES-CoT与自洽性提示无缝集成,并在超参数选择中表现出鲁棒性。这些结果表明,ES-CoT是一种实用且有效的CoT推理加速方法。
🎯 应用场景
ES-CoT可应用于各种需要大语言模型进行复杂推理的场景,例如问答系统、知识图谱推理、代码生成等。通过降低推理成本,ES-CoT可以使大语言模型在资源受限的环境中更高效地运行,并促进大语言模型在实际应用中的普及。该方法尤其适用于对推理延迟敏感的应用场景。
📄 摘要(原文)
Reasoning large language models (LLMs) have demonstrated superior capacities in solving complicated problems by generating long chain-of-thoughts (CoT), but such a lengthy CoT incurs high inference costs. In this study, we introduce ES-CoT, an inference-time method that shortens CoT generation by detecting answer convergence and stopping early with minimal performance loss. At the end of each reasoning step, we prompt the LLM to output its current final answer, denoted as a step answer. We then track the run length of consecutive identical step answers as a measure of answer convergence. Once the run length exhibits a sharp increase and exceeds a minimum threshold, the generation is terminated. We provide both empirical and theoretical support for this heuristic: step answers steadily converge to the final answer, and large run-length jumps reliably mark this convergence. Experiments on five reasoning datasets across three LLMs show that ES-CoT reduces the number of inference tokens by about 41\% on average while maintaining accuracy comparable to standard CoT. Further, ES-CoT integrates seamlessly with self-consistency prompting and remains robust across hyperparameter choices, highlighting it as a practical and effective approach for efficient reasoning.