Early Stopping Chain-of-thoughts in Large Language Models
作者: Minjia Mao, Bowen Yin, Yu Zhu, Xiao Fang
分类: cs.CL
发布日期: 2025-09-17
💡 一句话要点
提出ES-CoT,通过提前停止CoT生成降低大语言模型推理成本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 思维链 推理优化 提前停止 答案收敛
📋 核心要点
- 推理型大语言模型通过生成长思维链解决复杂问题,但冗长的CoT导致高昂的推理成本。
- ES-CoT通过检测答案收敛程度,在保证性能的前提下,提前停止CoT生成,从而降低推理成本。
- 实验表明,ES-CoT平均减少约41%的推理token,同时保持与标准CoT相当的准确性,且对超参数不敏感。
📝 摘要(中文)
本文提出了一种名为ES-CoT的推理时方法,旨在通过检测答案收敛并提前停止生成,从而缩短大语言模型中思维链(CoT)的生成过程,同时最大限度地减少性能损失。在每个推理步骤结束时,该方法提示大语言模型输出其当前的最终答案,称为步骤答案。然后,跟踪连续相同步骤答案的运行长度,以此作为答案收敛的度量。一旦运行长度出现急剧增加并超过最小阈值,则终止生成。实验和理论均表明,步骤答案稳定地收敛到最终答案,并且大的运行长度跳跃可靠地标志着这种收敛。在三个大语言模型的五个推理数据集上的实验表明,ES-CoT平均减少了约41%的推理token数量,同时保持了与标准CoT相当的准确性。此外,ES-CoT与自洽性提示无缝集成,并且在超参数选择方面保持稳健,使其成为一种高效推理的实用有效方法。
🔬 方法详解
问题定义:现有的大语言模型在进行复杂推理时,通常采用思维链(Chain-of-Thoughts, CoT)方法,即逐步生成中间推理步骤,最终得到答案。然而,这种方法会产生很长的token序列,导致推理成本显著增加,尤其是在资源受限的场景下。因此,如何在保证推理准确性的前提下,减少CoT的长度,降低推理成本,是一个亟待解决的问题。
核心思路:ES-CoT的核心思路是观察到在CoT推理过程中,模型给出的中间答案会逐渐收敛到最终答案。通过监控中间答案的连续重复次数(运行长度),可以判断答案是否已经收敛。当运行长度超过一定阈值时,就可以认为模型已经找到了正确的答案,从而提前停止CoT的生成。这种方法的核心在于利用答案的收敛性来指导推理过程的提前终止。
技术框架:ES-CoT的整体流程如下: 1. CoT生成:使用标准CoT方法,让大语言模型逐步生成推理步骤。 2. 步骤答案提取:在每个推理步骤结束后,提示大语言模型输出其当前的最终答案(步骤答案)。 3. 运行长度跟踪:跟踪连续相同的步骤答案的运行长度。 4. 提前停止判断:当运行长度超过预设的最小阈值,并且出现显著的运行长度跳跃时,终止CoT生成。 5. 输出最终答案:将最后一次的步骤答案作为最终答案输出。
关键创新:ES-CoT的关键创新在于提出了一种基于答案收敛性的提前停止策略。与传统的CoT方法相比,ES-CoT不需要生成完整的CoT序列,而是在答案收敛时提前停止,从而显著降低了推理成本。与一些基于模型压缩或知识蒸馏的方法相比,ES-CoT是一种推理时方法,不需要额外的训练过程,可以直接应用于现有的CoT模型。
关键设计:ES-CoT的关键设计包括: 1. 运行长度阈值:需要设置一个最小的运行长度阈值,以避免过早停止。论文中提到ES-CoT对超参数不敏感,意味着该阈值可以在一定范围内调整。 2. 运行长度跳跃检测:通过检测运行长度的显著增加来判断答案是否已经收敛。具体的跳跃检测方法未知,可能涉及到对运行长度变化率的计算。 3. 步骤答案提取提示:需要设计合适的提示语,引导大语言模型在每个推理步骤后输出其当前的最终答案。提示语的设计可能会影响答案的收敛速度和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ES-CoT在五个推理数据集(包括GSM8K、SVAMP等)上,平均减少了约41%的推理token数量,同时保持了与标准CoT相当的准确性。此外,ES-CoT与自洽性提示(Self-Consistency Prompting)无缝集成,并且在超参数选择方面表现出较强的鲁棒性。这些结果表明,ES-CoT是一种实用且有效的CoT推理优化方法。
🎯 应用场景
ES-CoT可应用于各种需要大语言模型进行复杂推理的场景,例如问答系统、知识图谱推理、代码生成等。通过降低推理成本,ES-CoT使得大语言模型能够更高效地服务于资源受限的设备和应用,例如移动设备、边缘计算等。未来,ES-CoT可以与其他推理优化技术相结合,进一步提升大语言模型的推理效率。
📄 摘要(原文)
Reasoning large language models (LLMs) have demonstrated superior capacities in solving complicated problems by generating long chain-of-thoughts (CoT), but such a lengthy CoT incurs high inference costs. In this study, we introduce ES-CoT, an inference-time method that shortens CoT generation by detecting answer convergence and stopping early with minimal performance loss. At the end of each reasoning step, we prompt the LLM to output its current final answer, denoted as a step answer. We then track the run length of consecutive identical step answers as a measure of answer convergence. Once the run length exhibits a sharp increase and exceeds a minimum threshold, the generation is terminated. We provide both empirical and theoretical support for this heuristic: step answers steadily converge to the final answer, and large run-length jumps reliably mark this convergence. Experiments on five reasoning datasets across three LLMs show that ES-CoT reduces the number of inference tokens by about 41\% on average while maintaining accuracy comparable to standard CoT. Further, ES-CoT integrates seamlessly with self-consistency prompting and remains robust across hyperparameter choices, highlighting it as a practical and effective approach for efficient reasoning.