Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

📄 arXiv: 2509.14093v1 📥 PDF

作者: Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia

分类: cs.SE, cs.AI, cs.CL

发布日期: 2025-09-17


💡 一句话要点

提出SEER框架,通过自适应压缩CoT推理链,提升LLM在软件工程任务中的效率和准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Chain-of-Thought 大型语言模型 自适应推理 软件工程 代码生成 效率优化 自增强学习

📋 核心要点

  1. 现有CoT推理方法在软件工程等任务中存在冗余推理导致计算成本高、易截断和准确率下降等问题。
  2. SEER框架通过Best-of-N采样和任务感知自适应过滤,动态压缩CoT推理链,降低计算开销。
  3. 实验表明,SEER在软件工程和数学任务中能有效缩短CoT长度,提高准确率,并减少无限循环。

📝 摘要(中文)

Chain-of-Thought (CoT) 推理通过引入中间步骤来增强大型语言模型 (LLM),从而提高在算术、逻辑和常识任务中的准确性和鲁棒性。然而,这种优势伴随着高昂的计算成本:更长的输出会增加延迟、内存使用和 KV-cache 需求。这些问题在需要简洁和确定性输出的软件工程任务中尤为关键。为了研究这些权衡,我们基于代码生成基准进行了实证研究。结果表明,更长的 CoT 并非总是有帮助。过度的推理通常会导致截断、准确性下降以及高达五倍的延迟,并且失败的输出始终比成功的输出更长。这些发现挑战了更长的推理本质上更好的假设,并强调了自适应 CoT 控制的必要性。受此启发,我们提出了 SEER(Self-Enhancing Efficient Reasoning),这是一个自适应框架,可以在保持准确性的同时压缩 CoT。SEER 结合了 Best-of-N 采样与任务感知自适应过滤,动态调整基于预推理输出的阈值,以减少冗长和计算开销。然后,我们在三个软件工程任务和一个数学任务上评估 SEER。平均而言,SEER 将 CoT 缩短了 42.1%,通过减少截断提高了准确性,并消除了大多数无限循环。这些结果表明,SEER 是一种实用的方法,可以使 CoT 增强的 LLM 更加高效和稳健,即使在资源受限的情况下也是如此。

🔬 方法详解

问题定义:论文旨在解决CoT推理在软件工程任务中效率低下的问题。现有方法依赖于较长的推理链,但实验表明过长的CoT会导致截断、准确率下降和延迟增加,尤其是在资源受限的环境下。因此,如何自适应地控制CoT的长度,在保证准确率的同时降低计算成本,是本文要解决的核心问题。

核心思路:SEER的核心思路是自适应地压缩CoT推理链。它通过预推理输出动态调整过滤阈值,从而减少冗余的推理步骤,降低计算开销。这种自适应性使得模型能够根据任务的复杂程度和资源限制,自动调整推理的详细程度。

技术框架:SEER框架主要包含两个阶段:Best-of-N采样和任务感知自适应过滤。首先,使用Best-of-N采样生成多个CoT推理链。然后,利用任务感知自适应过滤模块,根据预推理输出动态调整阈值,过滤掉冗余或不相关的推理步骤,从而压缩CoT推理链。最终,选择最优的压缩后的CoT推理链作为最终输出。

关键创新:SEER的关键创新在于其自适应的CoT压缩机制。与传统的固定长度CoT方法不同,SEER能够根据任务的特点和资源限制,动态调整CoT的长度,从而在准确率和效率之间取得平衡。此外,SEER还引入了任务感知的过滤机制,能够有效地识别和去除冗余的推理步骤。

关键设计:SEER的关键设计包括:1) Best-of-N采样策略,用于生成多个候选CoT推理链;2) 任务感知自适应过滤模块,该模块使用预推理输出作为输入,动态调整过滤阈值;3) 阈值调整策略,根据预推理输出的置信度或相关性,自适应地调整过滤阈值,以平衡准确率和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SEER框架在软件工程任务中能够平均缩短CoT长度42.1%,同时提高准确率,并有效减少无限循环的发生。通过与基线方法对比,SEER在代码生成任务上取得了显著的性能提升,证明了其在提高LLM推理效率和鲁棒性方面的有效性。

🎯 应用场景

SEER框架可应用于各种需要高效和准确推理的软件工程任务,例如代码生成、代码修复和程序理解。它能够降低LLM的计算成本,提高响应速度,并减少资源消耗,尤其适用于资源受限的边缘设备和移动应用。此外,该方法还可以推广到其他需要CoT推理的领域,例如数学问题求解和常识推理。

📄 摘要(原文)

Chain-of-Thought (CoT) reasoning enhances Large Language Models (LLMs) by prompting intermediate steps, improving accuracy and robustness in arithmetic, logic, and commonsense tasks. However, this benefit comes with high computational costs: longer outputs increase latency, memory usage, and KV-cache demands. These issues are especially critical in software engineering tasks where concise and deterministic outputs are required. To investigate these trade-offs, we conduct an empirical study based on code generation benchmarks. The results reveal that longer CoT does not always help. Excessive reasoning often causes truncation, accuracy drops, and latency up to five times higher, with failed outputs consistently longer than successful ones. These findings challenge the assumption that longer reasoning is inherently better and highlight the need for adaptive CoT control. Motivated by this, we propose SEER (Self-Enhancing Efficient Reasoning), an adaptive framework that compresses CoT while preserving accuracy. SEER combines Best-of-N sampling with task-aware adaptive filtering, dynamically adjusting thresholds based on pre-inference outputs to reduce verbosity and computational overhead. We then evaluate SEER on three software engineering tasks and one math task. On average, SEER shortens CoT by 42.1%, improves accuracy by reducing truncation, and eliminates most infinite loops. These results demonstrate SEER as a practical method to make CoT-enhanced LLMs more efficient and robust, even under resource constraints.