From Long to Lean: Performance-aware and Adaptive Chain-of-Thought Compression via Multi-round Refinement

📄 arXiv: 2509.22144v1 📥 PDF

作者: Jianzhi Yan, Le Liu, Youcheng Pan, Shiwei Chen, Zike Yuan, Yang Xiang, Buzhou Tang

分类: cs.CL, cs.AI

发布日期: 2025-09-26

备注: 17 pages, 8 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出MACC框架,通过多轮细化自适应压缩CoT,提升推理效率与准确率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Chain-of-Thought CoT压缩 多轮细化 自适应压缩 token弹性 性能预测 推理效率

📋 核心要点

  1. CoT推理虽提升复杂任务性能,但其冗长性导致推理延迟增加,成为实际应用的瓶颈。
  2. MACC框架通过多轮细化自适应压缩CoT,利用token弹性现象优化压缩深度,提升效率。
  3. 实验表明,MACC在准确率上优于现有方法,显著降低CoT长度和推理延迟,且性能可预测。

📝 摘要(中文)

Chain-of-Thought (CoT) 推理在复杂任务上表现出色,但由于其冗长性导致推理延迟显著。本文提出多轮自适应Chain-of-Thought压缩(MACC)框架,该框架利用token弹性现象(即过小的token预算反而会增加输出长度)通过多轮细化逐步压缩CoT。这种自适应策略使MACC能够确定每个输入的最佳压缩深度。实验结果表明,MACC在平均准确率上优于最先进的基线5.6%,同时平均减少CoT长度47个token,并显著降低延迟。此外,研究表明可以使用可解释的特征(如困惑度和训练集上的压缩率)可靠地预测测试时的性能(准确率和token长度)。在不同模型上的评估表明,该方法无需重复微调即可实现高效的模型选择和预测,证明CoT压缩既有效又可预测。代码将在https://github.com/Leon221220/MACC 上发布。

🔬 方法详解

问题定义:论文旨在解决Chain-of-Thought (CoT) 推理中由于冗长性导致的推理延迟问题。现有的CoT方法虽然提高了复杂任务的性能,但其过长的推理链显著增加了计算成本和延迟,限制了其在实际应用中的部署。

核心思路:论文的核心思路是通过多轮迭代的方式,逐步压缩CoT的长度,同时保持或提升推理的准确性。关键在于利用“token弹性”现象,即过度压缩反而可能导致模型生成更长的输出。因此,需要自适应地控制压缩的程度,找到最佳的压缩深度。

技术框架:MACC框架包含以下主要阶段:1) 初始CoT生成:使用原始的CoT方法生成初始的推理链。2) 多轮压缩:通过限制token数量,对CoT进行多轮压缩。每一轮压缩都基于上一轮的结果进行细化。3) 自适应调整:根据token弹性现象,动态调整每一轮的压缩程度,避免过度压缩。4) 性能预测:利用训练集上的困惑度和压缩率等特征,预测测试集上的性能,用于模型选择和预测。

关键创新:MACC的关键创新在于其自适应的压缩策略和多轮细化的方法。与传统的单次压缩方法不同,MACC能够根据输入数据的特点,动态调整压缩的深度,从而在准确性和效率之间取得更好的平衡。此外,利用可解释的特征进行性能预测,避免了重复微调的成本。

关键设计:MACC的关键设计包括:1) Token预算的动态调整:根据token弹性现象,设计自适应的token预算调整策略。2) 多轮压缩的迭代次数:通过实验确定最佳的迭代次数,以避免过度压缩或压缩不足。3) 性能预测模型的选择:选择合适的模型(如线性回归)来预测测试集上的性能,并利用困惑度和压缩率等特征进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MACC在多个数据集上进行了评估,结果表明其在平均准确率上优于最先进的基线5.6%,同时平均减少CoT长度47个token,并显著降低延迟。例如,在某些数据集上,MACC可以将推理速度提高2倍以上,同时保持或提升准确率。此外,实验还验证了使用困惑度和压缩率等特征预测测试集性能的有效性。

🎯 应用场景

MACC框架可应用于各种需要高效推理的场景,例如智能客服、自动问答系统、代码生成等。通过压缩CoT的长度,可以显著降低推理延迟,提高用户体验。此外,MACC的性能预测能力可以帮助用户选择合适的模型,降低部署成本。未来,该方法可以进一步扩展到其他类型的推理任务和模型。

📄 摘要(原文)

Chain-of-Thought (CoT) reasoning improves performance on complex tasks but introduces significant inference latency due to verbosity. We propose Multiround Adaptive Chain-of-Thought Compression (MACC), a framework that leverages the token elasticity phenomenon--where overly small token budgets can paradoxically increase output length--to progressively compress CoTs via multiround refinement. This adaptive strategy allows MACC to determine the optimal compression depth for each input. Our method achieves an average accuracy improvement of 5.6 percent over state-of-the-art baselines, while also reducing CoT length by an average of 47 tokens and significantly lowering latency. Furthermore, we show that test-time performance--accuracy and token length--can be reliably predicted using interpretable features like perplexity and compression rate on the training set. Evaluated across different models, our method enables efficient model selection and forecasting without repeated fine-tuning, demonstrating that CoT compression is both effective and predictable. Our code will be released in https://github.com/Leon221220/MACC.