Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping

📄 arXiv: 2505.08392v2 📥 PDF

作者: Ren Zhuang, Ben Wang, Shuifa Sun

分类: cs.CL, cs.AI

发布日期: 2025-05-13 (更新: 2025-05-17)


💡 一句话要点

提出Adaptive GoGI-Skip框架,通过动态跳过实现高效的CoT推理加速。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 CoT压缩 目标梯度重要性 动态跳过 模型加速

📋 核心要点

  1. 现有CoT压缩方法依赖通用指标和静态压缩率,无法有效识别关键token并适应推理复杂性。
  2. Adaptive GoGI-Skip通过目标梯度重要性(GoGI)和自适应动态跳过(ADS)实现动态CoT压缩。
  3. 实验表明,该方法在多种推理任务上显著提升效率,同时保持甚至提升了推理准确性。

📝 摘要(中文)

大型语言模型利用思维链(CoT)提示来处理复杂任务,但其推理过程通常过于冗长和低效,导致显著的计算成本和延迟。现有的CoT压缩技术通常依赖于通用的重要性指标和静态压缩率,这可能会无意中删除功能上关键的token,或者无法适应变化的推理复杂度。为了克服这些限制,我们提出了Adaptive GoGI-Skip,这是一个通过监督微调学习动态CoT压缩的新框架。该方法引入了两项协同创新:(1)目标梯度重要性(GoGI),一种通过测量中间表示对最终答案损失的梯度影响来准确识别功能相关token的新指标;(2)自适应动态跳过(ADS),一种基于运行时模型不确定性动态调节压缩率,同时通过自适应N-token约束确保局部连贯性的机制。据我们所知,这是第一个将面向目标的、基于梯度的重要性指标与动态的、感知不确定性的跳过相结合用于CoT压缩的工作。在压缩的MATH数据上训练后,Adaptive GoGI-Skip在包括AIME、GPQA和GSM8K在内的各种推理基准上表现出强大的跨领域泛化能力。它实现了显著的效率提升——平均减少超过45%的CoT token数量,并提供1.6-2.0倍的推理加速——同时保持了较高的推理准确性。值得注意的是,即使在高有效压缩率下,它也能显著优于现有的基线,从而提高了CoT推理效率-准确性权衡的水平。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中思维链(CoT)推理过程冗长、效率低下的问题。现有CoT压缩方法的痛点在于,它们使用通用重要性指标和静态压缩率,无法准确识别并保留对最终答案至关重要的token,也无法根据推理过程的复杂程度动态调整压缩策略,导致性能下降。

核心思路:论文的核心思路是利用目标梯度信息来衡量token的重要性,并结合模型的不确定性来动态调整压缩率。通过这种方式,可以更精确地保留关键信息,并在保证推理准确性的前提下,最大限度地减少token数量,从而提高推理效率。

技术框架:Adaptive GoGI-Skip框架主要包含两个核心模块:目标梯度重要性(GoGI)计算模块和自适应动态跳过(ADS)模块。首先,GoGI模块计算每个token的中间表示对最终答案损失的梯度影响,以此作为token重要性的度量。然后,ADS模块根据模型在运行时的不确定性动态调整压缩率,并使用自适应N-token约束来保证局部连贯性。整个框架通过监督微调进行训练,以学习最佳的压缩策略。

关键创新:该论文最重要的技术创新在于将目标梯度重要性与动态跳过机制相结合。GoGI提供了一种更准确的token重要性评估方法,而ADS则允许根据推理过程的复杂程度动态调整压缩率。这种结合使得Adaptive GoGI-Skip能够在保证推理准确性的前提下,实现更高的压缩率和更快的推理速度。与现有方法相比,它不再依赖于通用的重要性指标和静态的压缩率,而是能够根据具体任务和模型的行为进行自适应调整。

关键设计:GoGI的关键设计在于使用梯度来衡量token的重要性,这比传统的基于频率或注意力的指标更直接地反映了token对最终答案的影响。ADS的关键设计在于使用模型的不确定性来动态调整压缩率,并使用自适应N-token约束来保证局部连贯性。具体来说,模型的不确定性可以通过预测概率的熵来衡量,而N-token约束则保证在跳过token时,不会跳过连续的N个token,从而避免破坏推理过程的连贯性。损失函数通常包括一个交叉熵损失,用于保证压缩后的CoT仍然能够得到正确的答案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Adaptive GoGI-Skip在多个推理基准测试中表现出色,平均减少超过45%的CoT token数量,并实现1.6-2.0倍的推理加速,同时保持甚至提升了推理准确性。在高压缩率下,其性能显著优于现有基线,表明其在效率和准确性之间取得了更好的平衡。

🎯 应用场景

该研究成果可广泛应用于需要高效推理的大型语言模型应用中,例如智能客服、自动问答系统、机器翻译等。通过降低计算成本和延迟,可以提升用户体验,并降低部署和维护成本。未来,该方法可以进一步扩展到其他类型的序列数据压缩任务中。

📄 摘要(原文)

Large Language Models leverage Chain-of-Thought (CoT) prompting for complex tasks, but their reasoning traces are often excessively verbose and inefficient, leading to significant computational costs and latency. Current CoT compression techniques typically rely on generic importance metrics and static compression rates, which may inadvertently remove functionally critical tokens or fail to adapt to varying reasoning complexity. To overcome these limitations, we propose Adaptive GoGI-Skip, a novel framework learning dynamic CoT compression via supervised fine-tuning. This approach introduces two synergistic innovations: (1) Goal-Gradient Importance (GoGI), a novel metric accurately identifying functionally relevant tokens by measuring the gradient influence of their intermediate representations on the final answer loss, and (2) Adaptive Dynamic Skipping (ADS), a mechanism dynamically regulating the compression rate based on runtime model uncertainty while ensuring local coherence through an adaptive N-token constraint. To our knowledge, this is the first work unifying a goal-oriented, gradient-based importance metric with dynamic, uncertainty-aware skipping for CoT compression. Trained on compressed MATH data, Adaptive GoGI-Skip demonstrates strong cross-domain generalization across diverse reasoning benchmarks including AIME, GPQA, and GSM8K. It achieves substantial efficiency gains - reducing CoT token counts by over 45% on average and delivering 1.6-2.0 times inference speedups - while maintaining high reasoning accuracy. Notably, it significantly outperforms existing baselines by preserving accuracy even at high effective compression rates, advancing the state of the art in the CoT reasoning efficiency-accuracy trade-off.