Activation Steering for Chain-of-Thought Compression
作者: Seyedarmin Azizi, Erfan Baghaei Potraghloo, Massoud Pedram
分类: cs.AI, cs.LG
发布日期: 2025-07-07 (更新: 2025-07-08)
🔗 代码/项目: GITHUB
💡 一句话要点
提出激活引导压缩(ASC),通过注入引导向量压缩CoT推理链,提升LLM推理效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 思维链 推理压缩 激活引导 免训练方法
📋 核心要点
- 现有LLM的CoT推理过程冗长,造成资源浪费和延迟增加,限制了其在实际场景中的应用。
- 论文提出激活引导压缩(ASC)方法,通过在激活空间中注入引导向量,使LLM生成更简洁的推理链。
- 实验表明,ASC在保持准确率的同时,显著缩短CoT长度,并加速推理过程,无需重新训练。
📝 摘要(中文)
大型语言模型(LLM)在包含中间步骤(即“思维链”(CoT))时,擅长复杂的推理。然而,即使对于简单的问题,这些推理过程也常常过于冗长,导致上下文浪费、延迟增加和能耗升高。我们观察到,冗长的、以英语为主的CoT和简洁的、以数学为主的CoT在模型的残差流激活空间中占据不同的区域。通过提取和注入一个“引导向量”来在这些模式之间转换,我们可以可靠地将生成过程转移到更简洁的推理,从而有效地压缩CoT,而无需重新训练。我们将这种方法形式化为激活引导压缩(ASC),这是一种推理时技术,通过直接修改隐藏表示来缩短推理轨迹。此外,我们还提供了ASC对输出分布影响的理论分析,该分析源自一个闭式KL散度约束,用于调节引导强度。仅使用100个配对的冗长和简洁的示例,ASC在MATH500和GSM8K数据集上实现了高达67.43%的CoT长度缩减,同时保持了7B、8B和32B参数模型的准确性。作为一种免训练方法,ASC引入的运行时开销可以忽略不计,并且在MATH500上,在8B模型上实现了平均2.73倍的端到端推理挂钟时间加速。这使得ASC成为在延迟或成本敏感的环境中简化具有推理能力的LLM部署的实用且高效的工具。代码可在https://github.com/ArminAzizi98/ASC 获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在进行思维链(CoT)推理时,推理过程过于冗长的问题。现有的CoT方法虽然能够提高LLM的推理能力,但其生成的推理步骤往往包含大量冗余信息,导致计算资源浪费、推理延迟增加,并且限制了LLM在对延迟敏感或资源受限场景中的应用。
核心思路:论文的核心思路是观察到不同风格(冗长 vs. 简洁)的CoT推理过程在LLM的激活空间中占据不同的区域。因此,可以通过学习一个“引导向量”,并在推理过程中将LLM的激活状态引导到更简洁的CoT区域,从而实现CoT的压缩。这种方法无需重新训练模型,仅在推理阶段进行干预,具有很高的效率和实用性。
技术框架:ASC方法主要包含以下几个步骤:1) 收集少量配对的冗长CoT和简洁CoT样本;2) 从这些样本中学习一个引导向量,该向量代表了从冗长CoT激活空间到简洁CoT激活空间的转换方向;3) 在推理过程中,将该引导向量注入到LLM的隐藏层激活中,从而引导LLM生成更简洁的CoT推理链。为了控制引导强度,论文还提出了基于KL散度的约束,以避免过度引导导致性能下降。
关键创新:ASC方法的关键创新在于:1) 提出了一种免训练的CoT压缩方法,避免了重新训练LLM的巨大成本;2) 通过在激活空间中进行引导,实现了对CoT推理过程的细粒度控制;3) 提出了基于KL散度的引导强度约束,保证了压缩后的CoT推理的准确性。与现有方法相比,ASC更加高效、灵活,并且易于部署。
关键设计:ASC的关键设计包括:1) 引导向量的学习:通过计算配对的冗长CoT和简洁CoT样本在特定层激活向量的差值,然后进行平均得到引导向量。2) 引导强度的控制:使用KL散度来衡量引导前后输出分布的变化,并设置一个阈值来约束引导强度,避免过度引导。3) 引导位置的选择:实验中发现,在Transformer模型的中间层进行引导效果最好。论文还探索了不同的引导策略,例如在所有层进行引导,但效果不如在特定层进行引导。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ASC方法在MATH500和GSM8K数据集上实现了高达67.43%的CoT长度缩减,同时保持了7B、8B和32B参数模型的准确性。在MATH500数据集上,ASC在8B模型上实现了平均2.73倍的端到端推理挂钟时间加速。这些结果表明,ASC是一种高效且实用的CoT压缩方法,可以显著提高LLM的推理效率。
🎯 应用场景
ASC方法可应用于各种需要LLM进行复杂推理的场景,尤其是在延迟敏感或资源受限的环境中,例如移动设备上的智能助手、边缘计算设备上的实时决策系统等。通过压缩CoT推理链,ASC可以显著降低计算成本和延迟,提高LLM的实用性。此外,该方法还可以用于提高LLM的可解释性,通过分析引导向量,可以了解LLM在进行推理时的关键步骤和决策过程。
📄 摘要(原文)
Large language models (LLMs) excel at complex reasoning when they include intermediate steps, known as "chains of thought" (CoTs). However, these rationales are often overly verbose, even for simple problems, leading to wasted context, increased latency, and higher energy consumption. We observe that verbose, English-heavy CoTs and concise, math-centric CoTs occupy distinct regions in the model's residual-stream activation space. By extracting and injecting a "steering vector" to transition between these modes, we can reliably shift generation toward more concise reasoning, effectively compressing CoTs without retraining. We formalize this approach as Activation-Steered Compression (ASC), an inference-time technique that shortens reasoning traces by directly modifying hidden representations. In addition, we provide a theoretical analysis of the impact of ASC on the output distribution, derived from a closed-form KL-divergence-bounded constraint to regulate steering strength. Using only 100 paired verbose and concise examples, ASC achieves up to 67.43% reduction in CoT length on MATH500 and GSM8K datasets, while maintaining accuracy across 7B, 8B, and 32B parameter models. As a training-free method, ASC introduces negligible runtime overhead and, on MATH500, delivers an average 2.73x speedup in end-to-end reasoning wall-clock time on an 8B model. This makes ASC a practical and efficient tool for streamlining the deployment of reasoning-capable LLMs in latency- or cost-sensitive settings. The code is available at: https://github.com/ArminAzizi98/ASC