CoT-Valve: Length-Compressible Chain-of-Thought Tuning

📄 arXiv: 2502.09601v1 📥 PDF

作者: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang

分类: cs.AI, cs.CL

发布日期: 2025-02-13

备注: Work in progress. Code will be released at https://github.com/horseee/CoT-Valve


💡 一句话要点

提出CoT-Valve,通过可控的思维链长度调整推理模型,降低推理成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 长度控制 模型微调 推理优化 参数空间 大语言模型 可压缩性

📋 核心要点

  1. 现有思维链推理模型计算开销大,推理过程冗长,难以适应不同难度的任务。
  2. CoT-Valve通过在模型参数空间中寻找特定方向,实现对生成思维链长度的有效控制。
  3. 实验表明,CoT-Valve能显著压缩推理链长度,同时保持或略微降低模型性能。

📝 摘要(中文)

思维链(Chain-of-Thought, CoT)显著增强了模型的推理能力,但同时也因链条过长而导致推理成本大幅增加。观察到推理路径在简单任务下易于压缩,而在困难任务下则不然,本文探索了仅使用一个模型弹性控制推理路径长度的可行性,从而根据任务难度动态降低推理模型的开销。为此,我们提出了一种新的微调和推理策略,名为CoT-Valve,旨在使模型能够生成不同长度的推理链。具体而言,我们提出在参数空间中识别一个方向,通过操纵该方向可以有效地控制生成的CoT的长度。此外,我们还表明,此属性对于压缩推理链很有价值。我们构建了针对相同问题的从长到短的链的数据集,并探索了两种增强的CoT-Valve策略:(1)一种精确的长度可压缩CoT微调方法,以及(2)一种渐进式链长度压缩方法。实验表明,CoT-Valve成功地实现了链的可控性和可压缩性,并且显示出比基于提示的控制更好的性能。我们将此方法应用于QwQ-32B-Preview,在GSM8K上将推理链从741个token减少到225个token,性能略有下降(95.07%降至94.92%),在AIME上从6827个token减少到4629个token,仅增加了一个错误答案。

🔬 方法详解

问题定义:现有基于思维链(CoT)的大语言模型在推理时,会生成较长的推理链,导致计算成本高昂。尤其是在处理简单问题时,过长的推理链显得冗余。因此,如何根据任务难度动态调整推理链的长度,降低推理开销,是本文要解决的核心问题。

核心思路:本文的核心思路是,通过微调模型参数,找到一个参数空间中的“阀门”(Valve),通过控制这个“阀门”的开合程度,来调节模型生成的思维链的长度。具体来说,就是找到一个参数方向,沿着这个方向调整参数,可以有效地控制CoT的长度。这样,模型就可以根据任务的难易程度,生成不同长度的推理链。

技术框架:CoT-Valve的整体框架包含两个主要阶段:微调阶段和推理阶段。在微调阶段,首先构建包含不同长度推理链的数据集。然后,通过特定的微调策略,训练模型学习控制推理链长度的能力。在推理阶段,根据任务的难度,调整“阀门”的开合程度,控制模型生成相应长度的推理链。

关键创新:CoT-Valve的关键创新在于,它提出了一种新的微调和推理策略,通过在参数空间中寻找特定方向来控制思维链的长度。与传统的基于Prompt的方法相比,CoT-Valve直接在模型参数层面进行控制,更加灵活和有效。此外,论文还提出了两种增强的CoT-Valve策略,进一步提升了模型的可控性和可压缩性。

关键设计:CoT-Valve的关键设计包括:1)构建包含不同长度推理链的数据集,用于微调模型;2)设计精确的长度可压缩CoT微调方法,使模型能够学习到不同长度推理链的生成模式;3)设计渐进式链长度压缩方法,逐步缩短推理链的长度,提高压缩效率。具体的参数设置和损失函数等细节,论文中未明确给出,属于未知内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoT-Valve在GSM8K和AIME数据集上取得了显著的压缩效果。在GSM8K上,推理链从741个token减少到225个token,性能仅下降0.15%(95.07%到94.92%)。在AIME上,推理链从6827个token减少到4629个token,仅增加了一个错误答案。实验结果表明,CoT-Valve能够有效地压缩推理链长度,同时保持较高的模型性能。

🎯 应用场景

CoT-Valve具有广泛的应用前景,可用于优化各种基于思维链的大语言模型,尤其是在资源受限的场景下,如移动设备或边缘计算环境。通过动态调整推理链长度,可以显著降低计算成本,提高推理效率。此外,该方法还可以应用于教育领域,帮助学生逐步掌握推理技巧。

📄 摘要(原文)

Chain-of-Thought significantly enhances a model's reasoning capability, but it also comes with a considerable increase in inference costs due to long chains. With the observation that the reasoning path can be easily compressed under easy tasks but struggle on hard tasks, we explore the feasibility of elastically controlling the length of reasoning paths with only one model, thereby reducing the inference overhead of reasoning models dynamically based on task difficulty. We introduce a new tuning and inference strategy named CoT-Valve, designed to allow models to generate reasoning chains of varying lengths. To achieve this, we propose to identify a direction in the parameter space that, when manipulated, can effectively control the length of generated CoT. Moreover, we show that this property is valuable for compressing the reasoning chain. We construct datasets with chains from long to short for the same questions and explore two enhanced strategies for CoT-Valve: (1) a precise length-compressible CoT tuning method, and (2) a progressive chain length compression approach. Our experiments show that CoT-Valve successfully enables controllability and compressibility of the chain and shows better performance than the prompt-based control. We applied this method to QwQ-32B-Preview, reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with only one additional incorrect answer.