Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

📄 arXiv: 2509.01363v1 📥 PDF

作者: Mohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem

分类: cs.CL

发布日期: 2025-09-01

备注: Under Review


💡 一句话要点

提出基于任务算术的推理向量迁移方法,提升大语言模型的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推理向量 任务算术 迁移学习 大语言模型 强化学习

📋 核心要点

  1. 现有大语言模型推理能力依赖昂贵的强化学习优化,成本高昂,且难以复用。
  2. 通过SFT和GRPO模型参数之差提取推理向量,该向量可迁移至其他模型,提升推理能力。
  3. 实验表明,推理向量在多个推理基准测试中显著提升性能,且在对抗条件下依然有效。

📝 摘要(中文)

大型语言模型通常需要昂贵的优化,例如强化学习,才能掌握复杂的推理任务。本文证明,推理能力一旦被学习,就可以作为紧凑的任务向量在模型之间提取和转移。我们使用了两个公开可用的、相同初始化的Qwen2.5模型,一个通过监督微调(SFT)进行微调,另一个通过组相对策略优化(GRPO)在相同数据集上进行微调。由此,我们提取了一个推理向量:$v_{ ext{reason}} = θ_{ ext{GRPO}} - θ_{ ext{SFT}}$。我们假设这个向量捕捉了强化学习所赋予的推理能力,同时剔除了SFT过程中的共享知识。当通过简单的算术将其添加到兼容的指令调整模型时,这个向量始终如一地提高了各种推理基准测试的性能:GSM8K (+4.9%),HumanEval (+4.3%),SciQ (+1.7%),以及BigBenchHard(1.5B模型为+12.3%)。性能提升在对抗条件下仍然存在。相反,减去该向量会导致显著的性能下降(GSM8K上为-11.8%),表明该向量对模型的推理能力有很强的贡献。这项工作表明,通常通过昂贵的训练开发的推理能力,可以从现有的开源模型中提取出来,并通过简单的张量算术重用,从而提供了一种通过回收先前的计算投资来增强模型的实用方法。

🔬 方法详解

问题定义:现有的大语言模型在复杂推理任务上表现不佳,通常需要耗费大量计算资源的强化学习进行优化。然而,这种优化过程成本高昂,且学习到的推理能力难以在不同模型之间迁移和复用。因此,如何以更高效的方式提升模型的推理能力,并实现推理能力的迁移,是一个重要的研究问题。

核心思路:论文的核心思路是从已经具备较强推理能力的模型中提取出“推理向量”,该向量代表了模型在推理能力方面的知识增量。通过简单的向量加法或减法,可以将该推理向量添加到其他模型中,从而提升其推理能力,或者降低其推理能力。这种方法避免了从头开始训练模型的需要,大大降低了计算成本。

技术框架:该方法主要包含以下几个步骤:1) 使用相同的初始化参数训练两个模型,一个使用监督微调(SFT),另一个使用组相对策略优化(GRPO)。GRPO模型通常具有更强的推理能力。2) 计算两个模型参数的差值,得到推理向量:$v_{ ext{reason}} = θ_{ ext{GRPO}} - θ_{ ext{SFT}}$。3) 将推理向量添加到其他指令调整模型中,或者从其他指令调整模型中减去推理向量,以提升或降低其推理能力。

关键创新:该方法最重要的创新点在于提出了“推理向量”的概念,并证明了推理能力可以通过简单的参数算术进行迁移。这种方法避免了传统的从头开始训练或微调模型的方式,大大降低了计算成本,并实现了推理能力的复用。

关键设计:关键的设计在于使用SFT模型作为基线,并通过GRPO模型学习推理能力。SFT模型可以学习到通用的知识,而GRPO模型则可以学习到更强的推理能力。通过计算两个模型参数的差值,可以提取出专门用于提升推理能力的向量。此外,论文还验证了推理向量在不同模型和不同任务上的有效性,以及在对抗条件下的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过添加推理向量,模型在GSM8K、HumanEval、SciQ和BigBenchHard等多个推理基准测试中取得了显著的性能提升,分别达到+4.9%、+4.3%、+1.7%和+12.3%(1.5B模型)。相反,减去推理向量会导致GSM8K性能下降-11.8%。这些结果表明,该方法能够有效地迁移推理能力,并显著提升模型的推理性能。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的自然语言处理任务中,例如数学问题求解、代码生成、科学推理等。通过迁移推理向量,可以快速提升现有模型的推理性能,降低开发成本,加速相关应用的落地。此外,该方法还可以用于分析不同训练方法对模型推理能力的影响,为模型训练提供指导。

📄 摘要(原文)

Large language models often require costly optimization, such as reinforcement learning, to master complex reasoning tasks. This work demonstrates that reasoning ability, once learned, can be extracted and transferred between models as a compact task vector. We source two publicly available, identically initialized Qwen2.5 models, one fine-tuned with supervised fine-tuning (SFT) and the other with group relative policy optimization (GRPO) on the same dataset. From these, we extract a reasoning vector: $v_{\text{reason}} = θ_{\text{GRPO}} - θ_{\text{SFT}}$. We hypothesize that this vector captures the reasoning capability instilled by reinforcement learning while factoring out shared knowledge from the SFT process. When added to compatible instruction-tuned models through simple arithmetic, this vector consistently improves performance across diverse reasoning benchmarks: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%), and BigBenchHard (+12.3% for the 1.5B model). The performance improvements persist under adversarial conditions. Conversely, subtracting the vector causes significant performance degradation (-11.8% on GSM8K), demonstrating the vector's strong contribution to the model's reasoning abilities. This work shows how reasoning capabilities, typically developed through expensive training, can be extracted from existing open-source models and reused through simple tensor arithmetic, offering a practical way to enhance models by recycling prior computational investments.