Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
作者: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
分类: cs.CL
发布日期: 2025-03-26 (更新: 2025-05-23)
备注: Technical report
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于模型融合的L2S推理方法,提升LLM推理效率并保持性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长短推理 模型融合 大语言模型 效率优化 知识整合
📋 核心要点
- 现有LLM在复杂任务中存在过度推理问题,导致效率降低,而监督微调和强化学习等方法成本高昂或不稳定。
- 论文提出通过模型融合,结合快速思考的System 1模型和系统推理的System 2模型,实现高效的长短推理(L2S)。
- 实验表明,模型融合能显著减少响应长度(高达55%),同时保持甚至提升性能,并发现模型规模与融合效果正相关。
📝 摘要(中文)
大型语言模型(LLM)从系统1到系统2推理的转变,显著提升了处理复杂任务的能力。然而,这种进步通常以效率为代价,模型倾向于过度思考,产生冗余的推理步骤,而输出质量并没有成比例地提高。长短推理(L2S)是一种有前景的解决方案,旨在平衡推理深度和实际效率。现有的方法,如监督微调(SFT)、强化学习(RL)和提示工程,虽然显示出潜力,但要么计算成本高昂,要么不稳定。模型融合提供了一种经济高效且稳健的替代方案,它将系统1模型的快速思考能力与系统2模型的系统推理能力相结合。本文对L2S推理的模型融合进行了全面的实证研究,探索了多种方法,包括基于任务向量、基于SVD和基于激活的融合。实验表明,模型融合可以减少高达55%的平均响应长度,同时保持甚至提高基线性能。我们还通过对1.5B/7B/14B/32B模型的广泛评估,确定了模型规模与融合效果之间的强相关性。此外,我们还研究了融合模型自我批评和自我纠正的能力,以及基于任务复杂性的自适应响应长度。我们的研究结果表明,模型融合是一种高效且有效的L2S推理范例,为过度思考问题提供了一种实用的解决方案,同时保持了系统2推理的稳健性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在复杂推理任务中存在的“过度思考”问题,即模型生成过多的冗余推理步骤,导致效率低下,但输出质量提升不明显。现有方法,如监督微调(SFT)和强化学习(RL),虽然可以优化推理过程,但计算成本高昂,训练不稳定,难以大规模应用。
核心思路:论文的核心思路是通过模型融合,将擅长快速、直觉式推理的“System 1”模型与擅长系统、深度推理的“System 2”模型结合起来。通过融合两种模型的优势,使LLM能够在保证推理质量的同时,减少不必要的推理步骤,从而提高整体效率。这种方法旨在模仿人类的思考方式,即在简单问题上快速给出答案,在复杂问题上进行深入思考。
技术框架:论文的技术框架主要包括以下几个步骤:1) 准备System 1和System 2模型;2) 选择合适的模型融合方法(如基于任务向量、基于SVD、基于激活信息等);3) 使用选定的方法对两个模型进行融合,得到融合后的模型;4) 在一系列推理任务上评估融合模型的性能,包括推理精度、响应长度等。框架的核心在于模型融合方法,不同的融合方法会影响最终模型的性能。
关键创新:论文的关键创新在于将模型融合技术应用于长短推理(L2S)问题,并系统地研究了不同模型融合方法的效果。与传统的微调或强化学习方法相比,模型融合具有成本低、稳定性高的优点。此外,论文还发现了模型规模与融合效果之间的正相关性,为未来更大规模模型的L2S推理提供了指导。
关键设计:论文探索了多种模型融合方法,包括:1) 基于任务向量的融合:通过计算特定任务的梯度向量,然后将这些向量加权融合到模型参数中;2) 基于SVD的融合:利用奇异值分解(SVD)提取模型参数的低秩表示,然后对这些低秩表示进行融合;3) 基于激活信息的融合:根据模型在不同任务上的激活模式,动态地调整模型参数。论文还研究了融合权重对模型性能的影响,并探索了自适应调整融合权重的方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型融合能够显著减少LLM的平均响应长度,最高可达55%,同时保持甚至提升基线性能。在不同规模的模型(1.5B/7B/14B/32B)上进行了广泛评估,发现模型规模越大,融合效果越明显。此外,融合后的模型还展现出一定的自我批评和自我纠正能力,以及基于任务复杂性自适应调整响应长度的能力。
🎯 应用场景
该研究成果可广泛应用于需要高效推理的LLM应用场景,如智能客服、自动问答、文本摘要、代码生成等。通过减少LLM的推理时间和计算资源消耗,可以降低部署成本,提高用户体验,并促进LLM在资源受限环境中的应用。此外,该方法还有助于提升LLM的可解释性和可控性。
📄 摘要(原文)
The transition from System 1 to System 2 reasoning in large language models (LLMs) has marked significant advancements in handling complex tasks through deliberate, iterative thinking. However, this progress often comes at the cost of efficiency, as models tend to overthink, generating redundant reasoning steps without proportional improvements in output quality. Long-to-Short (L2S) reasoning has emerged as a promising solution to this challenge, aiming to balance reasoning depth with practical efficiency. While existing approaches, such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt engineering, have shown potential, they are either computationally expensive or unstable. Model merging, on the other hand, offers a cost-effective and robust alternative by integrating the quick-thinking capabilities of System 1 models with the methodical reasoning of System 2 models. In this work, we present a comprehensive empirical study on model merging for L2S reasoning, exploring diverse methodologies, including task-vector-based, SVD-based, and activation-informed merging. Our experiments reveal that model merging can reduce average response length by up to 55% while preserving or even improving baseline performance. We also identify a strong correlation between model scale and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models. Furthermore, we investigate the merged model's ability to self-critique and self-correct, as well as its adaptive response length based on task complexity. Our findings highlight model merging as a highly efficient and effective paradigm for L2S reasoning, offering a practical solution to the overthinking problem while maintaining the robustness of System 2 reasoning. This work can be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.