ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

📄 arXiv: 2601.05560v1 📥 PDF

作者: Junyao Yang, Chen Qian, Dongrui Liu, Wen Shen, Yong Liu, Jing Shao

分类: cs.CL, cs.AI

发布日期: 2026-01-09

备注: 22 pages, 6 figures, 14 tables


💡 一句话要点

ReasonAny:通过模型融合为任意模型注入推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 推理能力 领域模型 梯度敏感性 对比学习

📋 核心要点

  1. 现有模型融合方法在为领域模型增加推理能力时,存在推理能力下降和领域性能受损的问题。
  2. ReasonAny通过对比梯度识别,发现推理能力主要存在于梯度敏感性低的参数区域,从而避免性能冲突。
  3. 实验表明,ReasonAny在安全、生物医学和金融领域均优于现有方法,有效提升了领域模型的推理能力。

📝 摘要(中文)

大型推理模型(LRMs)在长链思维推理方面取得了显著成功。然而,为领域专用模型赋予这种推理能力(即“推理+X”)仍然是一个重大挑战。模型融合提供了一种有希望的免训练解决方案,但现有方法常常遭受破坏性的性能崩溃:既削弱了推理深度,又损害了领域特定效用。有趣的是,我们发现这种失败背后存在一个违反直觉的现象:推理能力主要存在于梯度敏感性低的参数区域,这与领域能力对应于高幅度参数的普遍假设相反。受此启发,我们提出了ReasonAny,一种新颖的融合框架,通过对比梯度识别来解决推理-领域性能崩溃问题。在安全、生物医学和金融领域的实验表明,ReasonAny有效地合成了“推理+X”能力,显著优于最先进的基线,同时保持了强大的推理性能。

🔬 方法详解

问题定义:论文旨在解决如何将大型推理模型(LRMs)的推理能力有效地迁移到领域专用模型(“推理+X”)的问题。现有模型融合方法在尝试将LRM与领域模型融合时,往往会导致性能崩溃,既削弱了推理能力,又损害了领域模型的原有性能。这种性能冲突的根本原因是现有方法未能区分推理能力和领域能力在模型参数中的不同分布特征。

核心思路:论文的核心思路是基于一个反直觉的发现:推理能力主要存在于参数梯度敏感性低的区域,而领域能力可能对应于梯度敏感性高的区域。因此,在模型融合时,应该有选择性地保留LRM中梯度敏感性低的参数,同时保留领域模型中重要的参数,从而避免推理能力和领域能力的相互干扰。

技术框架:ReasonAny框架主要包含以下几个步骤:1) 梯度敏感性分析:对LRM和领域模型进行梯度敏感性分析,识别出各自梯度敏感性低的参数区域。2) 对比梯度识别:通过对比LRM和领域模型的梯度,确定哪些参数区域主要包含推理能力,哪些参数区域主要包含领域能力。3) 模型融合:基于对比梯度识别的结果,设计一种融合策略,有选择性地融合LRM和领域模型的参数,优先保留LRM中梯度敏感性低的参数,以及领域模型中重要的参数。

关键创新:该论文的关键创新在于发现了推理能力和领域能力在模型参数中的不同分布特征,并基于此提出了对比梯度识别的融合策略。与现有方法简单地平均或加权融合参数不同,ReasonAny能够更精确地保留推理能力和领域能力,从而避免性能冲突。

关键设计:ReasonAny的具体实现细节包括:1) 使用特定的损失函数来衡量参数的梯度敏感性。2) 设计了一种基于梯度敏感性的参数选择策略,用于确定哪些参数应该被保留或融合。3) 采用了一种加权平均的融合方法,根据参数的梯度敏感性调整融合权重。

📊 实验亮点

实验结果表明,ReasonAny在安全、生物医学和金融三个领域均显著优于现有模型融合方法。例如,在安全领域,ReasonAny的性能提升了10%以上。此外,ReasonAny在保持强大推理性能的同时,有效提升了领域模型的性能,验证了其在“推理+X”任务上的有效性。

🎯 应用场景

ReasonAny具有广泛的应用前景,例如可以将大型语言模型的推理能力迁移到医疗、金融、法律等领域的专用模型中,从而提升这些模型在复杂问题上的决策能力。该方法可以降低领域模型开发成本,加速AI技术在各行业的落地。未来,该技术有望应用于智能客服、风险评估、智能诊断等场景。

📄 摘要(原文)

Large Reasoning Models (LRMs) with long chain-of-thought reasoning have recently achieved remarkable success. Yet, equipping domain-specialized models with such reasoning capabilities, referred to as "Reasoning + X", remains a significant challenge. While model merging offers a promising training-free solution, existing methods often suffer from a destructive performance collapse: existing methods tend to both weaken reasoning depth and compromise domain-specific utility. Interestingly, we identify a counter-intuitive phenomenon underlying this failure: reasoning ability predominantly resides in parameter regions with low gradient sensitivity, contrary to the common assumption that domain capabilities correspond to high-magnitude parameters. Motivated by this insight, we propose ReasonAny, a novel merging framework that resolves the reasoning-domain performance collapse through Contrastive Gradient Identification. Experiments across safety, biomedicine, and finance domains show that ReasonAny effectively synthesizes "Reasoning + X" capabilities, significantly outperforming state-of-the-art baselines while retaining robust reasoning performance.