Data-Free Layer-Adaptive Merging via Fisher Information for Long-to-Short Reasoning LLMs
作者: Tian Xia
分类: cs.LG
发布日期: 2026-03-23
备注: 14 pages, NeurIPS 2026 submission
💡 一句话要点
提出基于Fisher信息的层自适应模型融合方法,提升长链推理LLM性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型融合 长短推理 Fisher信息矩阵 层自适应 大型语言模型
📋 核心要点
- 现有模型融合方法在长-短推理场景中,假设模型输出与融合系数线性相关,但该假设不成立。
- 论文提出FIM-Merging方法,利用Fisher信息矩阵指导层自适应融合,无需特定领域校准数据。
- 实验表明,FIM-TIES在多个L2S基准测试中达到SOTA,显著提升推理精度并减少响应长度。
📝 摘要(中文)
模型融合是一种实用的方法,可以在不进行额外训练的情况下结合专用大型语言模型(LLM)的能力。在长-短(L2S)场景中,融合基础模型和长链思维推理模型的目的是在减少输出长度的同时保持推理精度。现有方法依赖于任务算术及其变体,这些方法隐含地假设模型输出与融合系数线性相关——我们表明这种假设在L2S设置中被系统性地违反。我们首次为层自适应融合提供了理论依据:我们证明融合误差受限于一个与每层Hessian范数成正比的项(命题1),并确定Fisher信息矩阵(FIM)是该界限的一个有原则的、可计算的代理,通过局部最优时的Fisher-Hessian等价性。基于这一理论,我们提出了 extbf{FIM-Merging},它仅使用随机token输入(不需要特定领域的校准数据)来计算对角FIM,并使用它来分配每层融合系数。在7B L2S基准测试中,FIM-TIES在六个评估基准中的五个上实现了最先进的性能,包括在MATH500上比ACM-TIES高出 extbf{+6.2}个百分点(90.2 vs. 84.0),同时不需要校准数据。在1.5B基准测试中,FIM-TIES实现了 extbf{47.3}的平均准确率,超过了之前的最佳ACM-TIES(43.3) extbf{+3.9}个百分点,同时相对于长CoT模型,平均响应长度减少了 extbf{91.9%}。我们的框架还为现有的层自适应方法(如ACM)在经验上优于统一融合提供了一个统一的理论解释。
🔬 方法详解
问题定义:论文旨在解决长链推理大型语言模型(LLM)在模型融合过程中,如何有效平衡推理精度和输出长度的问题。现有方法,如Task Arithmetic及其变体,在长-短(L2S)场景下,隐含地假设模型输出与融合系数线性相关,这与实际情况不符,导致融合效果不佳。
核心思路:论文的核心思路是利用Fisher信息矩阵(FIM)作为每层Hessian范数的代理,指导层自适应的模型融合。通过FIM,可以估计每层对模型性能的影响,并据此调整融合系数,从而在保持推理精度的同时,有效缩短输出长度。这种方法避免了对特定领域校准数据的依赖。
技术框架:FIM-Merging框架主要包含以下几个阶段:1) 使用随机token输入计算模型的对角FIM。2) 基于计算得到的FIM,为模型的每一层分配融合系数。3) 使用这些系数将基础模型和长链思维推理模型进行融合。该框架的关键在于FIM的计算和融合系数的分配策略。
关键创新:论文的关键创新在于:1) 提出了基于Fisher信息的层自适应融合方法,解决了现有方法在L2S场景下的局限性。2) 提供了层自适应融合的理论依据,证明融合误差与每层Hessian范数相关。3) 提出使用FIM作为Hessian范数的代理,实现了无需校准数据的层自适应融合。
关键设计:FIM-Merging的关键设计包括:1) 使用对角FIM来降低计算复杂度,使其适用于大型语言模型。2) 使用随机token输入来计算FIM,避免了对特定领域数据的依赖。3) 基于FIM值自适应地调整每层的融合系数,从而实现更精细的模型融合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FIM-TIES在7B L2S基准测试中,在六个评估基准中的五个上实现了最先进的性能,包括在MATH500上比ACM-TIES高出+6.2个百分点(90.2 vs. 84.0),且无需校准数据。在1.5B基准测试中,FIM-TIES的平均准确率达到47.3,超过了之前的最佳ACM-TIES(43.3)+3.9个百分点,同时相对于长CoT模型,平均响应长度减少了91.9%。
🎯 应用场景
该研究成果可应用于各种需要平衡推理精度和输出长度的场景,例如智能客服、自动问答系统和文本摘要生成等。通过模型融合,可以结合不同模型的优势,提升整体性能,并降低计算成本。该方法无需特定领域数据,具有广泛的应用前景。
📄 摘要(原文)
Model merging has emerged as a practical approach to combine capabilities of specialized large language models (LLMs) without additional training. In the Long-to-Short (L2S) scenario, merging a base model with a long-chain-of-thought reasoning model aims to preserve reasoning accuracy while reducing output length. Existing methods rely on Task Arithmetic and its variants, which implicitly assume that model outputs vary linearly with the merging coefficient -- an assumption we show is systematically violated in L2S settings. We provide the first theoretical justification for layer-adaptive merging: we prove that merging error is bounded by a term proportional to the per-layer Hessian norm (Proposition~1), and establish that the Fisher Information Matrix (FIM) is a principled, computable proxy for this bound via the Fisher-Hessian equivalence at local optima. Building on this theory, we propose \textbf{FIM-Merging}, which computes diagonal FIM using only random token inputs (no domain-specific calibration data required) and uses it to assign per-layer merging coefficients. On the 7B L2S benchmark, FIM-TIES achieves state-of-the-art performance on five out of six evaluation benchmarks, including a \textbf{+6.2} point gain on MATH500 over ACM-TIES (90.2 vs.\ 84.0), while requiring no calibration data. On the 1.5B benchmark, FIM-TIES achieves an average accuracy of \textbf{47.3}, surpassing the previous best ACM-TIES (43.3) by \textbf{+3.9} points, while reducing average response length by \textbf{91.9\%} relative to the long-CoT model. Our framework also provides a unified theoretical explanation for why existing layer-adaptive methods such as ACM empirically outperform uniform merging.