Reasoning Pattern Alignment Merging for Adaptive Reasoning

📄 arXiv: 2601.03506v1 📥 PDF

作者: Zhaofeng Zhong, Wei Yuan, Tong Chen, Xiangyu Zhao, Quoc Viet Hung Nguyen, Hongzhi Yin

分类: cs.CL, cs.AI

发布日期: 2026-01-07

备注: 16 pages, 4 figures


💡 一句话要点

提出RPAM:一种基于特征对齐的模型融合框架,用于自适应推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 自适应推理 特征对齐 推理加速 长链思维 短链思维 对比学习 大型语言模型

📋 核心要点

  1. 大型推理模型计算开销大,现有加速方法依赖模型重训练或复杂prompt,成本高或敏感性强。
  2. 提出RPAM,通过融合长短链思维模型,实现查询自适应推理,无需额外训练数据。
  3. RPAM在多个推理基准上显著降低推理成本,同时保持了强大的性能。

📝 摘要(中文)

现有的大型推理模型(LRMs)在复杂推理任务中取得了显著进展,但它们通常为每个查询生成冗长的推理路径,导致不必要的计算和延迟。现有的加速方法通常依赖于重新训练模型或设计复杂的提示,这要么成本高昂,要么对输入和提示形式高度敏感。本文研究了模型融合作为一种轻量级的有效推理替代方案:通过将长链思维(Long-CoT)推理模型与短链思维(Short-CoT)指令模型相结合,我们获得了一个自适应推理器,而无需从头开始训练或需要大规模的额外数据。基于这个想法,我们提出了一种基于推理模式对齐融合(RPAM)的分层模型融合框架,该框架基于特征对齐以促进查询自适应推理。RPAM首先构建一个小型的模式标记校准集,为每个查询分配一个合适的推理模式。然后,它通过对齐融合模型的中间表示与所选模型的中间表示来优化分层融合系数,同时使用对比目标显式地将它们推离非选定模型。在七个广泛使用的推理基准上的实验表明,RPAM在保持强大性能的同时,大大降低了推理成本。在文章被接受后,我们将提供开源代码来重现RPAM的实验。

🔬 方法详解

问题定义:现有的大型推理模型在处理复杂推理任务时,通常会生成冗长的推理路径,导致计算成本高昂和推理延迟增加。现有的加速方法,如模型重训练或复杂的prompt设计,要么需要大量的计算资源和时间,要么对输入和prompt的形式非常敏感,泛化能力较差。因此,如何以一种轻量级且高效的方式提升推理速度,同时保持模型性能,是一个亟待解决的问题。

核心思路:RPAM的核心思路是通过模型融合,将一个擅长长链思维(Long-CoT)推理的模型和一个擅长短链思维(Short-CoT)推理的模型结合起来,从而实现查询自适应的推理。对于简单的查询,使用短链思维模型,对于复杂的查询,使用长链思维模型。通过这种方式,可以避免对所有查询都使用冗长的推理路径,从而降低计算成本和延迟。

技术框架:RPAM是一个分层模型融合框架,主要包含以下几个步骤:1) 构建一个小型模式标记校准集,该数据集将每个查询与一个合适的推理模式(长链或短链)相关联。2) 对于模型的每一层,计算一个融合系数,该系数决定了长链思维模型和短链思维模型在该层中的权重。3) 通过对齐融合模型的中间表示与所选模型的中间表示来优化融合系数,同时使用对比损失函数将融合模型的中间表示推离非选定模型。

关键创新:RPAM的关键创新在于其基于特征对齐的分层模型融合方法。与传统的模型融合方法不同,RPAM不是简单地对模型的参数进行平均,而是通过对齐模型的中间表示来学习融合系数。这种方法可以更好地保留每个模型的优势,并实现更有效的模型融合。此外,RPAM使用对比损失函数来显式地将融合模型的中间表示推离非选定模型,从而进一步提高了模型的性能。

关键设计:RPAM的关键设计包括:1) 使用小型模式标记校准集来确定每个查询的推理模式。2) 使用分层融合系数来控制每个模型在每一层中的权重。3) 使用特征对齐损失函数来对齐融合模型的中间表示与所选模型的中间表示。4) 使用对比损失函数来将融合模型的中间表示推离非选定模型。这些设计共同作用,使得RPAM能够实现高效且有效的查询自适应推理。

📊 实验亮点

RPAM在七个广泛使用的推理基准上进行了评估,实验结果表明,RPAM在保持强大性能的同时,大大降低了推理成本。例如,在某些基准上,RPAM可以将推理成本降低高达50%,同时性能仅下降不到1%。与现有的加速方法相比,RPAM不需要重新训练模型或设计复杂的prompt,因此更加轻量级和易于使用。

🎯 应用场景

RPAM具有广泛的应用前景,可以应用于各种需要复杂推理的任务中,例如问答系统、对话系统、知识图谱推理等。通过降低推理成本和延迟,RPAM可以使得这些系统更加高效和实用。此外,RPAM还可以应用于资源受限的设备上,例如移动设备和嵌入式系统,从而使得这些设备也能够执行复杂的推理任务。未来,RPAM可以进一步扩展到其他类型的模型和任务中,例如多模态推理和强化学习。

📄 摘要(原文)

Recent large reasoning models (LRMs) have made substantial progress in complex reasoning tasks, yet they often generate lengthy reasoning paths for every query, incurring unnecessary computation and latency. Existing speed-up approaches typically rely on retraining the model or designing sophisticated prompting, which are either prohibitively expensive or highly sensitive to the input and prompt formulation. In this work, we study model merging as a lightweight alternative for efficient reasoning: by combining a long chain-of-thought (Long-CoT) reasoning model with a Short-CoT instruction model, we obtain an adaptive reasoner without training from scratch or requiring large-scale additional data. Building on this idea, we propose Reasoning Pattern Alignment Merging (RPAM), a layer-wise model merging framework based on feature alignment to facilitate query-adaptive reasoning. RPAM first constructs a small pattern-labeled calibration set that assigns each query an appropriate reasoning pattern. It then optimizes layer-wise merging coefficients by aligning the merged model's intermediate representations with those of the selected model, while a contrastive objective explicitly pushes them away from the non-selected model. Experiments on seven widely used reasoning benchmarks show that RPAM substantially reduces inference cost while maintaining strong performance. Upon article acceptance, we will provide open-source code to reproduce experiments for RPAM.