InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion

📄 arXiv: 2501.02795v3 📥 PDF

作者: Zhaoyi Yan, Yiming Zhang, Baoyi He, Yuhao Fu, Qi Zhou, Zhijie Sang, Chunlin Ji, Shengyu Zhang, Fei Wu, Hongxia Yang

分类: cs.CL, cs.CV

发布日期: 2025-01-06 (更新: 2025-02-17)

备注: Significant performance improvements over the previous version; under review;


💡 一句话要点

InfiFusion:通过LLM融合增强跨模型推理的统一框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型融合 知识蒸馏 通用Logit蒸馏 Top-K选择 Logits标准化 跨模型推理 高效训练

📋 核心要点

  1. 现有模型融合方法依赖直接参数合并或知识蒸馏,存在灵活性差和效率低的问题。
  2. InfiFusion通过Top-K选择和Logits标准化增强通用Logit蒸馏,实现高效的模型知识融合。
  3. 实验表明,InfiFusion在多个基准测试中超越现有SOTA模型,且显著降低了计算成本。

📝 摘要(中文)

本文提出InfiFusion,一个高效的训练流程,旨在将多个领域专用的大型语言模型(LLM)集成到一个单一的枢轴模型中,从而有效地利用每个源模型的优势。传统的融合方法要么直接合并模型参数,要么依赖于具有严格假设的知识蒸馏,限制了它们的灵活性和效率。InfiFusion通过使用Top-K选择和Logits标准化增强通用Logit蒸馏(ULD)来克服这些限制。我们提出了两种融合策略:成对融合(InfiFusion$_p$),其中每个源模型的知识被单独蒸馏到枢轴模型中,然后进行合并;以及统一融合(InfiFusion$_u$),其中所有源模型的知识被同时蒸馏到枢轴模型中。InfiFusion在涵盖推理、编码、数学和指令遵循任务的11个广泛应用的基准测试中,优于最先进的模型,如Qwen-2.5-14B-Instruct和Phi-4。值得注意的是,InfiFusion在显著降低计算成本的同时实现了这种卓越的性能,仅用160个H800 GPU小时完成了完整的训练,而传统LLM训练通常需要数百万小时。

🔬 方法详解

问题定义:现有的大型语言模型融合方法,如直接参数平均或传统的知识蒸馏,存在局限性。直接参数平均可能导致性能下降,而知识蒸馏通常需要对源模型和目标模型的能力进行严格假设,限制了其灵活性和效率。因此,如何高效且灵活地融合多个领域专用LLM的知识,成为一个重要的挑战。

核心思路:InfiFusion的核心思路是通过增强的通用Logit蒸馏(ULD)来实现知识融合。ULD允许将多个源模型的知识转移到一个单一的枢轴模型中,而无需直接合并模型参数。通过引入Top-K选择和Logits标准化,可以更有效地提取和利用源模型的知识,从而提高融合模型的性能。这种设计旨在克服传统方法的局限性,实现更灵活和高效的模型融合。

技术框架:InfiFusion的整体框架包括以下几个主要阶段:1) 选择多个领域专用的大型语言模型作为源模型。2) 使用增强的通用Logit蒸馏(ULD)将源模型的知识转移到枢轴模型中。3) 采用两种融合策略:成对融合(InfiFusion$_p$)和统一融合(InfiFusion$_u$)。在成对融合中,每个源模型的知识被单独蒸馏到枢轴模型中,然后进行合并。在统一融合中,所有源模型的知识被同时蒸馏到枢轴模型中。4) 使用Top-K选择和Logits标准化来增强ULD过程。5) 在多个基准测试中评估融合模型的性能。

关键创新:InfiFusion的关键创新在于增强的通用Logit蒸馏(ULD),它通过Top-K选择和Logits标准化来提高知识转移的效率和效果。Top-K选择允许模型关注源模型最自信的预测,从而减少噪声的影响。Logits标准化可以调整不同源模型的输出分布,使其更易于融合。与传统的知识蒸馏方法相比,InfiFusion的ULD方法更加灵活和高效。

关键设计:InfiFusion的关键设计包括:1) Top-K选择:选择源模型输出logits中概率最高的K个token,用于计算蒸馏损失。2) Logits标准化:对源模型和枢轴模型的logits进行标准化,以减少分布差异。3) 损失函数:使用交叉熵损失或KL散度损失来衡量枢轴模型和源模型之间的logits差异。4) 训练策略:采用逐步训练策略,先训练枢轴模型,然后进行知识蒸馏。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InfiFusion在11个基准测试中超越了Qwen-2.5-14B-Instruct和Phi-4等SOTA模型,涵盖推理、编码、数学和指令遵循任务。更重要的是,InfiFusion仅使用160个H800 GPU小时完成了完整的训练,显著降低了计算成本,这表明该方法具有很高的效率和实用性。

🎯 应用场景

InfiFusion具有广泛的应用前景,可用于构建更强大的通用LLM,特别是在资源受限的环境下。例如,可以将多个专业领域的模型融合到一个移动设备上的模型中,从而实现更智能的本地服务。此外,该方法还可以用于持续学习,不断融合新的知识,提升模型的性能和适应性。

📄 摘要(原文)

We introduce InfiFusion, an efficient training pipeline designed to integrate multiple domain-specialized Large Language Models (LLMs) into a single pivot model, effectively harnessing the strengths of each source model. Traditional fusion methods either merge model parameters directly or rely on knowledge distillation with rigid assumptions, limiting their flexibility and efficiency. InfiFusion overcomes these limitations by enhancing Universal Logit Distillation (ULD) with Top-K selection and Logits Standardization. We propose two fusion strategies: Pairwise Fusion (InfiFusion$_p$), where each source model knowledge is distilled individually into the pivot model followed by merging and Unified Fusion (InfiFusion$_u$), where knowledge from all source models is distilled simultaneously into the pivot model. InfiFusion outperforms the state-of-the-art models, such as Qwen-2.5-14B-Instruct and Phi-4, across 11 widely applied benchmarks covering reasoning, coding, mathematics, and instruction-following tasks. Notably, InfiFusion achieves this superior performance while significantly reduces computational costs, completing full training with only 160 H800 GPU hours compared to the millions typically required for traditional LLM training.