FusionFactory: Fusing LLM Capabilities with Multi-LLM Log Data
作者: Tao Feng, Haozhen Zhang, Zijie Lei, Pengrui Han, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jiaxuan You
分类: cs.LG
发布日期: 2025-07-14 (更新: 2025-09-27)
💡 一句话要点
FusionFactory:融合多LLM日志数据,提升LLM在不同任务上的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多模型融合 知识蒸馏 LLM路由器 推理模板
📋 核心要点
- 现有方法难以有效利用多LLM日志数据,无法充分融合不同LLM的优势。
- FusionFactory提出一个系统框架,在查询、思想和模型三个层面融合多LLM能力。
- 实验表明,FusionFactory在多个任务上超越了最佳单一LLM,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLM)的快速发展催生了多样化的模型格局,每个模型都擅长不同的任务。这种多样性促使研究人员在实践中采用多个LLM,从而产生了有价值的多LLM日志数据。这自然引出了一个问题,即是否可以充分利用这些日志来融合LLM的互补能力。虽然之前的工作已经探索了整合多个LLM的各种策略,但我们认为,实际的融合必须满足两个基本要求:(1)与真实世界的服务场景(例如,本地和基于API的服务)兼容,以及(2)在LLM管道的不同阶段灵活操作,以满足不同的用户需求(例如,微调和推理阶段)。为此,我们引入了LLMFusionBench,这是一个大规模的LLM融合基准,涵盖五个领域的14个任务,包含来自20个开源LLM(8B--671B)的响应,总计1.03亿个tokens。基于LLMFusionBench,我们提出了FusionFactory,这是一个具有三个详细级别的系统框架:(1)通过定制的LLM路由器进行查询级别融合,(2)利用检索到的抽象推理模板进行思想级别融合,以及(3)通过从排名靠前的响应中进行蒸馏来进行模型级别融合。实验表明,FusionFactory在所有14个基准测试中始终优于最佳的单个LLM,并且最佳融合配置因基准测试而异,这突出了多LLM日志数据作为融合多样化LLM能力的实际基础的前景。
🔬 方法详解
问题定义:论文旨在解决如何有效融合多个大型语言模型(LLM)的能力,以提升在各种任务上的性能。现有方法要么难以兼容实际部署场景,要么缺乏在LLM流程不同阶段的灵活性,无法充分利用多LLM日志数据中蕴含的互补信息。
核心思路:论文的核心思路是构建一个系统化的框架,通过在查询级别、思想级别和模型级别三个层面进行融合,从而充分利用多LLM日志数据,将不同LLM的优势结合起来。这种多层次的融合策略旨在提高LLM在各种任务上的性能,并适应不同的部署需求。
技术框架:FusionFactory框架包含三个主要级别:1) 查询级别融合:使用定制的LLM路由器,根据输入查询选择合适的LLM。2) 思想级别融合:检索抽象推理模板,用于指导LLM的推理过程。3) 模型级别融合:通过从排名靠前的响应中进行蒸馏,将多个LLM的知识迁移到一个更小的模型中。整个流程首先通过查询级别路由选择合适的LLM组合,然后利用思想级别模板引导生成,最后通过模型级别蒸馏提炼知识。
关键创新:FusionFactory的关键创新在于其多层次的融合策略,它不仅考虑了不同LLM在查询响应上的差异,还关注了LLM的推理过程和知识表示。通过在查询、思想和模型三个层面进行融合,FusionFactory能够更全面地利用多LLM日志数据,从而实现更有效的LLM能力融合。与现有方法相比,FusionFactory更注重实际应用场景的兼容性和灵活性。
关键设计:查询级别融合中,LLM路由器的设计需要考虑不同LLM的擅长领域和任务类型。思想级别融合中,抽象推理模板的检索和选择是关键,需要设计合适的相似度度量方法。模型级别融合中,蒸馏损失函数的设计需要平衡知识迁移的效率和准确性。具体的参数设置和网络结构选择可能需要根据不同的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FusionFactory在LLMFusionBench的14个基准测试中始终优于最佳的单个LLM。最佳融合配置因基准测试而异,这表明多LLM日志数据在融合多样化LLM能力方面具有巨大的潜力。具体的性能提升幅度取决于任务类型和融合策略的选择。
🎯 应用场景
该研究成果可应用于智能客服、内容生成、代码生成等多个领域。通过融合多个LLM的能力,可以提升AI系统在复杂任务上的性能和鲁棒性,为用户提供更优质的服务。未来,该技术有望推动LLM在实际应用中的普及和发展。
📄 摘要(原文)
The rapid advancement of large language models (LLMs) has created a diverse landscape of models, each excelling at different tasks. This diversity drives researchers to employ multiple LLMs in practice, leaving behind valuable multi-LLM log data. This naturally leads to the question of whether such logs can be fully leveraged to fuse LLMs' complementary capabilities. Although prior work has explored various strategies for integrating multiple LLMs, we argue that practical fusion must meet two essential requirements: (1) compatibility with real-world serving scenarios (e.g., local and API-based serving), and (2) flexibility to operate at different stages of the LLM pipeline to meet varied user needs (e.g., fine-tuning and inference stages). To this end, we introduce LLMFusionBench, a large-scale benchmark for LLM fusion that spans 14 tasks across five domains, with responses from 20 open-source LLMs (8B--671B) totaling 103M tokens. Building on LLMFusionBench, we propose FusionFactory, a systematic framework with three elaborated levels: (1) query-level fusion via tailored LLM routers, (2) thought-level fusion leveraging retrieved abstract reasoning templates, and (3) model-level fusion via distillation from top-ranked responses. Experiments show that FusionFactory consistently outperforms the best individual LLM across all 14 benchmarks, with the optimal fusion configuration varying across benchmarks, highlighting the promise of multi-LLM log data as a practical foundation for fusing diverse LLM capabilities.