Cool-Fusion: Fuse Large Language Models without Training

📄 arXiv: 2407.19807v2 📥 PDF

作者: Cong Liu, Xiaojun Quan, Yan Pan, Liang Lin, Weigang Wu, Xu Chen

分类: cs.CL

发布日期: 2024-07-29 (更新: 2025-06-09)

期刊: ACL 2025


💡 一句话要点

提出Cool-Fusion,一种无需训练融合异构大语言模型的方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型融合 免训练学习 文本重排序 异构模型 知识融合

📋 核心要点

  1. 现有模型融合方法计算负担高,尤其是在微调和词汇对齐方面,限制了异构LLM的有效融合。
  2. Cool-Fusion通过文本级别的集成,允许LLM以不同粒度互相rerank生成的文本,从而克服词汇差异,实现免训练融合。
  3. 实验表明,Cool-Fusion在GSM8K等基准数据集上显著提升了模型性能,例如在GSM8K上提升了17.4%的准确率。

📝 摘要(中文)

本文关注融合两个或多个异构大语言模型(LLM)以利用它们互补优势的问题。模型融合的挑战之一是高计算负担,尤其是在微调或对齐词汇表时。为了解决这个问题,我们提出Cool-Fusion,一种简单而有效的方法,可以融合源LLM的知识,而无需训练。与集成方法不同,Cool-Fusion适用于任何具有不同词汇表的源LLM集合。为了克服LLM之间的词汇差异,我们在文本级别集成LLM,允许它们以不同的粒度相互重新排序生成的文本。在各种基准数据集上进行了广泛的实验。在GSM8K上,Cool-Fusion将三个强大的源LLM的准确率显著提高了17.4%。

🔬 方法详解

问题定义:论文旨在解决如何高效融合多个异构大语言模型(LLMs)的问题。现有方法,如微调或词汇对齐,计算成本高昂,限制了它们在实际应用中的可行性。此外,不同LLM可能具有不同的词汇表,使得直接融合变得困难。

核心思路:Cool-Fusion的核心思路是在文本层面进行LLM的融合,而不是在参数层面。通过让不同的LLM对彼此生成的文本进行重新排序(rerank),从而利用它们各自的优势,而无需进行训练或词汇对齐。这种方法避免了高昂的计算成本,并且可以灵活地应用于具有不同词汇表的LLM。

技术框架:Cool-Fusion的整体框架包括以下几个主要步骤:1)使用多个源LLM独立生成文本;2)每个LLM使用自己的语言模型对其他LLM生成的文本进行重新排序;3)将重新排序后的文本进行融合,得到最终的输出。这个过程不需要任何训练,因此非常高效。

关键创新:Cool-Fusion最重要的创新点在于它是一种免训练的LLM融合方法。与传统的模型融合方法相比,Cool-Fusion不需要进行微调或词汇对齐,从而大大降低了计算成本。此外,Cool-Fusion还可以在文本层面灵活地融合不同的LLM,从而充分利用它们各自的优势。

关键设计:Cool-Fusion的关键设计在于如何有效地进行文本重新排序和融合。论文中可能探讨了不同的重新排序策略,例如基于语言模型的概率或基于其他指标。此外,论文还可能探讨了不同的融合策略,例如加权平均或基于投票的方法。具体的参数设置和损失函数(如果存在)未知,因为该方法主要依赖于文本级别的操作,而非参数优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Cool-Fusion在GSM8K数据集上取得了显著的性能提升,相较于三个强大的源LLM,准确率提高了17.4%。这一结果表明,Cool-Fusion能够有效地融合不同LLM的知识,并且在数学推理等任务上具有很强的竞争力。具体的基线模型和详细的实验设置未知,但结果表明了该方法的有效性。

🎯 应用场景

Cool-Fusion具有广泛的应用前景,例如可以用于构建更强大的对话系统、问答系统和文本生成系统。通过融合不同的LLM,可以提高这些系统的性能和鲁棒性。此外,Cool-Fusion还可以用于个性化推荐、内容创作等领域,为用户提供更优质的服务。该方法降低了模型融合的门槛,使得更多开发者能够利用多个LLM的优势。

📄 摘要(原文)

We focus on the problem of fusing two or more heterogeneous large language models (LLMs) to leverage their complementary strengths. One of the challenges of model fusion is high computational load, specifically in fine-tuning or aligning vocabularies. To address this, we propose Cool-Fusion, a simple yet effective approach that fuses the knowledge of source LLMs, which does not require training. Unlike ensemble methods, Cool-Fusion is applicable to any set of source LLMs that have different vocabularies. To overcome the vocabulary discrepancies among LLMs, we ensemble LLMs on text level, allowing them to rerank the generated texts by each other with different granularities. Extensive experiments have been conducted across a variety of benchmark datasets. On GSM8K, Cool-Fusion increases accuracy from three strong source LLMs by a significant margin of 17.4\%.