Harnessing Multiple Large Language Models: A Survey on LLM Ensemble

作者: Zhijun Chen, Jingzheng Li, Pengpeng Chen, Zhuoran Li, Kai Sun, Yuankai Luo, Qianren Mao, Ming Li, Likang Xiao, Dingqi Yang, Yikun Ban, Hailong Sun, Philip S. Yu

分类: cs.CL

发布日期: 2025-02-25 (更新: 2025-09-18)

备注: 10 pages, 2 figures, codebase: https://github.com/junchenzhi/Awesome-LLM-Ensemble

🔗 代码/项目: GITHUB

💡 一句话要点

首个LLM集成综述：系统性回顾集成方法、基准与应用，并展望未来方向

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM集成 大型语言模型 模型集成 推理优化 自然语言处理

📋 核心要点

现有LLM各有优劣，如何有效利用多个LLM的优势进行集成是一个挑战。
论文对LLM集成方法进行了系统分类，包括推理前、推理中和推理后三种集成策略。
论文总结了现有LLM集成的基准和应用，并提出了未来研究方向，为领域发展提供参考。

📝 摘要（中文）

LLM集成，即综合利用多个大型语言模型（LLM），旨在下游推理期间处理用户查询，并受益于它们各自的优势，最近受到了广泛关注。LLM的广泛可用性，加上它们不同的优势和开箱即用的可用性，深刻地推动了LLM集成领域的发展。本文对LLM集成的最新进展进行了首次系统性综述。首先，我们介绍了LLM集成的分类，并讨论了几个相关的研究问题。然后，我们对“推理前集成”、“推理中集成”和“推理后集成”等广泛类别下的方法进行了更深入的分类，并回顾了所有相关方法。最后，我们介绍了相关的基准和应用，总结了现有的研究，并提出了几个未来的研究方向。LLM集成相关论文的精选列表可在https://github.com/junchenzhi/Awesome-LLM-Ensemble上找到。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）虽然能力强大，但在特定任务上各有优劣。如何有效地利用多个LLM的优势，构建一个更强大、更鲁棒的系统，是LLM集成需要解决的核心问题。现有的方法可能存在效率低、效果提升不明显、难以适应不同任务等痛点。

核心思路：论文的核心思路是对现有的LLM集成方法进行系统性的梳理和分类，并从集成发生的阶段（推理前、推理中、推理后）进行划分。通过这种分类，可以更清晰地理解不同集成方法的优缺点，并为未来的研究提供指导。这种分类方式有助于研究人员根据具体任务的需求，选择合适的集成策略。

技术框架：论文构建了一个LLM集成的分类框架，主要包含以下三个阶段： 1. 推理前集成 (Ensemble-Before-Inference)：在推理之前对LLM进行处理，例如模型选择、模型融合等。 2. 推理中集成 (Ensemble-During-Inference)：在推理过程中动态地集成多个LLM的输出，例如使用投票、加权平均等方法。 3. 推理后集成 (Ensemble-After-Inference)：在所有LLM完成推理后，对它们的输出进行整合，例如使用排序、选择等方法。

关键创新：该论文的主要创新在于首次对LLM集成方法进行了系统性的综述和分类。之前的研究主要集中在特定的集成方法或应用场景，缺乏对整个领域的宏观把握。该论文的分类框架有助于研究人员更好地理解LLM集成的本质，并为未来的研究提供了一个清晰的路线图。

关键设计：论文的关键设计在于其分类体系，将LLM集成方法划分为推理前、推理中和推理后三个阶段。这种划分方式考虑了集成发生的时机，能够更全面地覆盖现有的集成方法。此外，论文还对每个阶段的代表性方法进行了详细的介绍和分析，并讨论了它们的优缺点。论文还整理了LLM集成相关的基准数据集和应用场景，为研究人员提供了便利。

🖼️ 关键图片

📊 实验亮点

该综述论文系统性地总结了LLM集成的研究进展，并对现有方法进行了分类和分析。论文整理了LLM集成相关的基准数据集和应用场景，为研究人员提供了便利。此外，论文还提出了未来研究方向，为领域发展提供了参考。

🎯 应用场景

LLM集成技术可广泛应用于问答系统、文本生成、机器翻译、对话系统等领域。通过集成多个LLM的优势，可以提高系统的准确性、鲁棒性和泛化能力。未来，LLM集成有望成为构建更智能、更可靠的人工智能系统的关键技术。

📄 摘要（原文）

LLM Ensemble -- which involves the comprehensive use of multiple large language models (LLMs), each aimed at handling user queries during downstream inference, to benefit from their individual strengths -- has gained substantial attention recently. The widespread availability of LLMs, coupled with their varying strengths and out-of-the-box usability, has profoundly advanced the field of LLM Ensemble. This paper presents the first systematic review of recent developments in LLM Ensemble. First, we introduce our taxonomy of LLM Ensemble and discuss several related research problems. Then, we provide a more in-depth classification of the methods under the broad categories of "ensemble-before-inference, ensemble-during-inference, ensemble-after-inference'', and review all relevant methods. Finally, we introduce related benchmarks and applications, summarize existing studies, and suggest several future research directions. A curated list of papers on LLM Ensemble is available at https://github.com/junchenzhi/Awesome-LLM-Ensemble.

Harnessing Multiple Large Language Models: A Survey on LLM Ensemble

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理