The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models

作者: Dakuan Lu, Jiaqi Zhang, Cheng Yuan, Jiawei Shao, Xuelong Li

分类: cs.LG, cs.AI, cs.MA

发布日期: 2025-12-29 (更新: 2026-01-28)

💡 一句话要点

提出多模型协作定律，揭示大语言模型集成性能的缩放极限

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模型协作 大语言模型 模型集成 缩放定律 模型多样性

📋 核心要点

现有大语言模型受限于单模型性能瓶颈，难以突破固有能力上限。
论文提出多模型协作定律，通过集成多个LLM，实现性能超越单一模型。
实验表明，多模型系统性能随参数量呈幂律增长，且异构模型集成效果更佳。

📝 摘要（中文）

大语言模型（LLM）的最新进展主要得益于单个模型的缩放定律，该定律预测随着模型参数和数据量的增加，性能会得到提升。然而，任何单个LLM的能力都存在固有的界限。一种解决方案源于多个LLM之间复杂的交互，使其集体性能超过任何单个模型。尽管模型路由和事后集成等多种模型集成技术迅速普及，但仍然缺乏一个统一的多模型协作性能缩放理论框架。本文提出了多模型协作定律，该定律预测LLM集成基于其聚合参数预算的性能极限。为了量化多模型协作的内在上限，我们采用了一种与方法无关的公式，并假设一个理想化的集成oracle，其中每个样本的总交叉熵损失由模型池中任何模型的最小损失决定。实验结果表明，多模型系统遵循相对于总参数计数的幂律缩放，与单模型缩放相比，表现出更显著的改进趋势和更低的理论损失下限。此外，异构模型族的集成比在单个模型族内形成的集成实现了更好的性能缩放，表明模型多样性是协作收益的主要驱动因素。这些发现表明，模型协作是扩展LLM智能前沿的关键方向。

🔬 方法详解

问题定义：现有的大语言模型主要依赖于单模型的参数规模扩展来提升性能，但这种方式存在边际效益递减的现象，且单个模型的固有缺陷难以通过简单地增加参数来解决。多模型集成是一种潜在的解决方案，但缺乏对多模型协作性能上限的理论指导，难以有效指导模型集成策略的设计。

核心思路：论文的核心思路是建立一个多模型协作的性能缩放定律，类似于单模型的缩放定律。通过分析多模型集成在理想情况下的性能上限，揭示模型集成带来的性能提升潜力，并探究影响多模型协作效果的关键因素，例如模型多样性。

技术框架：论文采用了一种与具体集成方法无关的通用框架。首先，定义了一个理想化的集成oracle，该oracle能够为每个样本选择损失最小的模型。然后，通过分析集成oracle的性能，推导出多模型协作的性能缩放定律。该定律将集成系统的性能与总参数量联系起来，并考虑了模型多样性的影响。

关键创新：论文的关键创新在于提出了多模型协作定律，这是首次对多模型集成的性能上限进行理论分析。与以往关注特定集成方法的研究不同，该论文关注的是多模型协作的内在潜力，为模型集成策略的设计提供了理论指导。此外，论文还揭示了模型多样性在多模型协作中的重要作用。

关键设计：论文的关键设计包括：1) 定义理想化的集成oracle，作为多模型协作的性能上限；2) 采用交叉熵损失作为性能指标；3) 通过实验验证多模型协作定律的有效性，并分析模型多样性对性能的影响。论文没有涉及具体的网络结构或参数设置，而是侧重于理论分析和实验验证。

🖼️ 关键图片

📊 实验亮点

实验结果表明，多模型系统遵循相对于总参数计数的幂律缩放，与单模型缩放相比，表现出更显著的改进趋势和更低的理论损失下限。更重要的是，异构模型族的集成比在单个模型族内形成的集成实现了更好的性能缩放，这验证了模型多样性是协作收益的主要驱动因素。这些发现为多模型集成提供了重要的实验依据。

🎯 应用场景

该研究成果可应用于大语言模型的集成策略设计，例如模型路由、模型选择和知识蒸馏等。通过理解多模型协作的性能上限，可以更有效地利用现有模型资源，构建更强大的AI系统。此外，该研究也为未来多智能体系统的设计提供了理论基础，有助于开发更智能、更鲁棒的协作式AI应用。

📄 摘要（原文）

Recent advances in large language models (LLMs) have been largely driven by scaling laws for individual models, which predict performance improvements as model parameters and data volume increase. However, the capabilities of any single LLM are inherently bounded. One solution originates from intricate interactions among multiple LLMs, rendering their collective performance surpasses that of any constituent model. Despite the rapid proliferation of multi-model integration techniques such as model routing and post-hoc ensembling, a unifying theoretical framework of performance scaling for multi-model collaboration remains absent. In this work, we propose the Law of Multi-model Collaboration, a scaling law that predicts the performance limits of LLM ensembles based on their aggregated parameter budget. To quantify the intrinsic upper bound of multi-model collaboration, we adopt a method-agnostic formulation and assume an idealized integration oracle where the total cross-entropy loss of each sample is determined by the minimum loss of any model in the model pool. Experimental results reveal that multi-model systems follow a power-law scaling with respect to the total parameter count, exhibiting a more significant improvement trend and a lower theoretical loss floor compared to single model scaling. Moreover, ensembles of heterogeneous model families achieve better performance scaling than those formed within a single model family, indicating that model diversity is a primary driver of collaboration gains. These findings suggest that model collaboration represents a critical axis for extending the intelligence frontier of LLMs.

The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理