Composition of Experts: A Modular Compound AI System Leveraging Large Language Models

📄 arXiv: 2412.01868v1 📥 PDF

作者: Swayambhoo Jain, Ravi Raju, Bo Li, Zoltan Csaki, Jonathan Li, Kaizhao Liang, Guoyao Feng, Urmish Thakkar, Anand Sampat, Raghu Prabhakar, Sumati Jairath

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2024-12-02


💡 一句话要点

提出专家组合(CoE)框架,利用多专家LLM实现高效、可定制的AI系统。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 专家组合 大型语言模型 模块化AI系统 动态路由 资源优化

📋 核心要点

  1. 大型语言模型(LLM)的单体架构在可扩展性、成本和定制方面面临挑战。
  2. 专家组合(CoE)通过路由器动态选择专家LLM,实现资源高效利用和性能提升。
  3. 实验表明,CoE在降低计算开销的同时,实现了优越的性能,并在Arena-Hard和MT-Bench上取得了显著成果。

📝 摘要(中文)

本文提出了一种名为专家组合(CoE)的模块化复合AI系统,该系统利用多个专家级大型语言模型(LLM)。CoE采用路由器动态选择最适合给定输入的专家,从而实现高效的资源利用和性能提升。我们阐述了训练CoE的一般问题,并讨论了相关的内在复杂性。我们提出了一种两步路由方法来解决这些复杂性,该方法首先使用路由器将输入分类为不同的类别,然后使用类别到专家的映射来获得所需的专家。CoE为构建复合AI系统提供了一种灵活且经济高效的解决方案。我们的实证评估表明,CoE在降低计算开销的同时,能够实现卓越的性能。鉴于CoE由许多专家LLM组成,它对经济高效的服务具有独特的系统要求。我们展示了CoE的高效实现,利用了SambaNova SN40L RDU独特的三层内存架构。使用开源LLM Qwen/Qwen2-7B-Instruct, google/gemma-2-9b-it, google/gemma-2-27b-it, meta-llama/Llama-3.1-70B-Instruct 和 Qwen/Qwen2-72B-Instruct 获得的CoE在Arena-Hard上以平均310亿个活跃参数实现了59.4的分数,在MT-Bench上以平均540亿个活跃参数实现了9.06的分数。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)通常是单体架构,这导致了在可扩展性、成本和定制方面的挑战。针对特定任务,单体模型可能包含冗余参数,效率较低。此外,定制化需要重新训练整个模型,成本高昂。

核心思路:本文的核心思路是将一个大型的单体LLM分解为多个更小、更专业的“专家”LLM,并使用一个路由器来动态地选择最适合当前输入的专家。这种方法旨在提高效率、降低成本,并允许更灵活的定制。

技术框架:CoE系统包含以下主要模块:1) 专家LLM池:包含多个预训练的专家LLM,每个专家擅长不同的任务或领域。2) 路由器:根据输入的内容,动态地选择最合适的专家。本文提出了一种两步路由方法,首先将输入分类到不同的类别,然后将类别映射到特定的专家。3) 推理引擎:负责调用选定的专家LLM进行推理,并将结果返回给用户。

关键创新:CoE的关键创新在于其模块化和动态路由机制。与传统的单体LLM相比,CoE可以更有效地利用计算资源,并允许更灵活的定制。两步路由方法进一步提高了路由的准确性和效率。

关键设计:两步路由方法是CoE的关键设计。第一步使用一个分类器将输入分类到不同的类别。第二步使用一个类别到专家的映射表,将每个类别映射到最合适的专家。分类器可以使用各种机器学习算法,例如支持向量机或神经网络。类别到专家的映射表可以手动创建,也可以通过机器学习算法自动学习。论文中使用了Qwen/Qwen2-7B-Instruct, google/gemma-2-9b-it, google/gemma-2-27b-it, meta-llama/Llama-3.1-70B-Instruct 和 Qwen/Qwen2-72B-Instruct 等开源LLM作为专家。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoE在Arena-Hard上以平均310亿个活跃参数实现了59.4的分数,在MT-Bench上以平均540亿个活跃参数实现了9.06的分数。这些结果表明,CoE在降低计算开销的同时,能够实现卓越的性能。与单体LLM相比,CoE可以显著提高效率和降低成本。

🎯 应用场景

CoE具有广泛的应用前景,例如智能客服、内容生成、代码生成等。它可以根据不同的应用场景选择不同的专家LLM,从而提高效率和性能。此外,CoE还可以用于构建个性化的AI系统,根据用户的偏好和需求选择不同的专家LLM。

📄 摘要(原文)

Large Language Models (LLMs) have achieved remarkable advancements, but their monolithic nature presents challenges in terms of scalability, cost, and customization. This paper introduces the Composition of Experts (CoE), a modular compound AI system leveraging multiple expert LLMs. CoE leverages a router to dynamically select the most appropriate expert for a given input, enabling efficient utilization of resources and improved performance. We formulate the general problem of training a CoE and discuss inherent complexities associated with it. We propose a two-step routing approach to address these complexities that first uses a router to classify the input into distinct categories followed by a category-to-expert mapping to obtain desired experts. CoE offers a flexible and cost-effective solution to build compound AI systems. Our empirical evaluation demonstrates the effectiveness of CoE in achieving superior performance with reduced computational overhead. Given that CoE comprises of many expert LLMs it has unique system requirements for cost-effective serving. We present an efficient implementation of CoE leveraging SambaNova SN40L RDUs unique three-tiered memory architecture. CoEs obtained using open weight LLMs Qwen/Qwen2-7B-Instruct, google/gemma-2-9b-it, google/gemma-2-27b-it, meta-llama/Llama-3.1-70B-Instruct and Qwen/Qwen2-72B-Instruct achieve a score of $59.4$ with merely $31$ billion average active parameters on Arena-Hard and a score of $9.06$ with $54$ billion average active parameters on MT-Bench.