Experts are all you need: A Composable Framework for Large Language Model Inference
作者: Shrihari Sridharan, Sourjya Roy, Anand Raghunathan, Kaushik Roy
分类: cs.LG
发布日期: 2025-11-28
💡 一句话要点
提出Comp-LLM,一种可组合的LLM推理框架,提升准确率并降低延迟。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 混合专家模型 可组合推理 子查询分解 并行计算
📋 核心要点
- 现有LLM计算负担大,MoE模型需要联合预训练且不擅长多步推理,多智能体框架延迟高。
- Comp-LLM通过子查询依赖图实现跨专家协作,包含子查询生成、查询执行和响应聚合三个模块。
- 实验表明,Comp-LLM在精度上优于同等大小的单体LLM,并能有效降低模型尺寸和推理延迟。
📝 摘要(中文)
大型语言模型(LLM)在各种自然语言处理(NLP)任务中取得了最先进的精度。然而,这种成功是以模型尺寸增加为代价的,从而导致额外的计算负担。混合专家模型(MoE)通过将模型容量与计算解耦来克服这一瓶颈,仅激活参数或“专家”的子集。然而,这些模型需要对这些专家与路由器进行联合预训练,并且不建模多步推理。相比之下,多智能体框架通过将复杂问题分解为模块化子任务来改进推理。然而,这些框架依赖于顺序的“计划-行动-观察”循环,这会引入显著的延迟。我们的工作Comp-LLM通过引入一个可组合的推理框架来解决这些挑战,该框架通过显式的子查询依赖图实现跨专家协作。Comp-LLM由三个组件组成:(1)一个子查询生成器,它分解输入查询,使用嵌入相似性将每个子查询分配给适当的专家,并构建依赖图;(2)一个查询执行器,它处理图中的节点,并根据依赖关系和资源约束识别并行机会;(3)一个响应聚合器,它将中间专家响应合成为一个连贯的最终答案。在多个基准测试中,Comp-LLM实现了比类似大小的单体LLM高达11.01%的精度提升,同时提供了1.67倍--3.56倍的模型尺寸缩减,相对于其家族中最大的模型没有显著的性能下降。此外,与顺序子查询处理相比,Comp-LLM提供了1.1倍--1.7倍的延迟改进。
🔬 方法详解
问题定义:现有大型语言模型(LLM)虽然在各种NLP任务中表现出色,但模型尺寸巨大,计算成本高昂。混合专家模型(MoE)虽然能减少计算量,但需要联合预训练专家和路由,且不擅长处理需要多步推理的任务。多智能体框架虽然能分解复杂问题,但其顺序执行方式导致延迟较高。因此,如何降低LLM的计算成本,同时保持甚至提升其推理能力,是本文要解决的核心问题。
核心思路:Comp-LLM的核心思路是将复杂的查询分解为多个子查询,并将这些子查询分配给不同的“专家”处理。通过构建子查询之间的依赖关系图,可以并行执行相互独立的子查询,从而降低整体推理延迟。同时,利用多个专家协同解决问题,可以提升模型的推理能力。这种可组合的推理框架允许灵活地选择和组合不同的专家,以适应不同的任务需求。
技术框架:Comp-LLM包含三个主要模块:子查询生成器、查询执行器和响应聚合器。首先,子查询生成器将输入查询分解为多个子查询,并使用嵌入相似性将每个子查询分配给最合适的专家。然后,构建一个依赖图,表示子查询之间的依赖关系。查询执行器根据依赖图和资源约束,并行或串行地执行子查询,并收集每个专家的响应。最后,响应聚合器将中间专家响应合成为一个连贯的最终答案。
关键创新:Comp-LLM的关键创新在于其可组合的推理框架,它允许跨专家协作,并通过显式的子查询依赖图实现并行执行。与传统的MoE模型相比,Comp-LLM不需要联合预训练专家,并且能够更好地处理多步推理任务。与多智能体框架相比,Comp-LLM通过并行执行子查询,显著降低了推理延迟。
关键设计:子查询生成器使用预训练的嵌入模型来计算查询和专家之间的相似度,并根据相似度将子查询分配给专家。依赖图的构建基于对子查询之间关系的分析,例如,一个子查询的输出可能是另一个子查询的输入。查询执行器使用调度算法来确定子查询的执行顺序,并根据资源约束选择并行或串行执行。响应聚合器使用自然语言生成技术将中间专家响应合成为一个连贯的最终答案。具体的参数设置、损失函数和网络结构等细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Comp-LLM在多个基准测试中实现了高达11.01%的精度提升,优于同等大小的单体LLM。同时,Comp-LLM能够将模型尺寸缩减1.67倍--3.56倍,且性能没有显著下降。此外,与顺序子查询处理相比,Comp-LLM提供了1.1倍--1.7倍的延迟改进。这些结果表明,Comp-LLM在精度、模型尺寸和推理延迟方面都具有显著优势。
🎯 应用场景
Comp-LLM可应用于各种需要复杂推理的NLP任务,例如问答系统、知识图谱推理、代码生成等。通过降低模型尺寸和推理延迟,Comp-LLM可以部署在资源受限的设备上,例如移动设备和边缘服务器。此外,Comp-LLM的可组合性使其能够灵活地适应不同的任务需求,具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) have achieved state-of-the-art accuracies in a variety of natural language processing (NLP) tasks. However, this success comes at the cost of increased model sizes which leads to additional computational burden. Mixture of Experts (MoEs) overcome this bottleneck by decoupling model capacity from computation by only activating a subset of parameters or "experts". However, these models require joint pretraining of these experts along with the router and do not model multi-step reasoning. In contrast, multi-agent frameworks improve reasoning by decomposing complex problems into modular subtasks. However, these frameworks rely on sequential "plan--act--observe" loops, which introduce significant latency. Our work, Comp-LLM, addresses these challenges by introducing a composable inference framework that enables cross-expert collaboration via an explicit sub-query dependency graph. Comp-LLM consists of three components: (1) A Sub-query Generator that decomposes an input query, assigns each sub-query to an appropriate expert using embedding similarity, and constructs a dependency graph; (2) A Query Executor that processes nodes in the graph and identifies opportunities for parallelism based on dependencies and resource constraints; and (3) A Response Aggregator that synthesizes intermediate expert responses into a coherent final answer. Across several benchmarks, Comp-LLM achieves up to 11.01% accuracy improvement over monolithic LLMs of similar size, while offering 1.67x--3.56x reduction in model size with no significant degradation relative to the largest model in its family. Additionally, Comp-LLM provides 1.1x--1.7x latency improvement compared to sequential sub-query processing.