ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism

📄 arXiv: 2507.10069v3 📥 PDF

作者: Zedong Liu, Shenggan Cheng, Guangming Tan, Yang You, Dingwen Tao

分类: cs.DC, cs.LG

发布日期: 2025-07-14 (更新: 2025-11-11)

备注: Accepted at NeurIPS 2025 Oral (Thirty-Ninth Conference on Neural Information Processing Systems)


💡 一句话要点

ElasticMM:通过弹性多模态并行加速多模态LLM服务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 推理加速 弹性并行 服务架构 资源调度

📋 核心要点

  1. 现有MLLM服务架构难以适应混合请求类型和不同推理阶段,导致TTFT延迟高和资源利用率低。
  2. ElasticMM提出弹性多模态并行(EMP)范式,动态适应资源异构性,优化MLLM推理。
  3. 实验表明,ElasticMM显著降低TTFT并提高吞吐量,优于现有SOTA服务系统。

📝 摘要(中文)

多模态大型语言模型(MLLM)通过整合特征提取器和投影模块,扩展了LLM以处理图像、视频和音频。然而,这些额外的组件,加上复杂的推理流程和异构工作负载,带来了显著的推理开销。因此,高效地服务MLLM仍然是一个主要的挑战。当前紧耦合的服务架构难以区分混合请求类型或使并行策略适应不同的推理阶段,导致首个token生成时间(TTFT)延迟增加和资源利用率低下。为了解决这个问题,我们引入了弹性多模态并行(EMP),这是一种新的服务范式,可以弹性地适应跨请求类型和推理阶段的资源异构性。基于EMP,我们开发了ElasticMM,一个MLLM服务系统,它(1)通过模态感知负载均衡器将请求分离成独立的模态组,并进行动态资源分配;(2)解耦推理阶段,并通过弹性分区调度实现并行调整和自适应扩展;(3)通过统一的多模态前缀缓存和非阻塞编码提高推理效率。在各种真实世界数据集上的实验表明,ElasticMM优于最先进(SOTA)的服务系统,在满足服务级别目标(SLO)的同时,将TTFT降低高达4.2倍,并实现3.2-4.5倍更高的吞吐量。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)服务中存在的推理效率问题。现有的紧耦合服务架构无法有效处理不同模态的混合请求,并且难以根据推理阶段动态调整并行策略,导致首个token生成时间(TTFT)过长,资源利用率低下。

核心思路:论文的核心思路是引入弹性多模态并行(EMP)范式,通过解耦推理阶段和动态资源分配,使MLLM服务能够弹性地适应不同模态请求和推理阶段的资源需求。这种方法旨在优化资源利用率,降低TTFT,并提高整体吞吐量。

技术框架:ElasticMM系统包含三个主要模块:(1)模态感知负载均衡器,用于将请求分离成独立的模态组,并进行动态资源分配;(2)弹性分区调度器,用于解耦推理阶段,并实现并行调整和自适应扩展;(3)统一的多模态前缀缓存和非阻塞编码机制,用于提高推理效率。整体流程是:接收到请求后,负载均衡器根据模态类型进行分组,然后分配资源给不同的模态组。每个模态组的推理过程被解耦成多个阶段,弹性分区调度器根据资源情况动态调整每个阶段的并行度。最后,通过前缀缓存和非阻塞编码进一步优化推理效率。

关键创新:论文的关键创新在于提出了弹性多模态并行(EMP)范式,这是一种新的服务架构,能够根据请求类型和推理阶段动态调整资源分配和并行策略。与传统的紧耦合服务架构相比,EMP能够更好地适应MLLM的异构工作负载,从而提高推理效率。

关键设计:模态感知负载均衡器使用加权轮询算法,根据不同模态的资源需求动态调整权重。弹性分区调度器使用基于成本模型的优化算法,确定每个推理阶段的最佳并行度。统一的多模态前缀缓存采用LRU策略,缓存常用的多模态特征向量。非阻塞编码使用异步IO操作,避免阻塞主线程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ElasticMM在各种真实世界数据集上优于最先进(SOTA)的服务系统,在满足服务级别目标(SLO)的同时,将TTFT降低高达4.2倍,并实现3.2-4.5倍更高的吞吐量。这些结果验证了EMP范式的有效性,并表明ElasticMM能够显著提高MLLM服务的效率。

🎯 应用场景

ElasticMM可应用于各种需要高效多模态LLM服务的场景,如智能客服、多模态内容创作、智能医疗诊断等。通过优化推理效率,ElasticMM能够降低服务成本,提高用户体验,并促进MLLM在实际应用中的广泛部署。未来,该研究可以扩展到支持更多模态类型和更复杂的推理流程。

📄 摘要(原文)

Multimodal large language models (MLLMs) extend LLMs to handle images, videos, and audio by incorporating feature extractors and projection modules. However, these additional components -- combined with complex inference pipelines and heterogeneous workloads -- introduce significant inference overhead. Therefore, efficiently serving MLLMs remains a major challenge. Current tightly coupled serving architectures struggle to distinguish between mixed request types or adapt parallelism strategies to different inference stages, leading to increased time-to-first-token (TTFT) latency and poor resource utilization. To address this, we introduce Elastic Multimodal Parallelism (EMP), a new serving paradigm that elastically adapts to resource heterogeneity across request types and inference stages. Building upon EMP, we develop ElasticMM, an MLLM serving system that (1) separates requests into independent modality groups with dynamic resource allocation via a modality-aware load balancer; (2) decouples inference stages and enables parallelism adjustment and adaptive scaling via elastic partition scheduling; and (3) improves inference efficiency through unified multimodal prefix caching and non-blocking encoding. Experiments on diverse real-world datasets show that ElasticMM outperforms state-of-the-art (SOTA) serving systems, reducing TTFT by up to 4.2x and achieving 3.2-4.5x higher throughput while meeting service-level objectives (SLOs).