FMplex: Model Virtualization for Serving Extensible Foundation Models
作者: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy
分类: cs.DC, cs.AI, cs.LG, cs.OS
发布日期: 2026-06-08
💡 一句话要点
提出FMplex以解决模型服务中的资源浪费问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 基础模型 虚拟化 模型服务 资源共享 调度算法 任务隔离 性能优化
📋 核心要点
- 现有模型服务系统将每个定制任务视为独立模型实例,导致资源浪费和性能瓶颈。
- FMplex通过虚拟化基础模型,允许多个任务共享同一物理基础模型,同时保持任务特定的扩展和隔离。
- 实验结果显示,FMplex在集群规模上将延迟降低了最高80%,并能同时托管多达6倍的任务。
📝 摘要(中文)
基础模型(FMs)越来越多地作为语言、视觉、时间序列和多模态应用的下游任务的支撑。然而,现有的模型服务系统将每个定制任务作为独立模型实例进行部署,导致重复使用重量级基础模型,浪费加速器内存,并失去批处理和加载成本的摊销机会。本文提出FMplex,一个将基础模型视为虚拟化基础设施的服务系统,允许任务共享基础模型。FMplex为每个任务提供一个虚拟基础模型(vFM),这是一个逻辑上私有的FM实例,背后由共享的物理FM支持。这种抽象使得独立定制的任务能够共享基础模型,同时保留任务特定的扩展、独立生命周期和任务级隔离。此外,我们提出了一种批量感知的公平排队调度器,结合了加权任务级共享与共置任务间和任务内的批处理。通过对7个FM基础模型(16个变体)和92个下游任务的实验,FMplex在集群规模上将延迟降低了最高80%。
🔬 方法详解
问题定义:现有的模型服务系统在处理多个定制任务时,通常会为每个任务创建独立的模型实例。这种方法不仅浪费了加速器的内存资源,还导致了批处理和加载成本的浪费,影响了整体性能。
核心思路:FMplex的核心思想是将基础模型视为虚拟化的基础设施,通过创建虚拟基础模型(vFM)来实现任务之间的共享。每个vFM逻辑上是私有的,但实际上是由一个共享的物理基础模型支持,从而实现了资源的高效利用。
技术框架:FMplex的整体架构包括任务构建、共享感知的部署和运行时执行三个主要模块。任务构建模块负责生成vFM,部署模块实现任务的共享,而运行时执行模块则负责调度和执行任务。
关键创新:FMplex的主要创新在于引入了虚拟基础模型的概念,使得多个任务能够共享同一基础模型,同时保持独立性和隔离性。这种设计与传统的独立模型实例方法有本质区别,显著提高了资源利用率。
关键设计:在FMplex中,调度器采用了批量感知的公平排队策略,结合了加权任务级共享和任务间、任务内的批处理。这种设计优化了任务的执行效率,并减少了延迟。具体的参数设置和调度策略在论文中有详细描述。
📊 实验亮点
FMplex在实验中表现出色,相较于空间分区方法,延迟降低了最高80%;与最佳努力共置方法相比,延迟降低了33.3%。此外,FMplex能够在集群规模上同时托管多达6倍的任务,显示出其优越的资源利用能力。
🎯 应用场景
FMplex的研究成果在多个领域具有广泛的应用潜力,尤其是在需要处理大量下游任务的场景,如自然语言处理、计算机视觉和多模态学习等。通过提高模型服务的效率,FMplex能够显著降低延迟和资源消耗,推动智能应用的普及和发展。
📄 摘要(原文)
Foundation models (FMs) are increasingly used as backbones for downstream tasks across language, vision, time-series, and multimodal applications. Yet existing model-serving systems deploy each customized task as an independent model instance, thereby replicating heavyweight backbones, wasting accelerator memory, and losing opportunities to amortize batching and loading costs. This paper presents FMplex, a serving system that treats FM backbones as a virtualization substrate for deployment sharing. FMplex presents each task with a virtual foundation model (vFM), a logically private FM instance backed by a shared physical FM. This abstraction lets independently customized tasks share a backbone while preserving task-specific extensions, independent lifecycles, and task-level isolation. In addition, we propose a batch-aware fair-queueing scheduler that combines weighted task-level sharing with inter- and intra-task batching across colocated tasks. We implement a FMplex-based serving stack spanning task construction, sharing-aware deployment, and runtime execution. Across 7 FM backbones (16 variants) and 92 downstream tasks, FMplex reduces latency by up to 80% over spatial partitioning and 33.3% over best-effort co-location, while hosting up to 6x more tasks at cluster scale.