Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing

作者: Lingxiao Zhao, Haoran Zhou, Yuezhi Che, Dazhao Cheng

分类: cs.DC, cs.LG

发布日期: 2025-12-19

💡 一句话要点

提出FlashCodec和UnifiedServe，通过GPU内调度和资源共享加速多阶段MLLM推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 GPU加速 视频解码 资源调度 系统优化

📋 核心要点

现有MLLM系统在多模态预处理（尤其是视频解码）上存在瓶颈，CPU解码速度慢，GPU解码又难以兼顾低延迟。
FlashCodec和UnifiedServe通过协同多GPU视频解码加速预处理，并解耦视觉编码和LLM推理，实现GPU资源共享。
实验表明，该框架相比现有系统，请求处理能力提升3倍，吞吐量提升4.4倍，并能满足更严格的服务质量要求。

📝 摘要（中文）

多模态大型语言模型(MLLM)通过三个阶段的流水线扩展了LLM的视觉理解能力：多模态预处理、视觉编码和LLM推理。这些阶段在增强能力的同时，也引入了显著的系统瓶颈。首先，多模态预处理，特别是视频解码，通常主导了首个token生成时间(TTFT)。大多数系统依赖于基于CPU的解码，这严重限制了吞吐量，而现有的基于GPU的方法优先考虑面向吞吐量的并行性，无法满足MLLM推理的延迟敏感性要求。其次，视觉编码器是一个独立的、计算密集型的阶段，它产生视觉嵌入，无法与LLM的预填充或解码进行联合批处理。这种异构性迫使阶段间阻塞，并增加了token生成延迟。即使部署在单独的GPU上，这些阶段也未能充分利用可用的计算和内存资源，从而降低了整体利用率并限制了系统吞吐量。为了解决这些挑战，我们提出了FlashCodec和UnifiedServe，这两个互补的设计共同优化了端到端的MLLM流水线。FlashCodec通过协作式多GPU视频解码加速了多模态预处理阶段，在降低解码延迟的同时保持了高吞吐量。UnifiedServe通过逻辑上解耦视觉到文本和推理阶段的执行来优化这两个阶段，从而消除阶段间阻塞，同时物理上共享GPU资源以最大化GPU系统利用率。通过精心编排跨阶段的执行并最小化干扰，UnifiedServe与FlashCodec共同构成了一个端到端优化的堆栈，与最先进的系统相比，可以处理多达3.0倍的请求或强制执行1.5倍更严格的SLO，同时实现高达4.4倍的吞吐量。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）推理过程中存在的系统瓶颈问题。具体来说，现有系统在视频解码等预处理阶段速度慢，且视觉编码器与LLM推理阶段无法有效协同，导致GPU资源利用率低，整体推理延迟高。现有方法要么依赖CPU解码，要么只关注GPU解码的吞吐量，无法同时满足低延迟和高吞吐的需求。

核心思路：论文的核心思路是通过软硬件协同优化，充分利用GPU资源，实现多阶段MLLM推理的加速。具体包括：1) 利用多GPU并行加速视频解码，降低预处理延迟；2) 解耦视觉编码和LLM推理阶段的执行，消除阶段间阻塞；3) 通过GPU内部的调度和资源共享，提高GPU利用率。

技术框架：论文提出了FlashCodec和UnifiedServe两个互补的设计。FlashCodec负责加速多模态预处理阶段，特别是视频解码。它采用协作式多GPU视频解码，将视频帧分配到多个GPU上并行解码，从而降低解码延迟。UnifiedServe负责优化视觉编码到文本和LLM推理阶段。它通过逻辑上解耦这两个阶段的执行，允许它们并行运行，避免了阶段间的阻塞。同时，UnifiedServe在物理上共享GPU资源，通过精细的调度，最大化GPU的利用率。

关键创新：论文的关键创新在于：1) 提出了协作式多GPU视频解码方案，有效降低了视频解码的延迟，同时保持了高吞吐量；2) 设计了UnifiedServe，通过逻辑解耦和物理共享，实现了视觉编码和LLM推理阶段的并行执行和资源共享，显著提高了GPU利用率。

关键设计：FlashCodec的关键设计在于如何将视频帧有效地分配到多个GPU上，以实现负载均衡和最小化通信开销。UnifiedServe的关键设计在于如何进行GPU内部的调度，以避免不同阶段之间的资源竞争和干扰，同时最大化GPU的利用率。具体的调度策略和资源分配算法在论文中可能有所涉及，但摘要中未明确说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与最先进的系统相比，该框架可以处理多达3.0倍的请求，或强制执行1.5倍更严格的SLO，同时实现高达4.4倍的吞吐量。这些数据表明，该方法在提高MLLM推理性能方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要实时多模态理解的场景，例如智能客服、视频分析、自动驾驶等。通过提高MLLM的推理速度和效率，可以显著提升用户体验，并降低部署成本。未来，该技术有望推动多模态大模型的广泛应用。

📄 摘要（原文）

Multimodal large language models (MLLMs) extend LLMs with visual understanding through a three-stage pipeline: multimodal preprocessing, vision encoding, and LLM inference. While these stages enhance capability, they introduce significant system bottlenecks. First, multimodal preprocessing-especially video decoding-often dominates Time-to-First-Token (TTFT). Most systems rely on CPU-based decoding, which severely limits throughput, while existing GPU-based approaches prioritize throughput-oriented parallelism and fail to meet the latency-sensitive requirements of MLLM inference. Second, the vision encoder is a standalone, compute-intensive stage that produces visual embeddings and cannot be co-batched with LLM prefill or decoding. This heterogeneity forces inter-stage blocking and increases token-generation latency. Even when deployed on separate GPUs, these stages underutilize available compute and memory resources, reducing overall utilization and constraining system throughput. To address these challenges, we present FlashCodec and UnifiedServe, two complementary designs that jointly optimize the end-to-end MLLM pipeline. FlashCodec accelerates the multimodal preprocessing stage through collaborative multi-GPU video decoding, reducing decoding latency while preserving high throughput. UnifiedServe optimizes the vision-to-text and inference stages using a logically decoupled their execution to eliminate inter-stage blocking, yet physically sharing GPU resources to maximize GPU system utilization. By carefully orchestrating execution across stages and minimizing interference, UnifiedServe Together, our proposed framework forms an end-to-end optimized stack that can serve up to 3.0$\times$ more requests or enforce 1.5$\times$ tighter SLOs, while achieving up to 4.4$\times$ higher throughput compared to state-of-the-art systems.

Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理