Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity

📄 arXiv: 2603.12707v1 📥 PDF

作者: Donglin Yu

分类: cs.LG, cs.AI, cs.DC

发布日期: 2026-03-13


💡 一句话要点

提出跨层GPU异构性以降低多模态大语言模型推理成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 推理优化 跨层异构性 资源调度 视觉编码 语言生成 成本效益

📋 核心要点

  1. 现有的多模态大语言模型推理方法在计算和内存带宽需求上存在矛盾,导致性能瓶颈和高成本。
  2. 论文提出了一种模态级分区的方法,通过优化模态边界来减少跨设备数据传输,提高推理效率。
  3. 实验结果表明,HeteroServe在相同硬件上提升了吞吐量,并在固定预算下显著提高了Tokens/$的效率。

📝 摘要(中文)

多模态大语言模型(MLLM)推理分为两个阶段,分别对计算和内存带宽有不同的需求。本文展示了在标准变换器KV缓存下,模态边界能够在保留标准阶段执行的前提下,最小化跨设备传输。通过分区,传输复杂度从O(L * s_ctx)字节降低到O(N_v * d)字节,L为变换器深度。该结果在不同的注意力机制、动态视觉分辨率和模型规模下均有效,且随着模型的加深优势愈发明显。我们构建了HeteroServe,一个具有模态级分区和跨层调度的运行时,并在LLaVA-1.5-7B和Qwen2.5-VL上进行了评估。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型推理中计算与内存带宽需求不匹配的问题。现有方法在阶段级分解时,导致高带宽互连的需求和高成本。

核心思路:通过模态级分区,优化模态边界以减少跨设备的数据传输,从而降低推理成本和复杂度。此设计使得在不同硬件环境下也能实现高效推理。

技术框架:整体架构包括两个主要模块:视觉编码和语言生成。视觉编码为计算密集型,语言生成则为内存带宽密集型。HeteroServe通过动态调度和模态级分区实现高效的资源利用。

关键创新:最重要的创新在于模态级分区的引入,使得在标准阶段执行下,跨设备传输复杂度显著降低。这一方法与现有的阶段级分解方法本质上不同,后者依赖于高带宽互连。

关键设计:在设计中,采用了动态视觉分辨率和多种注意力机制(如MHA/GQA),并通过闭式成本模型预测了异构部署的成本效益,观察到的节省达40.6%。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在相同的4xA100硬件上,HeteroServe通过引擎优化将吞吐量提高了54%。在固定预算下,异构集群($38k)相比于同质基线($64k)提高了37%的Tokens/$,且未降低延迟。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动驾驶、机器人视觉等多模态交互场景。通过降低推理成本和提高效率,HeteroServe能够在资源受限的环境中实现高效的多模态推理,推动相关技术的普及和应用。

📄 摘要(原文)

Multimodal large language model (MLLM) inference splits into two phases with opposing hardware demands: vision encoding is compute-bound, while language generation is memory-bandwidth-bound. We show that under standard transformer KV caching, the modality boundary (between vision encoder and language model) minimizes cross-device transfer among all partition points that preserve standard stage-based execution. Partitioning here reduces transfer complexity from $O(L * s_ctx)$ bytes (GB-scale KV caches under stage-level disaggregation) to $O(N_v * d)$ bytes (MB-scale embeddings), an O(L) reduction where L is the transformer depth. The result holds across attention mechanisms (MHA/GQA), dynamic vision resolutions, and model scales, and the advantage grows as models deepen. A direct implication is that existing stage-level disaggregation systems are constrained to high-bandwidth interconnects (e.g., NVLink), whereas modality-level disaggregation enables cross-tier heterogeneous serving over commodity PCIe. A closed-form cost model shows that heterogeneous deployment is cost-optimal under phase-separable workloads (predicts 31.4% savings; observed 40.6%). We build HeteroServe, a phase-aware runtime with modality-level partitioning and cross-tier scheduling, and evaluate it on LLaVA-1.5-7B and Qwen2.5-VL against vLLM v0.3.0. On identical 4xA100 hardware, engine optimizations raise throughput by up to 54%. Under a fixed budget, a heterogeneous cluster (\$38k) improves Tokens/\$ by 37% over a homogeneous baseline (\$64k) without degrading latency.