Efficient, VRAM-Constrained xLM Inference on Clients
作者: Aditya Ukarande, Deep Shekhar, Marc Blackstein, Ram Rangan
分类: cs.DC, cs.AR, cs.LG
发布日期: 2026-04-29
备注: Accepted at MLSys 2026 (Industry Track). 17 pages, 7 figures, 9 tables. Code and artifacts available at: https://github.com/deepshnv/pipeshard-mlsys26-ae
🔗 代码/项目: GITHUB
💡 一句话要点
提出流水线分片技术,实现VRAM受限的客户端高效xLM推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 客户端AI VRAM受限推理 大型语言模型 视觉语言模型 流水线分片 CPU卸载 混合专家模型
📋 核心要点
- 现有客户端AI推理面临VRAM资源限制,难以高效运行高精度大型语言模型和视觉语言模型。
- 论文提出流水线分片技术,结合CPU卸载、流水线计算等优化,实现VRAM受限下的高效推理。
- 实验结果表明,该方法在交互式和批处理模式下均显著提升了LLM和VLM的推理速度和效率。
📝 摘要(中文)
为了迎接下一轮客户端AI创新,迫切需要在客户端系统上实现高精度大型语言模型(LLM)和视觉语言模型(VLM)(统称为xLM)的高效、无损推理。为此,我们提出了一种新颖的、基准分析指导的CPU-GPU混合调度技术——流水线分片,以实现密集型和混合专家(MoE) LLM的高效、VRAM受限的推理。通过在子层级别进行模型分片、CPU卸载、流水线复制-计算以及VRAM中的优先级张量放置,它优化了首个token生成时间(TTFT)和每秒token数(TPS)指标,同时灵活地适应系统和推理条件。为了实现高效、高精度的VLM推理,我们将流水线分片与llama.cpp实现的三个已知的先前想法(统称为VLMOpt)相结合,即视觉张量CPU卸载、Flash Attention以及视觉和语言模型VRAM重叠避免。这些增强旨在改进NVIDIA两款重要产品(In-Game Inferencing软件开发工具包(IGI SDK)和Cosmos-Reason1 (CR1)物理AI推理VLM)未来版本中的客户端xLM推理。我们严格的评估涵盖了多个模型和客户端系统,亮点包括:对于交互式使用,LLM的TTFT提高了高达6.7倍,TPS提高了高达30倍,CR1推理的VRAM需求降低了10倍,而在批处理模式下,吞吐量提高了高达8.2倍,所有这些都与各自的激进基线相比。
🔬 方法详解
问题定义:现有方法在客户端设备上运行大型语言模型(LLM)和视觉语言模型(VLM)时,面临着严重的VRAM资源限制问题。由于模型参数量巨大,传统的推理方法难以在VRAM容量有限的客户端设备上实现高效推理,导致推理速度慢,甚至无法运行。
核心思路:论文的核心思路是利用CPU和GPU的协同计算能力,通过模型分片、CPU卸载和流水线计算等技术,将计算任务合理地分配到CPU和GPU上,从而在VRAM受限的情况下实现高效推理。通过优化数据传输和计算调度,最大限度地利用硬件资源,降低VRAM需求。
技术框架:整体框架包含以下几个主要模块:1) 模型分片模块:将模型在子层级别进行分片,使得每个GPU只需要加载部分模型参数。2) CPU卸载模块:将部分计算任务(如视觉张量处理)卸载到CPU上执行,从而减轻GPU的负担。3) 流水线复制-计算模块:通过流水线的方式进行数据复制和计算,使得数据传输和计算可以并行进行,提高整体效率。4) 优先级张量放置模块:根据张量的重要性,在VRAM中进行优先级放置,保证关键张量能够优先访问。
关键创新:论文的关键创新在于提出了流水线分片技术,这是一种新颖的CPU-GPU混合调度技术,能够有效地解决VRAM受限下的LLM和VLM推理问题。该技术通过模型分片、CPU卸载和流水线计算等手段,实现了计算任务的合理分配和优化调度,从而在VRAM容量有限的情况下实现了高效推理。
关键设计:论文的关键设计包括:1) 子层级别的模型分片策略,能够灵活地适应不同的模型结构和硬件资源。2) 基于基准分析的调度策略,能够根据不同的系统和推理条件,动态地调整计算任务的分配。3) 视觉张量CPU卸载策略,能够有效地减轻GPU的负担,降低VRAM需求。4) Flash Attention和VRAM重叠避免策略,进一步优化了VLM的推理效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在交互式使用中,LLM的TTFT提高了高达6.7倍,TPS提高了高达30倍,CR1推理的VRAM需求降低了10倍。在批处理模式下,吞吐量提高了高达8.2倍。这些结果表明,该方法能够显著提升客户端设备上LLM和VLM的推理效率,并降低VRAM需求。
🎯 应用场景
该研究成果可广泛应用于各种需要客户端AI推理的场景,例如移动设备上的智能助手、边缘计算设备上的实时图像处理、游戏中的智能NPC等。通过降低VRAM需求和提高推理速度,该方法使得在资源受限的客户端设备上运行高精度大型模型成为可能,从而推动了客户端AI的普及和发展。
📄 摘要(原文)
To usher in the next round of client AI innovation, there is an urgent need to enable efficient, lossless inference of high-accuracy large language models (LLMs) and vision language models (VLMs), jointly referred to as xLMs, on client systems. To address this, we present pipelined sharding, a novel, benchmark-profile-guided CPU-GPU hybrid scheduling technique to achieve efficient, VRAM-constrained inference for both dense and mixture-of-experts (MoE) LLMs. Using a combination of model sharding at the sub-layer level, CPU offloading, pipelined copy-compute, and prioritized tensor placement in VRAM, it optimizes both time-to-first-token (TTFT) and tokens per second (TPS) metrics, while flexibly adapting to system and inference conditions. For efficient, high-accuracy VLM inference, we combine pipelined sharding with a llama.cpp implementation of three well-understood prior ideas (jointly called VLMOpt), namely, vision tensor CPU offloading, flash attention, and vision and language model VRAM overlap avoidance. These enhancements are targeted at improving client xLM inference in future releases of two important NVIDIA products - the In-Game Inferencing software development kit (IGI SDK) and the Cosmos-Reason1 (CR1) physical AI reasoning VLM. Highlights from our rigorous evaluation spanning multiple models and client systems include: for interactive use, TTFT improves by up to 6.7x and TPS by up to 30x for LLMs, and CR1 inference's VRAM demand is down by 10x, while in batched mode, throughput improves by up to 8.2x, all compared to their respective aggressive baselines. This paper is accepted at the 9th MLSys Conference (Industry Track), 2026. Code and artifact available at: https://github.com/deepshnv/pipeshard-mlsys26-ae