FineServe: Precision-Aware KV Slab and Two-Level Scheduling for Heterogeneous Precision LLM Serving
作者: Kyungmin Bin, Seungbeom Choi, Jimyoung Son, Jieun Choi, Daseul Bae, Daehyeon Baek, Kihyo Moon, Minsung Jang, Hyojung Lee
分类: cs.DC, cs.LG
发布日期: 2025-09-08 (更新: 2025-09-15)
💡 一句话要点
FineServe:面向异构精度LLM服务的精度感知KV Slab和双层调度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型服务 混合精度量化 GPU共享 内存管理 调度优化 KV缓存 推理加速
📋 核心要点
- 现有LLM服务在混合精度场景下面临内存碎片和调度效率问题,量化模型KV缓存小,资源利用模式与非量化模型不同。
- FineServe提出精度感知的KV Slab内存管理和双层调度框架,动态分配KV缓存并优化模型在GPU上的放置和批处理大小。
- 实验表明,FineServe相比现有GPU共享系统,SLO达成率提升高达2.2倍,token生成吞吐量提升高达1.8倍。
📝 摘要(中文)
后训练量化(PTQ)技术的进步显著增加了对量化大语言模型(LLM)服务的需求,它以最小的精度损失实现了更高的吞吐量和显著降低的内存使用。量化模型通过高效的GPU共享解决了LLM中的内存约束并增强了GPU资源利用率。然而,量化模型的KV块大小比非量化模型小,导致内存碎片化,从而限制了内存效率。此外,量化模型和非量化模型之间不同的资源使用模式需要高效的调度以最大化吞吐量。为了应对这些挑战,我们提出了FineServe,一个用于混合精度LLM的推理服务框架。FineServe的关键贡献包括:(1) KV Slab,一种精度感知的自适应内存管理技术,它基于模型量化特性动态分配KV缓存,显著减少了GPU内存碎片;(2) 一个双层调度框架,包含一个全局调度器,它基于请求率、延迟SLO和内存约束及效率将模型放置到GPU上,以及一个本地调度器,它根据实时请求波动自适应地调整批大小。实验结果表明,与最先进的GPU共享系统相比,FineServe实现了高达2.2倍的SLO达成率和1.8倍的token生成吞吐量。
🔬 方法详解
问题定义:现有LLM服务系统在处理混合精度模型时,由于量化模型KV缓存块较小,容易造成GPU内存碎片,降低内存利用率。同时,不同精度模型具有不同的资源使用模式,传统的调度策略无法有效平衡吞吐量和延迟,导致资源利用率不高。
核心思路:FineServe的核心思路是针对不同精度模型的特性,进行精度感知的内存管理和调度优化。通过动态调整KV缓存的分配,减少内存碎片;通过双层调度框架,全局优化模型放置,局部优化批处理大小,从而提高整体的资源利用率和性能。
技术框架:FineServe包含两个主要模块:KV Slab和双层调度框架。KV Slab是一个精度感知的内存管理模块,根据模型的量化特性动态分配KV缓存。双层调度框架包含一个全局调度器和一个本地调度器。全局调度器根据请求率、延迟SLO和内存约束,将模型放置到合适的GPU上。本地调度器根据实时请求波动,自适应地调整批处理大小。
关键创新:FineServe的关键创新在于精度感知的KV Slab内存管理和双层调度框架。KV Slab能够有效减少内存碎片,提高内存利用率。双层调度框架能够全局优化模型放置和局部优化批处理大小,从而提高整体的资源利用率和性能。与现有方法相比,FineServe能够更好地适应混合精度LLM服务的需求。
关键设计:KV Slab根据模型的量化级别动态调整KV缓存块的大小,以减少内存碎片。全局调度器使用基于请求率、延迟SLO和内存约束的优化算法,将模型放置到合适的GPU上。本地调度器使用自适应批处理算法,根据实时请求波动调整批处理大小,以平衡吞吐量和延迟。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FineServe在混合精度LLM服务场景下,相比于最先进的GPU共享系统,SLO达成率提升高达2.2倍,token生成吞吐量提升高达1.8倍。这些显著的性能提升证明了FineServe在提高资源利用率和降低服务延迟方面的有效性。
🎯 应用场景
FineServe适用于需要部署混合精度LLM服务的场景,例如在线问答、文本生成、代码生成等。它可以提高GPU资源利用率,降低服务延迟,并支持更大规模的模型部署。该研究成果有助于推动LLM在资源受限环境下的应用,并为未来的LLM服务系统设计提供参考。
📄 摘要(原文)
Recent advances in Post-Training Quantization (PTQ) techniques have significantly increased demand for serving quantized large language models (LLMs), enabling higher throughput and substantially reduced memory usage with minimal accuracy loss. Quantized models address memory constraints in LLMs and enhance GPU resource utilization through efficient GPU sharing. However, quantized models have smaller KV block sizes than non-quantized models, causing limited memory efficiency due to memory fragmentation. Also, distinct resource usage patterns between quantized and non-quantized models require efficient scheduling to maximize throughput. To address these challenges, we propose FineServe, an inference serving framework for mixed-precision LLMs. FineServe's key contributions include: (1) KV Slab, a precision-aware adaptive memory management technique dynamically allocating KV cache based on model quantization characteristics, significantly reducing GPU memory fragmentation, and (2) a two-level scheduling framework comprising a global scheduler that places models to GPUs based on request rates, latency SLOs, and memory constraints and efficiency, and a local scheduler that adaptively adjusts batch sizes according to real-time request fluctuations. Experimental results demonstrate that FineServe achieves up to 2.2x higher SLO attainment and 1.8x higher token generation throughput compared to the state-of-the-art GPU sharing systems.