DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference
作者: Bodon Jeong, Hongsu Byun, Youngjae Kim, Weikuan Yu, Kyungkeun Lee, Jihoon Yang, Sungyong Park
分类: cs.DC, cs.AI, cs.PF
发布日期: 2026-04-29
备注: To appear in IEEE International Conference on Distributed Computing Systems (ICDCS) 2026
💡 一句话要点
DUAL-BLADE:用于边缘LLM推理的双路径NVMe直连KV缓存卸载
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 大型语言模型 KV缓存 NVMe 推理优化
📋 核心要点
- 边缘LLM推理面临内存限制,KV缓存易超出设备内存,现有基于文件的NVMe卸载方案依赖内核页缓存,导致性能瓶颈。
- DUAL-BLADE根据运行时内存可用性,动态分配KV张量到页缓存或NVMe直连路径,绕过文件系统,降低存储访问开销。
- DUAL-BLADE结合自适应流水线并行,重叠存储I/O与GPU DMA,提升推理吞吐量,实验表明显著降低延迟并提高SSD利用率。
📝 摘要(中文)
随着大型语言模型(LLM)在边缘AI系统上的部署日益增多,在严格的内存预算下实现高效执行变得至关重要。一个关键挑战来自Key-Value(KV)缓存,它通常超过可用设备内存。虽然基于NVMe的卸载提供了可扩展的容量,但现有的基于文件的设计严重依赖内核页缓存,导致缓存抖动、不可预测的延迟以及在高内存压力下的高软件开销。我们提出了DUAL-BLADE,一种双路径KV驻留框架,它根据运行时内存可用性动态地将KV张量分配到页缓存路径或NVMe直连路径。NVMe直连路径通过将KV张量映射到连续的逻辑块地址(LBA)区域来绕过文件系统,从而实现低开销的直接存储访问。DUAL-BLADE进一步结合了自适应流水线并行性,以将存储I/O与GPU DMA重叠,从而提高推理吞吐量。我们的评估表明,DUAL-BLADE显著缓解了I/O瓶颈,分别将预填充和解码延迟降低了高达33.1%和42.4%,同时在不同的内存预算下将SSD利用率提高了2.2倍。
🔬 方法详解
问题定义:论文旨在解决边缘设备上部署大型语言模型时,由于内存资源有限,KV缓存超出设备内存容量,导致推理性能下降的问题。现有基于NVMe的KV缓存卸载方案依赖于内核页缓存,在高内存压力下会产生缓存抖动、延迟不稳定以及软件开销过高等问题。
核心思路:论文的核心思路是设计一个双路径KV缓存驻留框架,根据运行时内存的可用情况,动态地将KV张量分配到不同的存储路径。当内存充足时,使用传统的页缓存路径;当内存不足时,使用NVMe直连路径,绕过文件系统,直接访问存储设备。这种动态分配策略旨在平衡内存使用和存储访问效率,从而优化整体推理性能。
技术框架:DUAL-BLADE框架包含两个主要路径:页缓存路径和NVMe直连路径。KV张量根据内存可用性被动态分配到这两个路径之一。NVMe直连路径通过将KV张量映射到连续的逻辑块地址(LBA)区域来实现低开销的直接存储访问。此外,DUAL-BLADE还采用了自适应流水线并行技术,将存储I/O操作与GPU DMA操作重叠,进一步提高推理吞吐量。整体流程包括内存监控、KV张量分配、数据读写以及流水线并行执行等步骤。
关键创新:DUAL-BLADE的关键创新在于其双路径KV缓存驻留框架和NVMe直连路径的设计。与传统的基于文件的NVMe卸载方案相比,DUAL-BLADE能够绕过文件系统,直接访问存储设备,从而显著降低存储访问延迟和软件开销。此外,动态分配策略和自适应流水线并行技术进一步优化了内存使用和推理吞吐量。
关键设计:DUAL-BLADE的关键设计包括:1) 内存监控模块,用于实时监测系统内存的可用情况;2) KV张量分配策略,根据内存可用性动态地将KV张量分配到不同的存储路径;3) NVMe直连路径的实现,通过将KV张量映射到连续的LBA区域来实现低开销的直接存储访问;4) 自适应流水线并行机制,根据GPU和存储设备的性能动态调整流水线深度,以实现最佳的推理吞吐量。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DUAL-BLADE能够显著缓解I/O瓶颈,将预填充和解码延迟分别降低高达33.1%和42.4%。同时,DUAL-BLADE在不同的内存预算下,将SSD利用率提高了2.2倍。这些数据表明,DUAL-BLADE在提升边缘LLM推理性能方面具有显著优势。
🎯 应用场景
DUAL-BLADE技术可广泛应用于边缘AI推理场景,例如智能手机、自动驾驶汽车、机器人等资源受限的设备。通过高效地管理KV缓存,DUAL-BLADE能够提升边缘设备上大型语言模型的推理性能,从而支持更复杂的AI应用。该研究对于推动边缘计算和人工智能的发展具有重要意义,未来有望在更多领域得到应用。
📄 摘要(原文)
The increasing deployment of Large Language Model (LLM) inference on edge AI systems demands efficient execution under tight memory budgets. A key challenge arises from Key-Value (KV) caches, which often exceed available device memory. Although NVMe-based offloading offers scalable capacity, existing file-based designs rely heavily on the kernel page cache, leading to cache thrashing, unpredictable latency, and high software overhead under memory pressure. We present DUAL-BLADE, a dual-path KV residency framework that dynamically assigns KV tensors to either a page-cache path or an NVMe-direct path based on runtime memory availability. The NVMe-direct path bypasses the filesystem by mapping KV tensors to contiguous logical block address (LBA) regions, enabling low-overhead direct storage access. DUAL-BLADE further incorporates adaptive pipeline parallelism to overlap storage I/O with GPU DMA, improving inference throughput. Our evaluation shows that DUAL-BLADE substantially mitigates I/O bottlenecks, reducing prefill and decode latency by up to 33.1% and 42.4%, respectively, while improving SSD utilization by 2.2x across diverse memory budgets.