Accelerating LLM Inference with Precomputed Query Storage

📄 arXiv: 2509.25919v1 📥 PDF

作者: Jay H. Park, Youngju Cho, Choungsol Lee, Moonwook Oh, Euiseong Seo

分类: cs.DC, cs.AI

发布日期: 2025-09-30


💡 一句话要点

StorInfer:利用预计算查询存储加速LLM推理,尤其适用于资源受限环境。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM推理加速 预计算 存储辅助 低延迟 边缘计算 向量数据库 自适应查询生成

📋 核心要点

  1. 现有LLM推理在资源受限环境下延迟高,严重影响用户体验,尤其是在边缘设备上。
  2. StorInfer通过预计算并存储查询-响应对,在运行时直接检索,避免重复推理,降低延迟。
  3. 实验表明,StorInfer在保证响应质量的前提下,可降低高达17.3%的推理延迟,效果显著。

📝 摘要(中文)

大型语言模型(LLM)推理通常面临高延迟问题,尤其是在设备端或边缘部署等资源受限环境中。为了解决这一挑战,我们提出了StorInfer,一种新颖的存储辅助LLM推理系统,通过离线预计算和存储可预测的查询-响应对来加速响应时间。当用户查询在语义上与预计算查询匹配时,StorInfer会绕过昂贵的GPU推理,并立即返回存储的响应,从而显著降低延迟和计算成本。为了最大化覆盖率和有效性,StorInfer采用LLM驱动的生成器,该生成器基于给定的知识库自适应地生成多样化和去重的查询。这通过两种技术实现:自适应查询掩码,防止重新生成相似查询;自适应采样,动态调整生成参数以促进语义多样性。生成的查询-响应对被嵌入并使用磁盘支持的向量数据库进行索引,以实现运行时快速的基于相似性的检索。使用这种方法,我们生成了15万个独特的预计算对(占用高达830 MB的存储空间),实现了高达17.3%的延迟降低,且不损失响应质量。我们在多个QA数据集上的评估证明了存储辅助推理的实用性和可扩展性,尤其是在具有可预测查询分布的场景中。StorInfer突出了利用存储作为高效、低延迟LLM部署的主要推动因素这一有希望的方向。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在资源受限环境(如边缘设备)中推理延迟过高的问题。现有方法依赖于实时计算,计算量大,无法满足低延迟需求。尤其是在查询具有一定可预测性的场景下,重复计算造成了资源浪费。

核心思路:论文的核心思路是利用预计算和存储来避免重复的在线推理。通过离线预先计算并存储常见的查询及其对应的响应,在运行时直接从存储中检索结果,从而显著降低延迟和计算成本。这种方法尤其适用于查询分布具有一定规律性的场景。

技术框架:StorInfer系统主要包含以下几个阶段:1) 离线预计算阶段:利用LLM驱动的生成器,基于知识库生成多样化的查询,并计算对应的响应,形成查询-响应对。2) 存储阶段:将查询-响应对进行嵌入,并使用磁盘支持的向量数据库进行索引,以便快速检索。3) 在线推理阶段:接收用户查询,计算其嵌入向量,并在向量数据库中查找最相似的预计算查询。如果相似度超过阈值,则直接返回预计算的响应;否则,进行正常的LLM推理。

关键创新:论文的关键创新在于:1) LLM驱动的自适应查询生成:使用LLM生成器,通过自适应查询掩码和自适应采样技术,生成多样化且去重的查询,最大化预计算的覆盖率。2) 存储辅助的快速检索:利用向量数据库对预计算的查询进行索引,实现快速的基于相似性的检索,从而避免昂贵的在线推理。

关键设计:1) 自适应查询掩码:防止LLM生成器重复生成相似的查询,提高查询的多样性。具体实现方式未知。2) 自适应采样:动态调整LLM生成器的采样参数,例如温度系数,以控制生成查询的语义多样性。具体调整策略未知。3) 相似度阈值:用于判断用户查询是否与预计算查询匹配的阈值,需要根据实际应用场景进行调整。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,StorInfer在多个QA数据集上实现了显著的性能提升。通过生成15万个预计算查询-响应对(占用830MB存储空间),实现了高达17.3%的延迟降低,且不损失响应质量。这表明StorInfer在保证准确性的前提下,能够有效降低LLM推理的延迟,具有很强的实用价值。

🎯 应用场景

StorInfer适用于各种需要低延迟LLM推理的场景,例如智能客服、移动设备上的问答应用、边缘计算环境下的实时数据分析等。通过预计算和存储,可以显著降低计算成本,提高响应速度,提升用户体验。该方法尤其适用于查询具有一定可预测性的应用场景,例如特定领域的知识问答。

📄 摘要(原文)

Large language model (LLM) inference often suffers from high latency, particularly in resource-constrained environments such as on-device or edge deployments. To address this challenge, we present StorInfer, a novel storage-assisted LLM inference system that accelerates response time by precomputing and storing predictable query-response pairs offline. When a user query semantically matches a precomputed query, StorInfer bypasses expensive GPU inference and instantly returns the stored response, significantly reducing latency and compute costs. To maximize coverage and effectiveness, StorInfer employs an LLM-driven generator that adaptively produces diverse and deduplicated queries based on a given knowledge base. This is achieved via two techniques: adaptive query masking, which prevents regeneration of similar queries, and adaptive sampling, which dynamically tunes generation parameters to promote semantic diversity. The resulting query-response pairs are embedded and indexed using a disk-backed vector database to enable fast, similarity-based retrieval at runtime. Using this approach, we generated 150K unique precomputed pairs (taking up to 830 MB of storage space), achieving up to 17.3% latency reduction with no loss in response quality. Our evaluation across multiple QA datasets demonstrates the practicality and scalability of storage-assisted inference, especially in scenarios with predictable query distributions. StorInfer highlights a promising direction in leveraging storage as a primary enabler for efficient, low-latency LLM deployment.