Accelerating LLM Inference with Precomputed Query Storage

作者: Jay H. Park, Youngju Cho, Choungsol Lee, Moonwook Oh, Euiseong Seo

分类: cs.DC, cs.AI

发布日期: 2025-09-30

💡 一句话要点

StorInfer：利用预计算查询存储加速LLM推理，尤其适用于资源受限环境

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM推理加速 预计算 存储辅助推理 向量数据库 低延迟 资源受限环境 自适应查询生成

📋 核心要点

LLM推理在资源受限设备上延迟高昂，传统方法依赖昂贵的GPU计算。
StorInfer预计算并存储查询-响应对，通过语义匹配直接返回结果，避免实时推理。
实验表明，StorInfer在保证质量的前提下，显著降低了推理延迟，提升了效率。

📝 摘要（中文）

大型语言模型（LLM）推理通常面临高延迟问题，尤其是在设备端或边缘部署等资源受限环境中。为了解决这一挑战，我们提出了StorInfer，一种新颖的存储辅助LLM推理系统，通过离线预计算和存储可预测的查询-响应对来加速响应时间。当用户查询在语义上与预计算查询匹配时，StorInfer绕过昂贵的GPU推理，立即返回存储的响应，从而显著降低延迟和计算成本。为了最大化覆盖率和有效性，StorInfer采用LLM驱动的生成器，该生成器基于给定的知识库自适应地生成多样化和去重的查询。这通过两种技术实现：自适应查询掩码，防止重新生成相似查询；自适应采样，动态调整生成参数以促进语义多样性。生成的查询-响应对被嵌入并使用磁盘支持的向量数据库进行索引，以实现运行时快速的基于相似性的检索。使用这种方法，我们生成了15万个独特的预计算对（占用高达830 MB的存储空间），实现了高达17.3%的延迟降低，且不损失响应质量。我们在多个QA数据集上的评估证明了存储辅助推理的实用性和可扩展性，尤其是在具有可预测查询分布的场景中。StorInfer突出了利用存储作为高效、低延迟LLM部署的主要推动因素的有希望的方向。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在资源受限设备上推理延迟高的问题。现有方法依赖于实时计算，计算量大，延迟高，难以满足实时性要求。尤其是在查询分布相对固定的场景下，重复计算造成了资源浪费。

核心思路：论文的核心思路是利用预计算和存储来加速LLM推理。通过离线预先计算并存储常见的查询及其对应的响应，在推理时，直接检索预计算结果，避免重复计算，从而降低延迟和计算成本。这种方法尤其适用于查询分布相对固定的场景。

技术框架：StorInfer系统包含离线预计算和在线推理两个主要阶段。离线预计算阶段，利用LLM驱动的生成器，基于知识库生成多样化的查询，并计算对应的响应，将查询-响应对存储在向量数据库中。在线推理阶段，接收用户查询，通过向量数据库检索相似的预计算查询，如果匹配成功，则直接返回预计算的响应，否则进行实时推理。

关键创新：StorInfer的关键创新在于利用LLM驱动的生成器自适应地生成多样化和去重的查询，以及使用向量数据库进行快速相似性检索。自适应查询掩码防止生成相似查询，自适应采样动态调整生成参数以促进语义多样性。

关键设计：在查询生成阶段，采用了自适应查询掩码和自适应采样两种技术。自适应查询掩码通过记录已生成的查询，避免重复生成相似查询。自适应采样通过动态调整生成参数（如temperature），控制生成查询的多样性。向量数据库采用磁盘存储，以支持大规模的查询-响应对存储。

📊 实验亮点

实验结果表明，StorInfer在多个QA数据集上实现了显著的延迟降低，最高可达17.3%，且不损失响应质量。通过生成15万个独特的预计算对，占用830MB存储空间，证明了该方法在实际应用中的可行性和有效性。该方法尤其适用于具有可预测查询分布的场景。

🎯 应用场景

StorInfer适用于资源受限的边缘设备和移动设备上的LLM应用，例如智能客服、智能家居、车载助手等。通过降低推理延迟和计算成本，可以提升用户体验，并降低部署成本。未来，该方法可以扩展到更广泛的LLM应用场景，例如文档检索、知识问答等。

📄 摘要（原文）

Large language model (LLM) inference often suffers from high latency, particularly in resource-constrained environments such as on-device or edge deployments. To address this challenge, we present StorInfer, a novel storage-assisted LLM inference system that accelerates response time by precomputing and storing predictable query-response pairs offline. When a user query semantically matches a precomputed query, StorInfer bypasses expensive GPU inference and instantly returns the stored response, significantly reducing latency and compute costs. To maximize coverage and effectiveness, StorInfer employs an LLM-driven generator that adaptively produces diverse and deduplicated queries based on a given knowledge base. This is achieved via two techniques: adaptive query masking, which prevents regeneration of similar queries, and adaptive sampling, which dynamically tunes generation parameters to promote semantic diversity. The resulting query-response pairs are embedded and indexed using a disk-backed vector database to enable fast, similarity-based retrieval at runtime. Using this approach, we generated 150K unique precomputed pairs (taking up to 830 MB of storage space), achieving up to 17.3% latency reduction with no loss in response quality. Our evaluation across multiple QA datasets demonstrates the practicality and scalability of storage-assisted inference, especially in scenarios with predictable query distributions. StorInfer highlights a promising direction in leveraging storage as a primary enabler for efficient, low-latency LLM deployment.

Accelerating LLM Inference with Precomputed Query Storage

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册