Accelerating LLM Inference with Precomputed Query Storage

作者: Jay H. Park, Youngju Cho, Choungsol Lee, Moonwook Oh, Euiseong Seo

分类: cs.DC, cs.AI

发布日期: 2025-09-30

💡 一句话要点

StorInfer：利用预计算查询存储加速LLM推理，尤其适用于资源受限环境。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM推理加速 预计算 存储辅助 低延迟 边缘计算 向量数据库 自适应查询生成

📋 核心要点

现有LLM推理在资源受限环境下延迟高，严重影响用户体验，尤其是在边缘设备上。
StorInfer通过预计算并存储查询-响应对，在运行时直接检索，避免重复推理，降低延迟。
实验表明，StorInfer在保证响应质量的前提下，可降低高达17.3%的推理延迟，效果显著。

📝 摘要（中文）

大型语言模型（LLM）推理通常面临高延迟问题，尤其是在设备端或边缘部署等资源受限环境中。为了解决这一挑战，我们提出了StorInfer，一种新颖的存储辅助LLM推理系统，通过离线预计算和存储可预测的查询-响应对来加速响应时间。当用户查询在语义上与预计算查询匹配时，StorInfer会绕过昂贵的GPU推理，并立即返回存储的响应，从而显著降低延迟和计算成本。为了最大化覆盖率和有效性，StorInfer采用LLM驱动的生成器，该生成器基于给定的知识库自适应地生成多样化和去重的查询。这通过两种技术实现：自适应查询掩码，防止重新生成相似查询；自适应采样，动态调整生成参数以促进语义多样性。生成的查询-响应对被嵌入并使用磁盘支持的向量数据库进行索引，以实现运行时快速的基于相似性的检索。使用这种方法，我们生成了15万个独特的预计算对（占用高达830 MB的存储空间），实现了高达17.3%的延迟降低，且不损失响应质量。我们在多个QA数据集上的评估证明了存储辅助推理的实用性和可扩展性，尤其是在具有可预测查询分布的场景中。StorInfer突出了利用存储作为高效、低延迟LLM部署的主要推动因素这一有希望的方向。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在资源受限环境（如边缘设备）中推理延迟过高的问题。现有方法依赖于实时计算，计算量大，无法满足低延迟需求。尤其是在查询具有一定可预测性的场景下，重复计算造成了资源浪费。

核心思路：论文的核心思路是利用预计算和存储来避免重复的在线推理。通过离线预先计算并存储常见的查询及其对应的响应，在运行时直接从存储中检索结果，从而显著降低延迟和计算成本。这种方法尤其适用于查询分布具有一定规律性的场景。

技术框架：StorInfer系统主要包含以下几个阶段：1) 离线预计算阶段：利用LLM驱动的生成器，基于知识库生成多样化的查询，并计算对应的响应，形成查询-响应对。2) 存储阶段：将查询-响应对进行嵌入，并使用磁盘支持的向量数据库进行索引，以便快速检索。3) 在线推理阶段：接收用户查询，计算其嵌入向量，并在向量数据库中查找最相似的预计算查询。如果相似度超过阈值，则直接返回预计算的响应；否则，进行正常的LLM推理。

关键创新：论文的关键创新在于：1) LLM驱动的自适应查询生成：使用LLM生成器，通过自适应查询掩码和自适应采样技术，生成多样化且去重的查询，最大化预计算的覆盖率。2) 存储辅助的快速检索：利用向量数据库对预计算的查询进行索引，实现快速的基于相似性的检索，从而避免昂贵的在线推理。

关键设计：1) 自适应查询掩码：防止LLM生成器重复生成相似的查询，提高查询的多样性。具体实现方式未知。2) 自适应采样：动态调整LLM生成器的采样参数，例如温度系数，以控制生成查询的语义多样性。具体调整策略未知。3) 相似度阈值：用于判断用户查询是否与预计算查询匹配的阈值，需要根据实际应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，StorInfer在多个QA数据集上实现了显著的性能提升。通过生成15万个预计算查询-响应对（占用830MB存储空间），实现了高达17.3%的延迟降低，且不损失响应质量。这表明StorInfer在保证准确性的前提下，能够有效降低LLM推理的延迟，具有很强的实用价值。

🎯 应用场景

StorInfer适用于各种需要低延迟LLM推理的场景，例如智能客服、移动设备上的问答应用、边缘计算环境下的实时数据分析等。通过预计算和存储，可以显著降低计算成本，提高响应速度，提升用户体验。该方法尤其适用于查询具有一定可预测性的应用场景，例如特定领域的知识问答。

📄 摘要（原文）

Large language model (LLM) inference often suffers from high latency, particularly in resource-constrained environments such as on-device or edge deployments. To address this challenge, we present StorInfer, a novel storage-assisted LLM inference system that accelerates response time by precomputing and storing predictable query-response pairs offline. When a user query semantically matches a precomputed query, StorInfer bypasses expensive GPU inference and instantly returns the stored response, significantly reducing latency and compute costs. To maximize coverage and effectiveness, StorInfer employs an LLM-driven generator that adaptively produces diverse and deduplicated queries based on a given knowledge base. This is achieved via two techniques: adaptive query masking, which prevents regeneration of similar queries, and adaptive sampling, which dynamically tunes generation parameters to promote semantic diversity. The resulting query-response pairs are embedded and indexed using a disk-backed vector database to enable fast, similarity-based retrieval at runtime. Using this approach, we generated 150K unique precomputed pairs (taking up to 830 MB of storage space), achieving up to 17.3% latency reduction with no loss in response quality. Our evaluation across multiple QA datasets demonstrates the practicality and scalability of storage-assisted inference, especially in scenarios with predictable query distributions. StorInfer highlights a promising direction in leveraging storage as a primary enabler for efficient, low-latency LLM deployment.

Accelerating LLM Inference with Precomputed Query Storage

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理