Sleep-time Compute: Beyond Inference Scaling at Test-time

作者: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez

分类: cs.AI, cs.CL

发布日期: 2025-04-17

备注: Code and data released at: https://github.com/letta-ai/sleep-time-compute

💡 一句话要点

提出睡眠时间计算，通过离线预计算减少LLM推理时延与成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 睡眠时间计算 离线预计算 大语言模型 推理加速 上下文推理

📋 核心要点

现有LLM测试时计算量大，导致高延迟和高推理成本，限制了其应用。
睡眠时间计算通过离线预计算，预测用户查询并提前计算有用信息，降低在线计算需求。
实验表明，睡眠时间计算能显著减少测试时计算量，并提高推理准确率，降低平均查询成本。

📝 摘要（中文）

本文提出睡眠时间计算，旨在解决大规模语言模型（LLM）在测试时计算量大、延迟高、成本高的问题。该方法允许模型在接收查询之前，离线“思考”上下文，通过预测用户可能提出的问题并预计算有用的量，从而显著降低测试时的计算需求。作者在Stateful GSM-Symbolic和Stateful AIME两个推理任务上验证了该方法的有效性，结果表明，睡眠时间计算可以减少约5倍的测试时计算量，并在这些任务上分别将准确率提高13%和18%。此外，作者还提出了Multi-Query GSM-Symbolic，通过在同一上下文的多个相关查询中分摊睡眠时间计算，可将每个查询的平均成本降低2.5倍。分析表明，用户查询的可预测性与睡眠时间计算的有效性密切相关。最后，作者通过一个实际的agentic SWE任务案例研究验证了该方法。

🔬 方法详解

问题定义：现有的大语言模型在测试时需要大量的计算资源，导致推理延迟高，成本昂贵。尤其是在需要复杂推理的任务中，模型需要在接收到用户查询后进行大量的计算才能给出答案。这限制了LLM在实时性要求高的场景中的应用。

核心思路：本文的核心思路是利用“睡眠时间”进行预计算。具体来说，模型在接收到用户查询之前，可以提前对上下文进行分析，预测用户可能提出的问题，并预先计算出一些有用的中间结果。这样，在接收到用户查询时，模型只需要进行少量的计算就可以给出答案，从而降低推理延迟和成本。

技术框架：该方法主要包含两个阶段：睡眠阶段和唤醒阶段。在睡眠阶段，模型接收上下文信息，并利用这些信息预测用户可能提出的问题，并预计算相关的中间结果，将这些结果存储起来。在唤醒阶段，模型接收到用户查询，然后利用预计算的中间结果快速生成答案。作者通过修改现有的推理任务（Stateful GSM-Symbolic和Stateful AIME）来模拟这种上下文相关的查询场景。

关键创新：该方法的核心创新在于将计算任务分解为离线和在线两个阶段，通过离线预计算来减少在线计算量。这种方法可以有效地降低推理延迟和成本，并且可以提高模型的准确率。此外，作者还提出了Multi-Query GSM-Symbolic，通过在多个相关查询中分摊睡眠时间计算，进一步降低了平均查询成本。

关键设计：在睡眠阶段，模型需要预测用户可能提出的问题。作者使用了一种基于Transformer的模型来进行问题预测。在预计算中间结果时，作者选择了一些与问题相关的关键信息，例如数学公式中的变量和运算符。在唤醒阶段，模型使用预计算的中间结果来生成答案。作者使用了一种基于Transformer的模型来进行答案生成。

🖼️ 关键图片

📊 实验亮点

实验结果表明，睡眠时间计算可以减少约5倍的测试时计算量，并在Stateful GSM-Symbolic和Stateful AIME任务上分别将准确率提高13%和18%。在Multi-Query GSM-Symbolic任务中，通过分摊睡眠时间计算，每个查询的平均成本降低了2.5倍。这些结果表明，睡眠时间计算是一种有效的降低LLM推理延迟和成本的方法。

🎯 应用场景

睡眠时间计算在智能客服、对话机器人、智能助手等领域具有广泛的应用前景。它可以显著降低LLM的推理延迟和成本，提高用户体验。例如，在智能客服场景中，模型可以提前分析用户的历史对话记录，预测用户可能提出的问题，并预计算相关的答案，从而快速响应用户的查询。

📄 摘要（原文）

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

Sleep-time Compute: Beyond Inference Scaling at Test-time

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理