Sleep-time Compute: Beyond Inference Scaling at Test-time
作者: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez
分类: cs.AI, cs.CL
发布日期: 2025-04-17
备注: Code and data released at: https://github.com/letta-ai/sleep-time-compute
💡 一句话要点
提出睡眠时间计算,通过离线预计算减少LLM推理时延与成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 睡眠时间计算 离线预计算 大语言模型 推理加速 上下文推理
📋 核心要点
- 现有LLM测试时计算量大,导致高延迟和高推理成本,限制了其应用。
- 睡眠时间计算通过离线预计算,预测用户查询并提前计算有用信息,降低在线计算需求。
- 实验表明,睡眠时间计算能显著减少测试时计算量,并提高推理准确率,降低平均查询成本。
📝 摘要(中文)
本文提出睡眠时间计算,旨在解决大规模语言模型(LLM)在测试时计算量大、延迟高、成本高的问题。该方法允许模型在接收查询之前,离线“思考”上下文,通过预测用户可能提出的问题并预计算有用的量,从而显著降低测试时的计算需求。作者在Stateful GSM-Symbolic和Stateful AIME两个推理任务上验证了该方法的有效性,结果表明,睡眠时间计算可以减少约5倍的测试时计算量,并在这些任务上分别将准确率提高13%和18%。此外,作者还提出了Multi-Query GSM-Symbolic,通过在同一上下文的多个相关查询中分摊睡眠时间计算,可将每个查询的平均成本降低2.5倍。分析表明,用户查询的可预测性与睡眠时间计算的有效性密切相关。最后,作者通过一个实际的agentic SWE任务案例研究验证了该方法。
🔬 方法详解
问题定义:现有的大语言模型在测试时需要大量的计算资源,导致推理延迟高,成本昂贵。尤其是在需要复杂推理的任务中,模型需要在接收到用户查询后进行大量的计算才能给出答案。这限制了LLM在实时性要求高的场景中的应用。
核心思路:本文的核心思路是利用“睡眠时间”进行预计算。具体来说,模型在接收到用户查询之前,可以提前对上下文进行分析,预测用户可能提出的问题,并预先计算出一些有用的中间结果。这样,在接收到用户查询时,模型只需要进行少量的计算就可以给出答案,从而降低推理延迟和成本。
技术框架:该方法主要包含两个阶段:睡眠阶段和唤醒阶段。在睡眠阶段,模型接收上下文信息,并利用这些信息预测用户可能提出的问题,并预计算相关的中间结果,将这些结果存储起来。在唤醒阶段,模型接收到用户查询,然后利用预计算的中间结果快速生成答案。作者通过修改现有的推理任务(Stateful GSM-Symbolic和Stateful AIME)来模拟这种上下文相关的查询场景。
关键创新:该方法的核心创新在于将计算任务分解为离线和在线两个阶段,通过离线预计算来减少在线计算量。这种方法可以有效地降低推理延迟和成本,并且可以提高模型的准确率。此外,作者还提出了Multi-Query GSM-Symbolic,通过在多个相关查询中分摊睡眠时间计算,进一步降低了平均查询成本。
关键设计:在睡眠阶段,模型需要预测用户可能提出的问题。作者使用了一种基于Transformer的模型来进行问题预测。在预计算中间结果时,作者选择了一些与问题相关的关键信息,例如数学公式中的变量和运算符。在唤醒阶段,模型使用预计算的中间结果来生成答案。作者使用了一种基于Transformer的模型来进行答案生成。
🖼️ 关键图片
📊 实验亮点
实验结果表明,睡眠时间计算可以减少约5倍的测试时计算量,并在Stateful GSM-Symbolic和Stateful AIME任务上分别将准确率提高13%和18%。在Multi-Query GSM-Symbolic任务中,通过分摊睡眠时间计算,每个查询的平均成本降低了2.5倍。这些结果表明,睡眠时间计算是一种有效的降低LLM推理延迟和成本的方法。
🎯 应用场景
睡眠时间计算在智能客服、对话机器人、智能助手等领域具有广泛的应用前景。它可以显著降低LLM的推理延迟和成本,提高用户体验。例如,在智能客服场景中,模型可以提前分析用户的历史对话记录,预测用户可能提出的问题,并预计算相关的答案,从而快速响应用户的查询。
📄 摘要(原文)
Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.