Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents

作者: Hongqiu Ni, Jiabao Zhang, Guopeng Li, Zilong Wang, Ruiqi Wu, Chi Zhang, Haisheng Tan

分类: cs.CL

发布日期: 2025-12-16

备注: 12 pages, 8 figures

💡 一句话要点

Astraea：面向LLM智能体的状态感知调度引擎，优化端到端延迟

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 调度引擎 状态感知 作业完成时间 KV缓存管理

📋 核心要点

现有LLM智能体推理系统难以优化端到端延迟，因为它们主要关注局部片段的优化，忽略了全局作业完成时间。
Astraea通过状态感知的分层调度算法，结合请求历史状态和未来预测，动态分类请求并优化全局请求生命周期。
实验结果表明，Astraea相比基线方法，平均作业完成时间降低高达25.5%，并在高负载下表现出强大的鲁棒性和稳定性。

📝 摘要（中文）

大型语言模型（LLM）越来越多地被部署为智能代理。它们的多阶段工作流程在本地计算和调用Web API等外部网络服务之间交替，这导致它们的执行模式与现有推理系统（如vLLM）的调度粒度不匹配。现有系统通常侧重于每个片段的优化，这妨碍了它们最小化完整代理工作流程的端到端延迟，即整个请求生命周期内的全局作业完成时间（JCT）。为了解决这个限制，我们提出了Astraea，一种旨在将优化从本地片段转移到全局请求生命周期的服务引擎。Astraea采用了一种状态感知的分层调度算法，该算法将请求的历史状态与未来预测相结合。它根据请求的I/O和计算密集型性质动态地对请求进行分类，并使用增强的HRRN策略来平衡效率和公平性。Astraea还实现了一个自适应KV缓存管理器，该管理器根据系统内存压力智能地处理I/O等待期间的代理状态。大量实验表明，与基线方法相比，Astraea将平均JCT降低了高达25.5%。此外，我们的方法在各种模型规模的高负载下表现出强大的鲁棒性和稳定性。

🔬 方法详解

问题定义：现有LLM智能体推理系统，如基于vLLM的系统，主要关注单个推理片段的优化，而忽略了智能体工作流的整体特性。智能体工作流通常包含多个阶段，包括本地计算和对外部API的调用，这些阶段的交替导致了I/O等待和计算资源的闲置。因此，现有系统无法有效地最小化端到端的作业完成时间（JCT），即从请求开始到完成的总时间。

核心思路：Astraea的核心思路是将优化目标从局部片段转移到全局请求生命周期。它通过状态感知的调度算法，根据请求的历史状态和未来行为预测，动态地调整调度策略，从而更好地利用计算资源，减少I/O等待带来的延迟。这种全局优化视角能够显著提升智能体工作流的整体效率。

技术框架：Astraea采用分层调度架构。首先，它会根据请求的I/O密集程度和计算密集程度对请求进行分类。然后，使用增强的HRRN（Highest Response Ratio Next）策略，根据请求的响应比（等待时间和已服务时间的比率）进行调度，以平衡效率和公平性。此外，Astraea还包含一个自适应KV缓存管理器，用于在I/O等待期间智能地管理代理状态，根据系统内存压力动态地调整缓存策略。

关键创新：Astraea的关键创新在于其状态感知的调度算法和自适应KV缓存管理。状态感知调度能够根据请求的历史行为和未来预测，动态地调整调度策略，从而更好地适应智能体工作流的特点。自适应KV缓存管理能够在I/O等待期间有效地管理代理状态，减少因频繁的缓存刷新和加载带来的延迟。

关键设计：Astraea的关键设计包括：1) 请求分类器，用于根据请求的I/O和计算密集程度进行分类；2) 增强的HRRN调度器，用于根据请求的响应比进行调度，并引入了优先级调整机制；3) 自适应KV缓存管理器，根据系统内存压力动态地调整缓存大小和刷新策略。具体的参数设置和损失函数信息未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Astraea相比于基线方法，在平均作业完成时间（JCT）上降低了高达25.5%。此外，Astraea在各种模型规模和高负载条件下都表现出强大的鲁棒性和稳定性。这些结果验证了Astraea在优化LLM智能体工作流方面的有效性。

🎯 应用场景

Astraea适用于各种需要LLM智能体进行多阶段工作流处理的场景，例如智能客服、自动化报告生成、智能家居控制等。通过优化端到端延迟，Astraea可以显著提升用户体验，并提高系统的整体效率。未来，Astraea可以进一步扩展到支持更复杂的智能体工作流和异构计算环境。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly being deployed as intelligent agents. Their multi-stage workflows, which alternate between local computation and calls to external network services like Web APIs, introduce a mismatch in their execution pattern and the scheduling granularity of existing inference systems such as vLLM. Existing systems typically focus on per-segment optimization which prevents them from minimizing the end-to-end latency of the complete agentic workflow, i.e., the global Job Completion Time (JCT) over the entire request lifecycle. To address this limitation, we propose Astraea, a service engine designed to shift the optimization from local segments to the global request lifecycle. Astraea employs a state-aware, hierarchical scheduling algorithm that integrates a request's historical state with future predictions. It dynamically classifies requests by their I/O and compute intensive nature and uses an enhanced HRRN policy to balance efficiency and fairness. Astraea also implements an adaptive KV cache manager that intelligently handles the agent state during I/O waits based on the system memory pressure. Extensive experiments show that Astraea reduces average JCT by up to 25.5\% compared to baseline methods. Moreover, our approach demonstrates strong robustness and stability under high load across various model scales.

Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理