Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines

📄 arXiv: 2604.15186v1 📥 PDF

作者: Marcel Wagenländer, Otto White, Britannio Jarrett, Pedro Silvestre, Yanda Tao, Guo Li, Huanzhou Zhu, Llúis Vilanova, Peter Pietzuch

分类: cs.DC, cs.AI

发布日期: 2026-04-16


💡 一句话要点

Scepsy:利用聚合LLM流水线服务Agentic工作流,提升吞吐量并降低延迟

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic工作流 大型语言模型 GPU调度 资源分配 性能优化

📋 核心要点

  1. Agentic工作流服务面临挑战,现有方法难以应对LLM数量超过GPU资源以及执行时间不可预测的问题。
  2. Scepsy通过分析LLM执行时间份额的稳定性,构建聚合LLM流水线,预测延迟和吞吐量,优化GPU分配。
  3. 实验结果表明,Scepsy在实际Agentic工作流中,显著提升了吞吐量并降低了延迟,优于现有方法。

📝 摘要(中文)

Agentic工作流通过编排多个大型语言模型(LLM)和工具来执行复杂任务。以目标吞吐量和低延迟服务此类工作流极具挑战性,因为它们可以使用任意agentic框架定义,并表现出不可预测的执行时间:执行可能以数据依赖的方式分支、扇出或递归。由于工作流中的LLM数量通常超过可用GPU,因此它们的执行也会导致GPU过度订阅。我们描述了Scepsy,这是一种新型agentic服务系统,可将任意多LLM agentic工作流高效地调度到GPU集群上。Scepsy利用了这样的洞察力:虽然agentic工作流具有不可预测的端到端延迟,但每个LLM的总执行时间份额在不同执行中相对稳定。Scepsy基于这些聚合份额决定GPU分配:首先,它分析不同并行度下的LLM。然后,它使用这些统计数据构建聚合LLM流水线,这是一个用于分配的轻量级延迟/吞吐量预测器。为了找到在实现目标吞吐量的同时最小化延迟的GPU分配,Scepsy使用聚合LLM流水线来探索分数GPU份额、张量并行度和副本计数的搜索空间。它使用分层启发式方法将最佳分配放置到GPU集群上,从而最大限度地减少碎片,同时遵守网络拓扑约束。我们在实际agentic工作流上的评估表明,与独立优化LLM或依赖用户指定分配的系统相比,Scepsy实现了高达2.4倍的吞吐量和27倍的延迟降低。

🔬 方法详解

问题定义:Agentic工作流包含多个LLM和工具,其执行时间难以预测,且LLM数量可能超过可用GPU资源,导致GPU资源竞争和调度困难。现有方法通常独立优化每个LLM,或依赖用户手动分配资源,无法有效应对Agentic工作流的复杂性和动态性,导致吞吐量低、延迟高。

核心思路:Scepsy的核心思路是利用Agentic工作流中各个LLM执行时间份额的相对稳定性。虽然整个工作流的执行时间难以预测,但每个LLM在总执行时间中所占的比例在不同执行中相对稳定。基于此,Scepsy可以预测不同GPU分配方案下的延迟和吞吐量,从而优化资源分配。

技术框架:Scepsy包含以下主要模块:1) Profiling模块:对不同并行度下的LLM进行性能分析,获取延迟和吞吐量数据。2) Aggregate LLM Pipeline构建模块:基于Profiling数据,构建轻量级的延迟/吞吐量预测器。3) GPU分配优化模块:利用Aggregate LLM Pipeline,搜索最佳的GPU分配方案,包括分数GPU份额、张量并行度和副本数量。4) 资源调度模块:根据优化后的分配方案,将LLM部署到GPU集群上,并考虑网络拓扑约束,最小化碎片。

关键创新:Scepsy的关键创新在于提出了Aggregate LLM Pipeline,它是一种轻量级的延迟/吞吐量预测器,能够基于LLM执行时间份额的稳定性,预测不同GPU分配方案下的性能。与现有方法相比,Scepsy能够更准确地预测Agentic工作流的性能,从而实现更优的资源分配。

关键设计:Scepsy使用分层启发式方法进行GPU分配,首先确定每个LLM的GPU份额,然后确定张量并行度和副本数量。在资源调度时,Scepsy考虑了GPU集群的网络拓扑,尽量将通信频繁的LLM部署在同一节点上,以减少网络延迟。此外,Scepsy还采用了分数GPU分配,允许LLM共享GPU资源,提高了资源利用率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Scepsy在实际Agentic工作流上的评估结果显示,与独立优化LLM或依赖用户指定分配的系统相比,Scepsy实现了高达2.4倍的吞吐量提升和27倍的延迟降低。这些结果表明,Scepsy能够有效应对Agentic工作流的复杂性和动态性,实现高效的资源分配。

🎯 应用场景

Scepsy可应用于各种需要高效服务Agentic工作流的场景,例如智能客服、自动化报告生成、代码生成等。通过优化LLM的资源分配,Scepsy能够显著提升Agentic工作流的吞吐量和降低延迟,从而提高用户体验和工作效率。未来,Scepsy可以进一步扩展到支持更多类型的LLM和Agentic框架,并集成到云原生环境中。

📄 摘要(原文)

Agentic workflows carry out complex tasks by orchestrating multiple large language models (LLMs) and tools. Serving such workflows at a target throughput with low latency is challenging because they can be defined using arbitrary agentic frameworks and exhibit unpredictable execution times: execution may branch, fan-out, or recur in data-dependent ways. Since LLMs in workflows often outnumber available GPUs, their execution also leads to GPU oversubscription. We describe Scepsy, a new agentic serving system that efficiently schedules arbitrary multi-LLM agentic workflows onto a GPU cluster. Scepsy exploits the insight that, while agentic workflows have unpredictable end-to-end latencies, the shares of each LLM's total execution times are comparatively stable across executions. Scepsy decides on GPU allocations based on these aggregate shares: first, it profiles the LLMs under different parallelism degrees. It then uses these statistics to construct an Aggregate LLM Pipeline, which is a lightweight latency/throughput predictor for allocations. To find a GPU allocation that minimizes latency while achieving a target throughput, Scepsy uses the Aggregate LLM Pipeline to explore a search space over fractional GPU shares, tensor parallelism degrees, and replica counts. It uses a hierarchical heuristic to place the best allocation onto the GPU cluster, minimizing fragmentation, while respecting network topology constraints. Our evaluation on realistic agentic workflows shows that Scepsy achieves up to 2.4x higher throughput and 27x lower latency compared to systems that optimize LLMs independently or rely on user-specified allocations.