Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective

📄 arXiv: 2603.16104v1 📥 PDF

作者: Noppanat Wadlom, Junyi Shen, Yao Lu

分类: cs.MA, cs.AI, cs.DB

发布日期: 2026-03-17


💡 一句话要点

Helium:面向Agent工作流的高效LLM服务框架,优化跨调用依赖

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM服务 Agent工作流 查询优化 主动缓存 缓存感知调度 数据系统 AI Agent LLM推理

📋 核心要点

  1. 现有LLM服务系统未能有效处理Agent工作流中跨LLM调用的依赖关系和冗余。
  2. Helium将Agent工作流建模为查询计划,并采用主动缓存和缓存感知调度来优化跨调用的资源重用。
  3. 实验表明,Helium在多种Agent工作负载上实现了显著的性能提升,最高可达1.56倍加速。

📝 摘要(中文)

Agentic工作流由一系列相互依赖的大语言模型(LLM)调用组成,已成为现代AI系统中的主要工作负载。由于推测和并行探索,这些工作流在重叠的提示和中间结果中表现出广泛的冗余。现有的LLM服务系统,如vLLM,侧重于优化单个推理调用,而忽略了跨调用依赖,导致效率低下。本文从数据系统的角度重新思考LLM和Agent服务,并引入Helium,一个工作流感知的服务框架,将Agent工作负载建模为查询计划,并将LLM调用视为一等公民算子。Helium集成了主动缓存和缓存感知调度,以最大限度地重用跨提示、KV状态和工作流。通过这些技术,Helium将经典的查询优化原则与LLM服务相结合,在各种工作负载上实现了比最先进的Agent服务系统高达1.56倍的加速。结果表明,跨工作流的端到端优化对于可扩展和高效的基于LLM的Agent至关重要。

🔬 方法详解

问题定义:现有LLM服务系统,如vLLM,主要关注单个LLM推理调用的优化,忽略了Agent工作流中LLM调用之间的依赖关系和冗余。Agent工作流通常包含大量的重复提示和中间结果,这些冗余信息没有被有效利用,导致计算资源的浪费和整体效率的降低。因此,如何优化跨LLM调用的资源利用率,提高Agent工作流的整体效率,是本文要解决的核心问题。

核心思路:Helium的核心思路是将Agent工作流视为一个查询计划,并将LLM调用视为查询计划中的算子。通过这种方式,可以将数据库查询优化中的经典技术,如缓存和调度,应用于LLM服务中。具体来说,Helium通过主动缓存和缓存感知调度,最大限度地重用跨提示、KV状态和工作流的资源,从而减少冗余计算,提高整体效率。

技术框架:Helium的整体架构包含以下几个主要模块:1) 工作流解析器:将Agent工作流解析为查询计划;2) 缓存管理器:负责管理和维护缓存,包括提示缓存和KV状态缓存;3) 调度器:根据缓存的状态和工作流的依赖关系,对LLM调用进行调度;4) LLM执行引擎:负责执行LLM调用,并与缓存管理器交互,获取或更新缓存。整个流程是,Agent工作流提交后,由工作流解析器解析为查询计划,调度器根据缓存管理器提供的缓存信息,对LLM调用进行调度,LLM执行引擎执行LLM调用,并更新缓存管理器中的缓存。

关键创新:Helium的关键创新在于将数据系统的查询优化思想引入到LLM服务中,实现了工作流感知的LLM服务。与现有方法相比,Helium能够更好地利用Agent工作流中的冗余信息,从而提高整体效率。具体来说,Helium的主动缓存和缓存感知调度机制,能够有效地减少冗余计算,提高资源利用率。

关键设计:Helium的关键设计包括:1) 主动缓存:根据历史LLM调用的频率和大小,主动将提示和KV状态缓存到内存中;2) 缓存感知调度:根据缓存的状态和工作流的依赖关系,对LLM调用进行调度,优先调度能够利用缓存的LLM调用;3) 缓存淘汰策略:采用LRU(Least Recently Used)策略,淘汰最近最少使用的缓存条目。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Helium在各种Agent工作负载上实现了显著的性能提升。与最先进的Agent服务系统相比,Helium实现了高达1.56倍的加速。具体来说,Helium在处理包含大量重复提示和中间结果的Agent工作流时,性能提升最为明显。这些结果证明了Helium在优化跨LLM调用依赖方面的有效性。

🎯 应用场景

Helium适用于各种基于LLM的Agent应用,如智能助手、自动化客服、代码生成等。通过提高Agent工作流的效率,Helium可以降低计算成本,提高响应速度,从而提升用户体验。未来,Helium可以进一步扩展到支持更复杂的Agent工作流,并与其他AI技术相结合,为构建更智能、更高效的AI系统提供支持。

📄 摘要(原文)

Agentic workflows are composed of sequences of interdependent Large Language Model (LLM) calls, and they have become a dominant workload in modern AI systems. These workflows exhibit extensive redundancy from overlapping prompts and intermediate results due to speculative and parallel exploration. Existing LLM serving systems, such as vLLM, focus on optimizing individual inference calls and overlook cross-call dependencies, leading to significant inefficiencies. This paper rethinks LLM and agent serving from a data systems perspective and introduces Helium, a workflow-aware serving framework that models agentic workloads as query plans and treats LLM invocations as first-class operators. Helium integrates proactive caching and cache-aware scheduling to maximize reuse across prompts, KV states, and workflows. Through these techniques, Helium bridges classic query optimization principles with LLM serving, achieving up to 1.56x speedup over state-of-the-art agent serving systems on various workloads. Our results demonstrate that end-to-end optimization across workflows is essential for scalable and efficient LLM-based agents.