Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

作者: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu

分类: cs.DC, cs.AI

发布日期: 2025-08-27

💡 一句话要点

提出HeteroScale以解决异构和分离LLM推理的自动扩展问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动扩展 异构计算 资源管理 Prefill-Decode架构

📋 核心要点

现有的自动扩展方法在处理现代分离架构时面临异构硬件利用不均、网络瓶颈及预填充与解码阶段不平衡等挑战。
HeteroScale框架通过拓扑感知调度器和基于度量的策略，协调扩展预填充和解码池，优化资源管理。
在大规模生产环境中，HeteroScale显著提高了GPU利用率26.6个百分点，节省了大量GPU小时，确保了服务质量。

📝 摘要（中文）

大型语言模型（LLMs）的服务是一项GPU密集型任务，传统的自动扩展方法在现代的Prefill-Decode（P/D）分离架构中表现不佳。此架构转变虽然强大，但带来了显著的操作挑战，包括异构硬件的低效利用、网络瓶颈以及预填充和解码阶段之间的关键不平衡。我们提出了HeteroScale，一个协调的自动扩展框架，旨在解决P/D分离服务的核心挑战。HeteroScale结合了一个拓扑感知调度器，能够适应异构硬件和网络约束，以及一种基于大规模实证研究的创新度量驱动策略。通过利用单一的强健度量来共同扩展预填充和解码池，HeteroScale保持了架构平衡，同时确保了高效的自适应资源管理。在数万GPU的大规模生产环境中部署后，HeteroScale证明了其有效性，平均GPU利用率提高了26.6个百分点，每日节省数十万GPU小时，同时保持严格的服务水平目标。

🔬 方法详解

问题定义：本论文旨在解决在现代Prefill-Decode（P/D）分离架构中，传统自动扩展方法在异构硬件利用、网络瓶颈及阶段不平衡等方面的不足。

核心思路：HeteroScale通过结合拓扑感知调度器和度量驱动策略，协调扩展预填充和解码资源，以实现高效的资源管理和架构平衡。

技术框架：HeteroScale的整体架构包括拓扑感知调度器、度量驱动策略和资源管理模块，能够根据硬件和网络条件动态调整资源分配。

关键创新：HeteroScale的主要创新在于其基于大规模实证研究的度量驱动策略，能够有效地协调异构资源的使用，解决传统方法的局限性。

关键设计：在设计中，HeteroScale使用了单一的强健度量来共同扩展预填充和解码池，确保了资源的高效利用和服务质量的稳定性。

📊 实验亮点

HeteroScale在大规模生产环境中表现出色，平均GPU利用率提高了26.6个百分点，显著节省了数十万GPU小时，且在保持严格服务水平目标的同时，优化了资源管理。这些结果表明HeteroScale在实际应用中的有效性和重要性。

🎯 应用场景

HeteroScale的研究成果在大型语言模型的服务领域具有广泛的应用潜力，尤其是在需要高效资源管理和实时响应的场景中，如在线客服、智能助手和内容生成等。其创新的自动扩展方法可以显著提升系统的性能和用户体验，未来可能推动更多智能应用的发展。

📄 摘要（原文）

Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册