Niyama : Breaking the Silos of LLM Inference Serving

作者: Kanishk Goel, Jayashree Mohan, Nipun Kwatra, Ravi Shreyas Anupindi, Ramachandran Ramjee

分类: cs.LG, cs.AI, cs.DC

发布日期: 2025-03-28

💡 一句话要点

Niyama：突破LLM推理服务的孤岛，实现QoS驱动的资源高效共享

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM推理服务 服务质量(QoS) 动态调度 资源管理 负载均衡 服务降级 共享基础设施

📋 核心要点

现有LLM服务框架采用粗粒度隔离，导致资源利用率低，无法满足细粒度QoS需求，造成运营低效和资源浪费。
Niyama提出一种QoS驱动的推理服务系统，通过细粒度QoS分类和动态调度，在共享基础设施上高效协同调度不同工作负载。
实验表明，Niyama在保证QoS的同时，服务容量提升32%，极端负载下SLO违规降低一个数量级，显著提升资源利用率。

📝 摘要（中文）

大规模语言模型（LLM）的广泛应用催生了各种具有不同延迟要求的应用。现有的LLM服务框架依赖于粗粒度工作负载隔离的基础设施（交互式和批处理），导致资源利用率低下，并且对细粒度的服务质量（QoS）区分支持有限。这造成了运营效率低下、过度配置以及流量高峰期间的负载管理不佳。我们提出了Niyama，一种新颖的QoS驱动的推理服务系统，它能够在共享基础设施上高效地协同调度不同的工作负载。Niyama引入了细粒度的QoS分类，允许应用程序指定精确的延迟要求，并根据实时系统状态动态调整调度决策。利用LLM推理的可预测执行特性，Niyama实现了一种动态分块机制，以提高整体吞吐量，同时保持严格的QoS保证。此外，Niyama采用混合优先级策略，平衡了公平性和效率，并采用选择性请求降级，从而在过载情况下实现优雅的服务降级。评估表明，与当前孤岛式部署相比，Niyama将服务容量提高了32%，同时保持了QoS保证。值得注意的是，在极端负载下，我们的系统将违反服务水平目标（SLO）的情况比当前策略减少了一个数量级。

🔬 方法详解

问题定义：现有LLM推理服务通常采用孤岛式部署，将交互式和批处理任务分离，导致资源利用率低下。同时，缺乏细粒度的QoS区分机制，无法满足不同应用对延迟的差异化需求，造成资源浪费和性能瓶颈。

核心思路：Niyama的核心思路是打破LLM推理服务的孤岛，通过共享基础设施和动态调度，实现不同类型工作负载的高效协同。它引入细粒度的QoS分类，允许应用指定精确的延迟要求，并根据实时系统状态动态调整调度决策，从而在保证QoS的同时，最大化资源利用率。

技术框架：Niyama的整体架构包含以下主要模块：1) QoS分类器：根据应用指定的延迟要求，对请求进行细粒度分类。2) 动态调度器：根据实时系统状态和QoS分类，动态调整调度决策，平衡不同类型工作负载的需求。3) 动态分块机制：利用LLM推理的可预测执行特性，将请求动态分割成小块，提高整体吞吐量。4) 混合优先级策略：平衡公平性和效率，优先处理对延迟敏感的请求，同时保证其他请求的公平性。5) 选择性请求降级：在过载情况下，选择性地降低部分请求的优先级，保证核心服务的可用性。

关键创新：Niyama最重要的技术创新点在于其QoS驱动的动态调度机制。与现有方法相比，Niyama能够根据实时系统状态和细粒度的QoS分类，动态调整调度决策，从而在保证QoS的同时，最大化资源利用率。此外，动态分块机制和混合优先级策略也进一步提升了系统的性能和公平性。

关键设计：Niyama的关键设计包括：1) QoS分类器的设计，需要根据应用的实际需求，选择合适的QoS指标和分类方法。2) 动态调度器的设计，需要考虑实时系统状态、QoS分类和资源分配等因素，设计高效的调度算法。3) 动态分块机制的设计，需要根据LLM推理的执行特性，选择合适的分块大小和分块策略。4) 混合优先级策略的设计，需要在公平性和效率之间进行权衡，选择合适的优先级分配方法。

🖼️ 关键图片

📊 实验亮点

Niyama的实验结果表明，与当前孤岛式部署相比，Niyama将服务容量提高了32%，同时保持了QoS保证。在极端负载下，Niyama将违反服务水平目标（SLO）的情况比当前策略减少了一个数量级。这些结果表明，Niyama能够显著提升LLM推理服务的性能和可靠性。

🎯 应用场景

Niyama适用于各种需要大规模LLM推理服务的场景，例如在线问答、对话机器人、文本生成等。通过提高资源利用率和保证QoS，Niyama可以降低LLM推理服务的成本，并提升用户体验。未来，Niyama可以进一步扩展到支持更多类型的AI模型和服务，并与其他云原生技术集成，构建更加高效和灵活的AI基础设施。

📄 摘要（原文）

The widespread adoption of Large Language Models (LLMs) has enabled diverse applications with very different latency requirements. Existing LLM serving frameworks rely on siloed infrastructure with coarse-grained workload segregation -- interactive and batch -- leading to inefficient resource utilization and limited support for fine-grained Quality-of-Service (QoS) differentiation. This results in operational inefficiencies, over-provisioning and poor load management during traffic surges. We present Niyama, a novel QoS-driven inference serving system that enables efficient co-scheduling of diverse workloads on shared infrastructure. Niyama introduces fine-grained QoS classification allowing applications to specify precise latency requirements, and dynamically adapts scheduling decisions based on real-time system state. Leveraging the predictable execution characteristics of LLM inference, Niyama implements a dynamic chunking mechanism to improve overall throughput while maintaining strict QoS guarantees. Additionally, Niyama employs a hybrid prioritization policy that balances fairness and efficiency, and employs selective request relegation that enables graceful service degradation during overload conditions. Our evaluation demonstrates that Niyama increases serving capacity by 32% compared to current siloed deployments, while maintaining QoS guarantees. Notably, under extreme load, our system reduces SLO violations by an order of magnitude compared to current strategies.

Niyama : Breaking the Silos of LLM Inference Serving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理