On Evaluating Performance of LLM Inference Serving Systems

📄 arXiv: 2507.09019v1 📥 PDF

作者: Amey Agrawal, Nitin Kedia, Anmol Agarwal, Jayashree Mohan, Nipun Kwatra, Souvik Kundu, Ramachandran Ramjee, Alexey Tumanov

分类: cs.LG, cs.AI, cs.DC

发布日期: 2025-07-11


💡 一句话要点

揭示LLM推理服务系统评估中的反模式,并提出一套更稳健的评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM推理 性能评估 评估反模式 基线选择 工作负载 指标设计 推测解码

📋 核心要点

  1. 现有LLM推理系统评估方法存在基线不公平、工作负载不具代表性、指标设计不合理等问题,导致评估结果失真。
  2. 论文提出一套评估框架,通过识别和避免常见的评估反模式,从而实现对LLM推理系统更稳健的评估。
  3. 通过案例研究,论文展示了该框架在分析推测解码等技术时的有效性,能够避免传统评估方法产生的误导性结论。

📝 摘要(中文)

大型语言模型(LLM)推理系统的快速发展带来了显著的效率提升。然而,我们的系统分析表明,当前的评估方法常常存在根本性缺陷,表现为常见的评估反模式,掩盖了真实的性能特征并阻碍了科学进步。通过对近期系统的全面检查,我们识别出三个关键维度上的重复性反模式:基线公平性、评估设置和指标设计。由于LLM推理的双阶段特性(包括不同的预填充和解码操作)、对高度异构工作负载的处理以及对交互使用的严格时间要求,这些反模式对LLM推理来说尤其成问题。我们展示了常见的反模式——例如,不充分的基线比较将工程努力与算法创新混淆,未能代表生产场景的工作负载选择,以及隐藏了显著性能变化的指标归一化(如生成停顿)——如何导致误导性结论。为了应对这些挑战,我们提供了一个从分析中得出的综合清单,建立了一个框架,用于识别和避免这些反模式,从而支持稳健的LLM推理评估。为了展示我们框架的实际应用,我们提出了一个案例研究,分析了推测解码,这种技术的突发性、非均匀token生成在使用这些反模式的典型方法进行评估时很容易被误解。我们的工作为评估方法奠定了坚实的基础,从而能够进行有意义的比较,确保可重复的结果,并通过超越常见的反模式,使评估与实际需求相一致,最终加速LLM推理系统的真正进步。

🔬 方法详解

问题定义:当前LLM推理服务系统评估方法存在诸多问题,例如基线选择不合理,将工程优化与算法创新混淆;评估数据集不能代表真实应用场景;评估指标设计不合理,掩盖了性能波动等。这些问题导致评估结果不准确,无法真实反映系统的性能,阻碍了LLM推理服务系统的发展。

核心思路:论文的核心思路是识别并避免LLM推理服务系统评估中常见的“反模式”。通过系统性地分析现有评估方法,找出其中存在的缺陷,并提出相应的改进措施。核心在于建立一套更严格、更全面的评估框架,确保评估结果能够真实反映系统的性能。

技术框架:论文并没有提出一个具体的系统架构,而是提供了一个评估框架,包含以下几个主要步骤:1) 识别潜在的评估反模式,包括基线选择、工作负载选择和指标设计等方面;2) 针对识别出的反模式,提出相应的改进建议;3) 使用改进后的评估方法,重新评估LLM推理服务系统;4) 分析评估结果,并与之前的评估结果进行比较,验证改进方法的有效性。

关键创新:论文的关键创新在于对LLM推理服务系统评估方法进行了系统性的分析,识别出多种常见的评估反模式,并提出了相应的改进建议。这为LLM推理服务系统的评估提供了一个更严谨、更全面的框架,有助于提高评估结果的准确性和可靠性。

关键设计:论文的关键设计在于评估反模式的识别和改进建议的提出。例如,针对基线选择不合理的问题,论文建议选择具有代表性的、经过充分优化的基线系统进行比较;针对工作负载选择不合理的问题,论文建议使用能够代表真实应用场景的数据集进行评估;针对指标设计不合理的问题,论文建议使用能够反映系统性能各个方面的指标,并避免使用容易产生误导的归一化指标。

📊 实验亮点

论文通过案例研究,展示了该评估框架在分析推测解码技术时的有效性。传统的评估方法容易对推测解码的性能产生误判,而使用该论文提出的评估框架,可以更准确地评估推测解码的性能,并发现其潜在的瓶颈。这表明该评估框架能够有效地避免常见的评估反模式,并提供更可靠的评估结果。

🎯 应用场景

该研究成果可应用于各种LLM推理服务系统的性能评估,例如云端LLM服务、边缘设备上的LLM推理等。通过使用该论文提出的评估框架,可以更准确地评估LLM推理服务系统的性能,从而为系统优化和改进提供指导,加速LLM技术在各领域的应用。

📄 摘要(原文)

The rapid evolution of Large Language Model (LLM) inference systems has yielded significant efficiency improvements. However, our systematic analysis reveals that current evaluation methodologies frequently exhibit fundamental flaws, often manifesting as common evaluation anti-patterns that obscure true performance characteristics and impede scientific progress. Through a comprehensive examination of recent systems, we identify recurring anti-patterns across three key dimensions: Baseline Fairness, Evaluation Setup, and Metric Design. These anti-patterns are uniquely problematic for LLM inference due to its dual-phase nature combining distinct prefill and decode operations, its handling of highly heterogeneous workloads, and its strict temporal requirements for interactive use. We demonstrate how common anti-patterns -- such as inadequate baseline comparisons that conflate engineering effort with algorithmic novelty, workload selections that fail to represent production scenarios, and metric normalizations that hide substantial performance variability like generation stalls-lead to misleading conclusions. To address these challenges, we provide a comprehensive checklist derived from our analysis, establishing a framework for recognizing and avoiding these anti-patterns in favor of robust LLM inference evaluation. To demonstrate the practical application of our framework, we present a case study analyzing speculative decoding, a technique whose bursty, non-uniform token generation is easily misinterpreted when evaluated using approaches characteristic of these anti-patterns. Our work establishes a rigorous foundation for evaluation methodology, enabling meaningful comparisons, ensuring reproducible results, and ultimately accelerating genuine progress in LLM inference systems by moving beyond common anti-patterns to align evaluation with real-world requirements.