TaxBreak: Unmasking the Hidden Costs of LLM Inference Through Overhead Decomposition
作者: Prabhu Vellaisamy, Shreesh Tripathi, Vignesh Natarajan, Surya Santhan Thenarasu, Shawn Blanton, John P. Shen
分类: cs.DC, cs.LG, cs.PF
发布日期: 2026-03-12
备注: Accepted at IEEE ISPASS 2026. Copyright assigned to IEEE
💡 一句话要点
TaxBreak:通过开销分解揭示LLM推理的隐藏成本,优化Host-Device平衡
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型推理 性能分析 开销分解 主机-设备平衡 软件栈优化
📋 核心要点
- 现有LLM推理优化方法难以精确定位主机端开销的瓶颈,通常仅提供聚合指标,不足以指导优化方向。
- TaxBreak通过追踪技术将主机端开销分解为框架转换、CUDA库转换和内核启动路径三个部分,从而实现更细粒度的性能分析。
- 实验表明,TaxBreak能有效区分软件栈和设备端瓶颈,并揭示了CPU单线程性能对MoE模型推理的关键影响。
📝 摘要(中文)
大型语言模型(LLM)推理被广泛应用于交互式助手和智能体系统中。在对延迟敏感的部署中,推理时间可能主要由主机端的开销决定。现有方法通常仅将此成本作为聚合残差或启动/排队指标公开,这通常不足以识别应优化哪个执行层。本文提出了TaxBreak,一种基于追踪的分解主机可见编排开销的方法,将其分解为三个组成部分:框架转换时间、CUDA库转换时间和内核启动路径时间。我们在NVIDIA H100和H200系统上验证了TaxBreak,并使用它来推导出我们提出的主机-设备平衡指数(HDBI),这是一个有界性总结指数,它将设备活动执行与主机可见编排相关联。在预填充和解码中具有代表性的密集和混合专家工作负载中,我们表明,单独的聚合延迟、GPU不活动或有界性比率可能会掩盖主要的优化目标。TaxBreak区分了优化应减少软件堆栈开销的情况与主要优势来自减少设备端工作的情况。我们进一步表明,MoE模型每个输出token调度的内核数量比密集模型多8-11倍,并且对于此类受主机限制的工作负载,CPU单线程性能是首要参数:更快的host CPU可将编排开销降低10-29%,并将端到端延迟提高多达14%,即使与时钟频率较低的GPU配对也是如此。这些结果将TaxBreak定位为一种诊断工具,用于评估优化工作应针对软件堆栈还是设备端工作负载执行。
🔬 方法详解
问题定义:现有LLM推理优化方法在分析主机端开销时存在不足,通常只能提供聚合的延迟数据或启动/排队时间,无法精确定位导致性能瓶颈的具体环节。这使得开发者难以确定优化方向,例如是应该优化软件栈还是设备端的工作负载。现有方法缺乏对主机端开销的细粒度分解能力,阻碍了更有效的性能优化。
核心思路:TaxBreak的核心思路是通过追踪技术,将主机端可见的编排开销分解为更细粒度的组成部分,包括框架转换时间、CUDA库转换时间和内核启动路径时间。通过这种分解,可以更清晰地了解主机端开销的来源,从而更有针对性地进行优化。此外,TaxBreak还提出了主机-设备平衡指数(HDBI),用于量化设备活动执行与主机可见编排之间的关系,帮助判断系统是受主机限制还是受设备限制。
技术框架:TaxBreak采用trace-driven的方法,通过收集LLM推理过程中的运行时信息,构建开销分解模型。主要包含以下几个阶段:1) 追踪数据收集:收集LLM推理过程中主机端的各种事件信息,例如函数调用、内存分配等。2) 开销分解:将收集到的事件信息进行分类和统计,分解为主机端开销的三个组成部分:框架转换时间、CUDA库转换时间和内核启动路径时间。3) 性能分析:基于分解后的开销数据,分析性能瓶颈,并计算主机-设备平衡指数(HDBI)。
关键创新:TaxBreak的关键创新在于其细粒度的主机端开销分解方法。与现有方法仅提供聚合指标不同,TaxBreak能够将主机端开销分解为三个明确的组成部分,从而更准确地识别性能瓶颈。此外,HDBI指数的提出,也为判断系统瓶颈提供了量化指标。
关键设计:TaxBreak的关键设计包括:1) 精确的追踪机制,能够准确地收集LLM推理过程中的运行时信息。2) 高效的开销分解算法,能够快速地将收集到的信息分解为不同的组成部分。3) HDBI指数的计算方法,能够有效地量化主机和设备之间的平衡关系。这些设计保证了TaxBreak能够准确、高效地分析LLM推理的性能瓶颈。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MoE模型每个输出token调度的内核数量比密集模型多8-11倍,这使得MoE模型更容易受到主机端开销的限制。对于此类受主机限制的工作负载,更快的CPU可以将编排开销降低10-29%,并将端到端延迟提高多达14%,即使与时钟频率较低的GPU配对也是如此。这些结果强调了CPU性能在MoE模型推理中的重要性。
🎯 应用场景
TaxBreak可作为LLM推理性能优化的诊断工具,帮助开发者识别性能瓶颈,并确定优化方向。通过分析主机端开销的组成部分,开发者可以更有针对性地优化软件栈或设备端工作负载,从而提高LLM推理的效率和降低延迟。该研究成果对交互式AI助手、智能体系统等延迟敏感型应用具有重要价值,有助于提升用户体验。
📄 摘要(原文)
Large Language Model (LLM) inference is widely used in interactive assistants and agentic systems. In latency-sensitive deployments, inference time can become dominated by host-side overheads. Existing approaches typically expose this cost only as an aggregate residual or a launch/queue metric, which is often insufficient to identify which execution layer should be optimized. This work presents TaxBreak, a trace-driven methodology for decomposing host-visible orchestration overhead into three components: framework translation time, CUDA library translation time, and kernel launch-path time. We validate TaxBreak on NVIDIA H100 and H200 systems and use it to derive our proposed Host-Device Balance Index (HDBI), a boundedness summary index that relates device-active execution to host-visible orchestration. Across representative dense and mixture-of-experts workloads in both prefill and decode, we show that aggregate latency, GPU inactivity, or boundedness ratios alone can obscure the dominant optimization target. TaxBreak instead distinguishes cases where optimization should reduce software-stack overhead from cases where the primary win comes from reducing device-side work. We further show that MoE models dispatch 8-11x more kernels per output token than dense models, and that for such host-bound workloads, CPU single-thread performance is a first-order parameter: a faster host CPU reduces orchestration overhead by 10-29% and improves end-to-end latency by up to 14%, even when paired with a slower-clocked GPU. These results position TaxBreak as a diagnostic tool for assessing whether optimization effort should target the software stack or the device-side workload execution.