EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs
作者: Chang Han, Yijie Hu, Jingling Liu
分类: cs.LG, cs.PL
发布日期: 2026-03-09
备注: 14 pages. 7 figures
💡 一句话要点
EAGLE-Pangu:昇腾NPU上加速器安全的树状推测解码
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推测解码 大型语言模型 昇腾NPU 加速器安全 树状结构
📋 核心要点
- 大型语言模型自回归解码速度慢,成为性能瓶颈,现有方法难以在异构加速器上稳定运行。
- EAGLE-Pangu通过显式缓存管理、安全张量化和兼容的验证路径,实现了在昇腾NPU上的树状推测解码。
- 实验表明,EAGLE-Pangu在端到端解码吞吐量上平均提升1.27倍,最高提升2.46倍,效果显著。
📝 摘要(中文)
自回归解码仍然是大型语言模型(LLM)服务中的主要瓶颈,这促使了推测解码方法的发展,该方法通过验证每步的多个候选token来减少昂贵的教师模型调用。树状结构的推测进一步提高了并行性,但当移植到异构后端和加速器堆栈时,通常会变得脆弱,因为注意力掩码、KV-cache布局和索引语义是不可互换的。我们提出了EAGLE-Pangu,一个可复现的系统,它将EAGLE-3风格的树状推测解码移植到昇腾NPU上的Pangu教师后端。EAGLE-Pangu贡献了(i)一个基于Cache API构建的显式分支/提交缓存管理器,(ii)加速器安全的树张量化,通过构造消除未定义的负索引并验证结构不变性,以及(iii)一个与融合内核兼容的教师验证路径,具有可调试的eager回退。在来自MT-Bench和HumanEval风格提示的240个turn上,EAGLE-Pangu在融合内核性能路径中,端到端解码吞吐量平均提高了1.27倍,在p99时最高可达2.46倍,超过了仅使用教师模型的贪婪解码。我们还提供了一个无融合内核的参考路径,其中包含结构化跟踪和不变性检查,以支持跨执行模式和树预算的可复现调试和消融。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在昇腾NPU上进行自回归解码时速度慢的问题。现有的推测解码方法,特别是树状推测解码,在移植到异构加速器(如昇腾NPU)上时,由于注意力掩码、KV-cache布局和索引语义的差异,容易出现不稳定和性能下降的问题。
核心思路:EAGLE-Pangu的核心思路是通过构建一个加速器安全的树状推测解码系统,确保在昇腾NPU上实现高效且稳定的解码。该系统通过显式的缓存管理、安全的张量化方法以及兼容的教师验证路径,解决了异构加速器上的移植难题。
技术框架:EAGLE-Pangu的整体框架包含以下几个主要模块: 1. 分支/提交缓存管理器:基于Cache API构建,用于管理推测解码过程中的分支和提交操作。 2. 加速器安全的树张量化:通过构造消除未定义的负索引,并验证结构不变性,确保张量操作的正确性。 3. 融合内核兼容的教师验证路径:提供一个与融合内核兼容的教师模型验证路径,同时提供一个可调试的eager回退机制。 4. 无融合内核参考路径:提供结构化跟踪和不变性检查,用于调试和消融实验。
关键创新:EAGLE-Pangu的关键创新在于其加速器安全的设计,具体体现在以下几个方面: 1. 显式缓存管理:通过显式的缓存管理器,更好地控制分支和提交操作,避免了隐式缓存可能带来的问题。 2. 安全张量化:通过构造消除负索引,确保张量操作的有效性,避免了因索引错误导致的崩溃。 3. 兼容的验证路径:提供与融合内核兼容的验证路径,同时提供可调试的eager回退,方便调试和优化。
关键设计:EAGLE-Pangu的关键设计包括: 1. Cache API的使用:利用Cache API实现高效的缓存管理。 2. 树张量化的具体实现:详细的张量操作设计,确保在加速器上的正确执行。 3. 融合内核的适配:针对昇腾NPU的融合内核进行优化,提高性能。 4. 结构化跟踪和不变性检查:提供详细的跟踪信息和不变性检查,方便调试和验证。
🖼️ 关键图片
📊 实验亮点
EAGLE-Pangu在MT-Bench和HumanEval风格提示的240个turn上进行了评估,结果表明,在融合内核性能路径中,端到端解码吞吐量平均提高了1.27倍,在p99时最高可达2.46倍,显著优于仅使用教师模型的贪婪解码。此外,该系统还提供了一个无融合内核的参考路径,方便进行调试和消融实验。
🎯 应用场景
EAGLE-Pangu可应用于各种需要高性能LLM推理的场景,例如智能客服、机器翻译、文本生成等。通过在昇腾NPU上实现高效的推测解码,可以显著降低推理延迟,提高用户体验,并降低部署成本。该研究为在国产AI加速器上部署和优化LLM推理提供了有价值的参考。
📄 摘要(原文)
Autoregressive decoding remains a primary bottleneck in large language model (LLM) serving, motivating speculative decoding methods that reduce expensive teacher-model invocations by verifying multiple candidate tokens per step. Tree-structured speculation further increases parallelism, but is often brittle when ported across heterogeneous backends and accelerator stacks, where attention masking, KV-cache layouts, and indexing semantics are not interchangeable. We present EAGLE-Pangu, a reproducible system that ports EAGLE-3-style tree speculative decoding to a Pangu teacher backend on Ascend NPUs. EAGLE-Pangu contributes (i) an explicit branch/commit cache manager built on the Cache API, (ii) accelerator-safe tree tensorization that removes undefined negative indices by construction and validates structural invariants, and (iii) a fused-kernel-compatible teacher verification path with a debuggable eager fallback. On 240 turns from MT-Bench and HumanEval-style prompts, EAGLE-Pangu improves end-to-end decoding throughput by 1.27x on average, up to 2.46x at p99, over teacher-only greedy decoding in the fused-kernel performance path. We also provide a fused-kernel-free reference path with structured traces and invariant checks to support reproducible debugging and ablation across execution modes and tree budgets.