EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

作者: Chang Han, Yijie Hu, Jingling Liu

分类: cs.LG, cs.PL

发布日期: 2026-03-09

备注: 14 pages. 7 figures

💡 一句话要点

EAGLE-Pangu：昇腾NPU上加速器安全的树状推测解码

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 昇腾NPU 加速器安全 树状结构

📋 核心要点

大型语言模型自回归解码速度慢，成为性能瓶颈，现有方法难以在异构加速器上稳定运行。
EAGLE-Pangu通过显式缓存管理、安全张量化和兼容的验证路径，实现了在昇腾NPU上的树状推测解码。
实验表明，EAGLE-Pangu在端到端解码吞吐量上平均提升1.27倍，最高提升2.46倍，效果显著。

📝 摘要（中文）

自回归解码仍然是大型语言模型（LLM）服务中的主要瓶颈，这促使了推测解码方法的发展，该方法通过验证每步的多个候选token来减少昂贵的教师模型调用。树状结构的推测进一步提高了并行性，但当移植到异构后端和加速器堆栈时，通常会变得脆弱，因为注意力掩码、KV-cache布局和索引语义是不可互换的。我们提出了EAGLE-Pangu，一个可复现的系统，它将EAGLE-3风格的树状推测解码移植到昇腾NPU上的Pangu教师后端。EAGLE-Pangu贡献了（i）一个基于Cache API构建的显式分支/提交缓存管理器，（ii）加速器安全的树张量化，通过构造消除未定义的负索引并验证结构不变性，以及（iii）一个与融合内核兼容的教师验证路径，具有可调试的eager回退。在来自MT-Bench和HumanEval风格提示的240个turn上，EAGLE-Pangu在融合内核性能路径中，端到端解码吞吐量平均提高了1.27倍，在p99时最高可达2.46倍，超过了仅使用教师模型的贪婪解码。我们还提供了一个无融合内核的参考路径，其中包含结构化跟踪和不变性检查，以支持跨执行模式和树预算的可复现调试和消融。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在昇腾NPU上进行自回归解码时速度慢的问题。现有的推测解码方法，特别是树状推测解码，在移植到异构加速器（如昇腾NPU）上时，由于注意力掩码、KV-cache布局和索引语义的差异，容易出现不稳定和性能下降的问题。

核心思路：EAGLE-Pangu的核心思路是通过构建一个加速器安全的树状推测解码系统，确保在昇腾NPU上实现高效且稳定的解码。该系统通过显式的缓存管理、安全的张量化方法以及兼容的教师验证路径，解决了异构加速器上的移植难题。

技术框架：EAGLE-Pangu的整体框架包含以下几个主要模块： 1. 分支/提交缓存管理器：基于Cache API构建，用于管理推测解码过程中的分支和提交操作。 2. 加速器安全的树张量化：通过构造消除未定义的负索引，并验证结构不变性，确保张量操作的正确性。 3. 融合内核兼容的教师验证路径：提供一个与融合内核兼容的教师模型验证路径，同时提供一个可调试的eager回退机制。 4. 无融合内核参考路径：提供结构化跟踪和不变性检查，用于调试和消融实验。

关键创新：EAGLE-Pangu的关键创新在于其加速器安全的设计，具体体现在以下几个方面： 1. 显式缓存管理：通过显式的缓存管理器，更好地控制分支和提交操作，避免了隐式缓存可能带来的问题。 2. 安全张量化：通过构造消除负索引，确保张量操作的有效性，避免了因索引错误导致的崩溃。 3. 兼容的验证路径：提供与融合内核兼容的验证路径，同时提供可调试的eager回退，方便调试和优化。

关键设计：EAGLE-Pangu的关键设计包括： 1. Cache API的使用：利用Cache API实现高效的缓存管理。 2. 树张量化的具体实现：详细的张量操作设计，确保在加速器上的正确执行。 3. 融合内核的适配：针对昇腾NPU的融合内核进行优化，提高性能。 4. 结构化跟踪和不变性检查：提供详细的跟踪信息和不变性检查，方便调试和验证。

🖼️ 关键图片

📊 实验亮点

EAGLE-Pangu在MT-Bench和HumanEval风格提示的240个turn上进行了评估，结果表明，在融合内核性能路径中，端到端解码吞吐量平均提高了1.27倍，在p99时最高可达2.46倍，显著优于仅使用教师模型的贪婪解码。此外，该系统还提供了一个无融合内核的参考路径，方便进行调试和消融实验。

🎯 应用场景

EAGLE-Pangu可应用于各种需要高性能LLM推理的场景，例如智能客服、机器翻译、文本生成等。通过在昇腾NPU上实现高效的推测解码，可以显著降低推理延迟，提高用户体验，并降低部署成本。该研究为在国产AI加速器上部署和优化LLM推理提供了有价值的参考。

📄 摘要（原文）

Autoregressive decoding remains a primary bottleneck in large language model (LLM) serving, motivating speculative decoding methods that reduce expensive teacher-model invocations by verifying multiple candidate tokens per step. Tree-structured speculation further increases parallelism, but is often brittle when ported across heterogeneous backends and accelerator stacks, where attention masking, KV-cache layouts, and indexing semantics are not interchangeable. We present EAGLE-Pangu, a reproducible system that ports EAGLE-3-style tree speculative decoding to a Pangu teacher backend on Ascend NPUs. EAGLE-Pangu contributes (i) an explicit branch/commit cache manager built on the Cache API, (ii) accelerator-safe tree tensorization that removes undefined negative indices by construction and validates structural invariants, and (iii) a fused-kernel-compatible teacher verification path with a debuggable eager fallback. On 240 turns from MT-Bench and HumanEval-style prompts, EAGLE-Pangu improves end-to-end decoding throughput by 1.27x on average, up to 2.46x at p99, over teacher-only greedy decoding in the fused-kernel performance path. We also provide a fused-kernel-free reference path with structured traces and invariant checks to support reproducible debugging and ablation across execution modes and tree budgets.

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理