EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

📄 arXiv: 2503.01840v3 📥 PDF

作者: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang

分类: cs.CL

发布日期: 2025-03-03 (更新: 2025-04-23)

🔗 代码/项目: GITHUB


💡 一句话要点

EAGLE-3:通过训练时测试扩展大语言模型推理加速,提升数据规模利用率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理加速 推测性采样 特征融合 训练时测试

📋 核心要点

  1. 现有EAGLE方法在数据规模增大时性能提升受限,主要由于其特征预测的约束。
  2. EAGLE-3放弃特征预测,采用直接token预测,并使用训练时测试进行多层特征融合。
  3. 实验表明,EAGLE-3在多个任务上实现了显著的加速,并有效利用了更大规模的训练数据。

📝 摘要(中文)

现代大型语言模型(LLM)的序列特性导致其成本高昂且速度缓慢,推测性采样已被证明是解决此问题的有效方法。EAGLE等方法在特征层面执行自回归,重用目标模型的顶层特征,从而获得比原始推测性采样更好的结果。LLM社区的一个日益增长的趋势是扩大训练数据规模以提高模型智能,而不增加推理成本。然而,我们观察到扩大数据规模对EAGLE的改进有限。我们发现这种限制源于EAGLE的特征预测约束。在本文中,我们介绍了EAGLE-3,它放弃了特征预测,转而采用直接token预测,并通过一种名为训练时测试的技术,用多层特征融合取代了对顶层特征的依赖。这些改进显著提高了性能,并使draft模型能够充分受益于扩大训练数据规模。我们的实验包括聊天模型和推理模型,并在五个任务上进行了评估。结果表明,EAGLE-3实现了高达6.5倍的加速比,比EAGLE-2提高了约1.4倍。在SGLang框架中,EAGLE-3在batch size为64时实现了1.38倍的吞吐量提升。代码可在https://github.com/SafeAILab/EAGLE 获取。

🔬 方法详解

问题定义:现有的大语言模型推理速度慢,成本高。EAGLE等推测性采样方法通过重用目标模型的顶层特征来加速推理,但在训练数据规模增大时,EAGLE的性能提升有限,其瓶颈在于特征预测的约束,无法充分利用大规模数据带来的优势。

核心思路:EAGLE-3的核心思路是放弃特征预测,转而直接预测token。此外,不再依赖顶层特征,而是通过多层特征融合来提升预测的准确性。通过这种方式,draft模型可以更好地利用大规模训练数据,从而提高整体的推理速度和效率。

技术框架:EAGLE-3的整体框架包括一个目标模型和一个draft模型。与EAGLE不同的是,draft模型不再预测目标模型的顶层特征,而是直接预测token。为了更好地利用目标模型的信息,EAGLE-3引入了“训练时测试”技术,在训练过程中融合目标模型的多层特征。具体流程是,draft模型生成token后,使用目标模型的多层特征进行验证,并根据验证结果调整draft模型的预测。

关键创新:EAGLE-3最重要的创新点在于放弃了特征预测,转而采用直接token预测,并引入了“训练时测试”技术进行多层特征融合。这与EAGLE等方法依赖顶层特征预测有本质区别,使得draft模型能够更好地利用大规模训练数据,从而提高整体的推理速度和效率。

关键设计:EAGLE-3的关键设计包括:1) 使用交叉熵损失函数训练draft模型,使其能够准确预测token;2) 设计“训练时测试”模块,融合目标模型的多层特征,提高draft模型预测的准确性;3) 优化draft模型的网络结构,使其能够高效地进行token预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EAGLE-3在多个任务上取得了显著的加速效果。实验结果表明,EAGLE-3实现了高达6.5倍的加速比,比EAGLE-2提高了约1.4倍。在SGLang框架中,EAGLE-3在batch size为64时实现了1.38倍的吞吐量提升。这些结果表明,EAGLE-3能够有效提高大语言模型的推理速度和效率。

🎯 应用场景

EAGLE-3可应用于各种需要加速大语言模型推理的场景,例如智能客服、文本生成、机器翻译等。通过提高推理速度和效率,EAGLE-3可以降低部署成本,并提升用户体验。未来,EAGLE-3有望成为大语言模型推理加速的重要技术手段。

📄 摘要(原文)

The sequential nature of modern LLMs makes them expensive and slow, and speculative sampling has proven to be an effective solution to this problem. Methods like EAGLE perform autoregression at the feature level, reusing top-layer features from the target model to achieve better results than vanilla speculative sampling. A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE. We identify that this limitation arises from EAGLE's feature prediction constraints. In this paper, we introduce EAGLE-3, which abandons feature prediction in favor of direct token prediction and replaces reliance on top-layer features with multi-layer feature fusion via a technique named training-time test. These improvements significantly enhance performance and enable the draft model to fully benefit from scaling up training data. Our experiments include both chat models and reasoning models, evaluated on five tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with about 1.4x improvement over EAGLE-2. In the SGLang framework, EAGLE-3 achieves a 1.38x throughput improvement at a batch size of 64. The code is available at https://github.com/SafeAILab/EAGLE.