Dynamic Depth Decoding: Faster Speculative Decoding for LLMs

📄 arXiv: 2409.00142v1 📥 PDF

作者: Oscar Brown, Zhengjie Wang, Andrea Do, Nikhil Mathew, Cheng Yu

分类: cs.CL, cs.AI

发布日期: 2024-08-30


💡 一句话要点

提出动态深度解码DDD,加速LLM推断,提升EAGLE-2速度44%。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推测解码 动态深度解码 LLM加速 EAGLE-2 模型推断 草案树 动态调整

📋 核心要点

  1. 现有推测解码方法如EAGLE在加速LLM推断方面仍有提升空间,尤其是在草案树的构建策略上。
  2. DDD通过动态调整草案树的深度,优化EAGLE-2的树形草案方法,从而更有效地利用计算资源。
  3. 实验结果表明,DDD在EAGLE-2的基础上实现了44%的平均速度提升,总加速比达到3.16倍。

📝 摘要(中文)

本文提出了一种名为动态深度解码(DDD)的方法,旨在加速大型语言模型(LLM)的推断过程。DDD优化了EAGLE-2的树形草案方法,通过动态调整深度来实现。EAGLE-2是目前最先进的推测解码方法,它在EAGLE的基础上进行了改进,使用了动态草案树。DDD在EAGLE-2相对于EAGLE的平均加速基础上,进一步提升了44%,使得DDD的平均加速比达到3.16倍。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)推断速度慢的问题。现有的推测解码方法,如EAGLE和EAGLE-2,虽然能够加速推断过程,但其草案树的构建策略仍然存在优化的空间,尤其是在如何动态地调整草案树的深度方面。EAGLE-2虽然引入了动态草案树,但其深度调整策略仍有改进空间,限制了其加速效果。

核心思路:DDD的核心思路是根据模型的预测置信度动态地调整草案树的深度。如果模型对某个token的预测置信度较高,则可以增加草案树的深度,从而生成更多的候选token。反之,如果模型对某个token的预测置信度较低,则应该减少草案树的深度,以避免生成不准确的候选token,从而提高整体的推断效率。

技术框架:DDD方法建立在EAGLE-2的基础上,主要改进在于草案树的深度选择策略。整体流程如下:首先,使用小模型(draft model)生成一个草案树,该树的深度由DDD动态决定。然后,使用大模型(target model)验证草案树中的token。最后,将验证通过的token添加到最终的输出序列中。

关键创新:DDD的关键创新在于动态深度调整策略。与EAGLE-2相比,DDD能够根据模型的预测置信度自适应地调整草案树的深度,从而更有效地利用计算资源,提高推断速度。这种动态调整策略使得DDD能够更好地平衡草案树的生成成本和验证成本。

关键设计:DDD的具体实现细节包括:如何定义模型的预测置信度(例如,可以使用softmax输出的概率值),以及如何根据置信度来调整草案树的深度(例如,可以使用一个阈值来判断是否需要增加或减少深度)。具体的阈值设置可能需要根据不同的模型和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

DDD在EAGLE-2的基础上实现了显著的性能提升,平均加速比提高了44%,达到了3.16倍。这意味着在相同的硬件条件下,使用DDD可以更快地生成文本,从而提高LLM的应用效率。实验结果表明,DDD是一种有效的加速LLM推断的方法。

🎯 应用场景

DDD具有广泛的应用前景,可以应用于各种需要快速推断的LLM应用场景,例如在线对话系统、机器翻译、文本摘要等。通过提高LLM的推断速度,DDD可以降低计算成本,提高用户体验,并促进LLM在更多领域的应用。未来,DDD可以与其他加速技术相结合,进一步提高LLM的推断效率。

📄 摘要(原文)

The acceleration of Large Language Models (LLMs) with speculative decoding provides a significant runtime improvement without any loss of accuracy. Currently, EAGLE-2 is the state-of-the-art speculative decoding method, improving on EAGLE with a dynamic draft tree. We introduce Dynamic Depth Decoding (DDD), which optimises EAGLE-2's tree drafting method using a dynamic depth. This extends the average speedup that EAGLE-2 achieves over EAGLE by $44\%$, giving DDD an average speedup of $3.16$x.