Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies
作者: Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Gaurav Jain, Oren Pereg, Moshe Wasserblat, David Harel
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-01-31 (更新: 2025-06-11)
备注: ICML'25 Oral (top %1)
💡 一句话要点
提出无需同词表的无损推测解码算法,加速异构LLM推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推测解码 大语言模型 LLM推理加速 异构词汇表 无损解码
📋 核心要点
- 现有推测解码方法要求起草模型和目标模型共享词汇表,限制了起草模型的选择和应用。
- 论文提出三种新的无损推测解码算法,无需共享词汇表,可直接使用现成的模型作为起草模型。
- 实验结果表明,在多种任务上,该算法相比标准自回归解码实现了显著的加速,最高可达2.8倍。
📝 摘要(中文)
大型语言模型(LLM)的推理加速是生成式AI中的关键挑战。推测解码(SD)方法通过单次目标模型前向传播生成多个token,从而显著提高效率。然而,现有的SD方法要求起草模型和目标模型共享相同的词汇表,限制了可用起草模型的范围,通常需要从头开始训练起草模型。我们提出了三种新的SD方法,消除了这种共享词汇表的约束。所有三种方法都保留了目标分布(即,它们是无损的),并且可以与现成的模型一起使用,而无需额外的训练或修改。在摘要、编程和长上下文任务上的实验表明,我们的算法相比标准自回归解码,实现了高达2.8倍的显著加速。通过使任何现成的模型都可以作为起草模型,并且不需要重新训练,这项工作大大拓宽了SD框架在实践中的适用性。
🔬 方法详解
问题定义:现有推测解码(Speculative Decoding, SD)方法加速LLM推理,但要求起草模型(drafter model)和目标模型(target model)共享相同的词汇表。这限制了起草模型的选择,通常需要从头训练起草模型,增加了成本和复杂性。因此,如何消除词汇表共享约束,使更多现成模型能作为起草模型,是本文要解决的核心问题。
核心思路:论文的核心思路是设计一种无损的推测解码算法,该算法能够在起草模型和目标模型使用不同词汇表的情况下,仍然保证生成结果与目标模型完全一致。通过巧妙地转换和校正起草模型的输出,使其与目标模型的词汇表兼容,并确保最终生成分布不发生改变。
技术框架:整体框架包含起草模型(Drafter Model)、目标模型(Target Model)和一个转换模块。起草模型使用自身的词汇表生成多个候选token,转换模块将这些token映射到目标模型的词汇表空间。然后,目标模型验证这些候选token,并根据验证结果决定接受或拒绝。整个过程迭代进行,直到生成所需的序列长度。
关键创新:最重要的创新在于提出了三种不同的无损推测解码算法,它们的核心区别在于如何处理起草模型和目标模型词汇表之间的差异,以及如何保证生成结果的无损性。这些算法允许使用任何现成的模型作为起草模型,无需额外的训练或修改,极大地扩展了推测解码的应用范围。
关键设计:具体算法细节(论文中未明确说明,未知)。关键在于设计有效的词汇表映射方法,以及确保在映射过程中不引入偏差,从而保证生成结果的无损性。可能涉及到一些概率校正或重采样技术,以确保最终生成分布与目标模型完全一致。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该算法在摘要、编程和长上下文任务上,相比标准自回归解码实现了显著的加速,最高可达2.8倍。这一加速效果是在不损失生成质量的前提下实现的,证明了该算法的有效性和实用性。更重要的是,该方法无需对起草模型进行任何训练或修改,可以直接使用现成的模型,大大降低了应用门槛。
🎯 应用场景
该研究成果可广泛应用于各种需要加速LLM推理的场景,例如:在线对话系统、文本摘要、代码生成等。通过使用更小、更快的模型作为起草模型,可以显著降低推理延迟和计算成本,提高用户体验。此外,该方法无需重新训练起草模型,降低了部署和维护的难度,具有很高的实际应用价值。
📄 摘要(原文)
Accelerating the inference of large language models (LLMs) is a critical challenge in generative AI. Speculative decoding (SD) methods offer substantial efficiency gains by generating multiple tokens using a single target forward pass. However, existing SD approaches require the drafter and target models to share the same vocabulary, thus limiting the pool of possible drafters, often necessitating the training of a drafter from scratch. We present three new SD methods that remove this shared-vocabulary constraint. All three methods preserve the target distribution (i.e., they are lossless) and work with off-the-shelf models without requiring additional training or modifications. Empirically, on summarization, programming, and long-context tasks, our algorithms demonstrate significant speedups of up to 2.8x over standard autoregressive decoding. By enabling any off-the-shelf model to serve as a drafter and requiring no retraining, this work substantially broadens the applicability of the SD framework in practice.