TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs

📄 arXiv: 2510.15545v3 📥 PDF

作者: Sibo Xiao, Jinyuan Fu, Zhongle Xie, Lidan Shou

分类: cs.CL, cs.AI

发布日期: 2025-10-17 (更新: 2025-12-28)


💡 一句话要点

TokenTiming:一种通用推测解码模型对的动态对齐方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 动态时间规整 模型加速 推理优化

📋 核心要点

  1. 现有推测解码方法要求draft模型和target模型共享词汇表,限制了draft模型的选择范围,并可能需要重新训练模型。
  2. TokenTiming通过重新编码draft token序列并使用动态时间规整(DTW)构建映射,实现了不同词汇表模型之间的概率分布传递。
  3. 实验结果表明,TokenTiming在各种任务上实现了1.57倍的加速,为LLM加速提供了一种通用的解决方案。

📝 摘要(中文)

加速大型语言模型(LLM)的推理是生成式AI中的一个关键挑战。推测解码(SD)显著提高了LLM的推理效率。然而,它的效用受到一个基本约束的限制:draft模型和target模型必须共享相同的词汇表,这限制了可用draft模型的范围,并且通常需要从头开始训练新模型。受到动态时间规整(DTW)的启发,这是一种用于对齐时间序列的经典算法,我们提出了用于通用推测解码的TokenTiming算法。它通过重新编码draft token序列以获得新的target token序列来操作,然后使用DTW来构建映射,以传递用于推测采样的概率分布。受益于此,我们的方法可以适应不匹配的词汇表,并且可以与任何现成的模型一起使用,而无需重新训练和修改。我们在各种任务上进行了全面的实验,证明了1.57倍的加速。这项工作为draft模型选择提供了一种通用方法,使SD成为一种更通用和实用的LLM加速工具。

🔬 方法详解

问题定义:现有推测解码方法的一个主要痛点是draft模型和target模型需要共享相同的词汇表。这极大地限制了draft模型的选择,因为通常需要针对特定的target模型训练新的draft模型,增加了计算成本和模型维护的复杂性。因此,如何使推测解码能够利用具有不同词汇表的现有模型,成为了一个亟待解决的问题。

核心思路:TokenTiming的核心思路是借鉴动态时间规整(DTW)算法,将draft模型生成的token序列动态地对齐到target模型的token序列。通过这种方式,即使两个模型的词汇表不同,也可以建立起token之间的对应关系,从而实现概率分布的传递。具体来说,TokenTiming首先将draft模型的token序列重新编码为target模型的token序列,然后利用DTW算法找到最佳的对齐路径。

技术框架:TokenTiming的整体框架包括以下几个主要步骤:1) Draft模型生成token序列;2) 将draft token序列重新编码为target token序列;3) 使用动态时间规整(DTW)算法对齐两个token序列,建立映射关系;4) 利用映射关系传递概率分布,进行推测采样;5) Target模型验证推测结果,并生成最终的token序列。

关键创新:TokenTiming最重要的技术创新在于它使用动态时间规整(DTW)算法来解决不同词汇表模型之间的对齐问题。与现有方法相比,TokenTiming不需要draft模型和target模型共享词汇表,从而可以利用更多现成的模型,提高了推测解码的灵活性和通用性。

关键设计:TokenTiming的关键设计包括:1) 如何选择合适的重新编码方法,将draft token序列转换为target token序列;2) 如何定义DTW算法中的距离度量,以准确地反映token之间的相似性;3) 如何利用DTW算法建立的映射关系,有效地传递概率分布,进行推测采样。这些设计细节直接影响了TokenTiming的性能和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TokenTiming在各种任务上实现了显著的加速效果,平均加速比为1.57倍。与传统的推测解码方法相比,TokenTiming不需要draft模型和target模型共享词汇表,从而可以利用更多现成的模型,提高了推测解码的灵活性和通用性。这些结果表明,TokenTiming是一种有效的LLM加速方法,具有重要的实际应用价值。

🎯 应用场景

TokenTiming具有广泛的应用前景,可以应用于各种需要加速LLM推理的场景,例如在线对话系统、文本生成、机器翻译等。通过利用现有的、具有不同词汇表的模型作为draft模型,TokenTiming可以显著提高LLM的推理效率,降低计算成本,并为用户提供更流畅的交互体验。此外,TokenTiming还可以促进LLM的普及和应用,使其能够更好地服务于社会。

📄 摘要(原文)

Accelerating the inference of large language models (LLMs) has been a critical challenge in generative AI. Speculative decoding (SD) substantially improves LLM inference efficiency. However, its utility is limited by a fundamental constraint: the draft and target models must share the same vocabulary, thus limiting the herd of available draft models and often necessitating the training of a new model from scratch. Inspired by Dynamic Time Warping (DTW), a classic algorithm for aligning time series, we propose the algorithm TokenTiming for universal speculative decoding. It operates by re-encoding the draft token sequence to get a new target token sequence, and then uses DTW to build a mapping to transfer the probability distributions for speculative sampling. Benefiting from this, our method accommodates mismatched vocabularies and works with any off-the-shelf models without retraining and modification. We conduct comprehensive experiments on various tasks, demonstrating 1.57x speedup. This work enables a universal approach for draft model selection, making SD a more versatile and practical tool for LLM acceleration.