TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs

作者: Sibo Xiao, Jinyuan Fu, Zhongle Xie, Lidan Shou

分类: cs.CL, cs.AI

发布日期: 2025-10-17 (更新: 2025-12-28)

💡 一句话要点

TokenTiming：一种通用推测解码模型对的动态对齐方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 动态时间规整 模型加速 推理优化

📋 核心要点

现有推测解码方法要求draft模型和target模型共享词汇表，限制了draft模型的选择范围，并可能需要重新训练模型。
TokenTiming通过重新编码draft token序列并使用动态时间规整（DTW）构建映射，实现了不同词汇表模型之间的概率分布传递。
实验结果表明，TokenTiming在各种任务上实现了1.57倍的加速，为LLM加速提供了一种通用的解决方案。

📝 摘要（中文）

加速大型语言模型（LLM）的推理是生成式AI中的一个关键挑战。推测解码（SD）显著提高了LLM的推理效率。然而，它的效用受到一个基本约束的限制：draft模型和target模型必须共享相同的词汇表，这限制了可用draft模型的范围，并且通常需要从头开始训练新模型。受到动态时间规整（DTW）的启发，这是一种用于对齐时间序列的经典算法，我们提出了用于通用推测解码的TokenTiming算法。它通过重新编码draft token序列以获得新的target token序列来操作，然后使用DTW来构建映射，以传递用于推测采样的概率分布。受益于此，我们的方法可以适应不匹配的词汇表，并且可以与任何现成的模型一起使用，而无需重新训练和修改。我们在各种任务上进行了全面的实验，证明了1.57倍的加速。这项工作为draft模型选择提供了一种通用方法，使SD成为一种更通用和实用的LLM加速工具。

🔬 方法详解

问题定义：现有推测解码方法的一个主要痛点是draft模型和target模型需要共享相同的词汇表。这极大地限制了draft模型的选择，因为通常需要针对特定的target模型训练新的draft模型，增加了计算成本和模型维护的复杂性。因此，如何使推测解码能够利用具有不同词汇表的现有模型，成为了一个亟待解决的问题。

核心思路：TokenTiming的核心思路是借鉴动态时间规整（DTW）算法，将draft模型生成的token序列动态地对齐到target模型的token序列。通过这种方式，即使两个模型的词汇表不同，也可以建立起token之间的对应关系，从而实现概率分布的传递。具体来说，TokenTiming首先将draft模型的token序列重新编码为target模型的token序列，然后利用DTW算法找到最佳的对齐路径。

技术框架：TokenTiming的整体框架包括以下几个主要步骤：1) Draft模型生成token序列；2) 将draft token序列重新编码为target token序列；3) 使用动态时间规整（DTW）算法对齐两个token序列，建立映射关系；4) 利用映射关系传递概率分布，进行推测采样；5) Target模型验证推测结果，并生成最终的token序列。

关键创新：TokenTiming最重要的技术创新在于它使用动态时间规整（DTW）算法来解决不同词汇表模型之间的对齐问题。与现有方法相比，TokenTiming不需要draft模型和target模型共享词汇表，从而可以利用更多现成的模型，提高了推测解码的灵活性和通用性。

关键设计：TokenTiming的关键设计包括：1) 如何选择合适的重新编码方法，将draft token序列转换为target token序列；2) 如何定义DTW算法中的距离度量，以准确地反映token之间的相似性；3) 如何利用DTW算法建立的映射关系，有效地传递概率分布，进行推测采样。这些设计细节直接影响了TokenTiming的性能和效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TokenTiming在各种任务上实现了显著的加速效果，平均加速比为1.57倍。与传统的推测解码方法相比，TokenTiming不需要draft模型和target模型共享词汇表，从而可以利用更多现成的模型，提高了推测解码的灵活性和通用性。这些结果表明，TokenTiming是一种有效的LLM加速方法，具有重要的实际应用价值。

🎯 应用场景

TokenTiming具有广泛的应用前景，可以应用于各种需要加速LLM推理的场景，例如在线对话系统、文本生成、机器翻译等。通过利用现有的、具有不同词汇表的模型作为draft模型，TokenTiming可以显著提高LLM的推理效率，降低计算成本，并为用户提供更流畅的交互体验。此外，TokenTiming还可以促进LLM的普及和应用，使其能够更好地服务于社会。

📄 摘要（原文）

Accelerating the inference of large language models (LLMs) has been a critical challenge in generative AI. Speculative decoding (SD) substantially improves LLM inference efficiency. However, its utility is limited by a fundamental constraint: the draft and target models must share the same vocabulary, thus limiting the herd of available draft models and often necessitating the training of a new model from scratch. Inspired by Dynamic Time Warping (DTW), a classic algorithm for aligning time series, we propose the algorithm TokenTiming for universal speculative decoding. It operates by re-encoding the draft token sequence to get a new target token sequence, and then uses DTW to build a mapping to transfer the probability distributions for speculative sampling. Benefiting from this, our method accommodates mismatched vocabularies and works with any off-the-shelf models without retraining and modification. We conduct comprehensive experiments on various tasks, demonstrating 1.57x speedup. This work enables a universal approach for draft model selection, making SD a more versatile and practical tool for LLM acceleration.

TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理