Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match
作者: Jinze Li, Yixing Xu, Guanchen Li, Shuo Yang, Jinfeng Xu, Xuanwu Yin, Dong Li, Edith C. H. Ngai, Emad Barsoum
分类: cs.CL
发布日期: 2025-11-28 (更新: 2025-12-05)
备注: Under review
💡 一句话要点
提出免训练的松散推测解码FLy,提升LLM推理速度并保持语义正确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推测解码 大语言模型 推理加速 免训练 语义验证
📋 核心要点
- 现有推测解码方法依赖精确匹配验证,忽略了语义上正确的变体,且基于训练的方法在分布外任务上表现不佳。
- FLy通过目标模型的自我纠正能力,判断草稿与目标不匹配时,是否仍保持语义有效,从而放宽验证标准。
- 实验表明,FLy在保持高准确率的同时,显著提升了Llama模型的推理速度,且在领域外数据集上优于现有方法。
📝 摘要(中文)
大型语言模型(LLMs)在各种任务中表现出色,但由于其自回归生成方式,推理延迟较高。推测解码(SPD)通过并行验证来自较小草稿模型的候选token来缓解这个问题,但其严格的精确匹配验证会丢弃许多语义上有效的延续。此外,现有的基于训练的SPD方法通常在分布外(OOD)任务上性能下降。为此,我们提出了一种免训练的松散推测解码(FLy),这是一种新颖的方法,通过利用目标模型的自我纠正行为来判断草稿-目标不匹配是否在语义上仍然有效,从而放宽了严格的验证标准。FLy引入了一种双层机制:一个熵级别门,用于识别当前token是否允许多个合理的替代方案或几乎是确定性的;以及一个token级别的延迟窗口,用于区分真正的错误和措辞不同但语义正确的变体。为了进一步减少延迟,我们设计了一种多级加速策略,不仅加速了目标模型,还加速了drafter本身。由于其免训练设计,FLy可以与任意草稿-目标对无缝组合,并在模型和领域之间推广,而无需重新调整超参数。实验表明,FLy保留了目标模型99%以上的准确率,同时在Llama-3.1-70B-Instruct上实现了平均2.81倍的加速,在405B变体上实现了5.07倍的加速。值得注意的是,在领域外数据集上,我们的方法仍然非常有效,并且比基于训练的方法EAGLE-3高出1.62倍。
🔬 方法详解
问题定义:现有推测解码方法(如Speculative Decoding)采用严格的精确匹配验证策略,导致许多语义上等价但token不完全相同的草稿被拒绝,降低了加速效果。此外,依赖训练的推测解码方法在面对分布外(OOD)数据时,性能会显著下降,泛化能力不足。
核心思路:FLy的核心思想是放宽精确匹配的验证标准,允许接受语义上正确的草稿,即使其token与目标模型预测的token不完全一致。该方法利用目标模型自身的纠错能力,通过判断目标模型后续的预测是否能“纠正”草稿中的差异,来确定草稿是否在语义上有效。
技术框架:FLy包含以下主要模块:1) 熵级别门(Entropy-level Gate):根据当前token的预测概率分布的熵值,判断该token是否具有多个合理的替代选项。高熵值表示存在多种可能性,可以放宽匹配要求。2) token级别延迟窗口(Token-level Deferred Window):对于草稿和目标模型预测不一致的token,延迟验证,观察目标模型在后续token生成中是否会“纠正”该差异。如果在一定窗口期内,目标模型倾向于生成与草稿语义一致的内容,则认为该草稿有效。3) 多级加速策略:不仅加速目标模型的推理,还优化草稿模型的推理过程,进一步降低整体延迟。
关键创新:FLy的关键创新在于其免训练的设计和松散的验证标准。免训练设计使其能够与任意草稿-目标模型组合,无需针对特定模型或数据集进行微调,具有良好的泛化能力。松散的验证标准允许接受语义上正确的草稿,提高了推测解码的效率。
关键设计:熵级别门使用预测概率分布的熵值作为阈值,用于判断是否放宽匹配要求。延迟窗口的大小是一个关键参数,需要根据目标模型的纠错能力进行调整。多级加速策略包括模型并行、量化等技术,用于优化目标模型和草稿模型的推理速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FLy在Llama-3.1-70B-Instruct上实现了平均2.81倍的加速,在405B变体上实现了5.07倍的加速,同时保持了99%以上的准确率。在领域外数据集上,FLy的性能优于基于训练的方法EAGLE-3,提升了1.62倍,验证了其良好的泛化能力。
🎯 应用场景
FLy可广泛应用于各种需要加速大型语言模型推理的场景,例如智能客服、机器翻译、文本生成、代码生成等。其免训练特性使其易于部署和集成到现有系统中,无需额外的训练成本。该方法尤其适用于资源受限的环境,可以显著降低推理延迟,提高用户体验。
📄 摘要(原文)
Large language models (LLMs) achieve strong performance across diverse tasks but suffer from high inference latency due to their autoregressive generation. Speculative Decoding (SPD) mitigates this issue by verifying candidate tokens in parallel from a smaller draft model, yet its strict exact-match verification discards many semantically valid continuations. Moreover, existing training-based SPD methods often suffer from performance degradation on out-of-distribution (OOD) tasks. To this end, we propose Training-Free Loosely Speculative Decoding (FLy), a novel method that loosens the rigid verification criterion by leveraging the target model's self-corrective behavior to judge whether a draft-target mismatch remains semantically valid. FLy introduces a two-tier mechanism: an entropy-level gate that identifies whether the current token allows multiple plausible alternatives or is nearly deterministic, and a token-level deferred window that distinguishes genuine errors from differently worded yet semantically correct variants. To further reduce latency, we design a multi-level acceleration strategy that accelerates not only the target model but also the drafter itself. Owing to its training-free design, FLy composes seamlessly with arbitrary draft-target pairs and generalizes across models and domains without hyperparameter re-tuning. Experiments show that FLy preserves more than 99% of the target model's accuracy while achieving an average 2.81x speedup on Llama-3.1-70B-Instruct and 5.07x speedup on the 405B variant. Notably, on out-of-domain datasets, our method remains highly effective and outperforms the training-based method EAGLE-3 by 1.62x.