Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference
作者: Xuwen Zhou, Fangxin Liu, Chao Wang, Xiao Zheng, Hao Zheng, Min He, Li Jiang, Haibing Guan
分类: cs.CL, cs.LG
发布日期: 2026-04-15
备注: ACL 2026 Main Conference
💡 一句话要点
提出校准推测解码CSD,通过频率引导候选选择加速LLM推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推测解码 大型语言模型 推理加速 在线校正 语义一致性
📋 核心要点
- 传统推测解码易因草稿模型词汇差异而频繁拒绝token,影响效率。
- CSD通过在线校正记忆和语义一致性门控,恢复被标准验证丢弃的有效token。
- 实验表明,CSD在多种LLM上实现了高达2.33倍的吞吐量加速,并保持模型精度。
📝 摘要(中文)
本文提出了一种名为校准推测解码(CSD)的免训练框架,旨在加速自回归生成过程。CSD通过允许草稿tokens绕过完全验证来提高效率,解决了传统框架中频繁出现错误拒绝的问题,尤其是在草稿模型产生语义正确但词汇不同的输出时。CSD的核心是“频率引导的候选选择和概率保护的接受”原则,它包含两个轻量级模块:在线校正记忆,用于聚合历史拒绝信息,并将重复出现的分歧模式作为救援候选;语义一致性门控,使用概率比率而非精确的token匹配来验证候选的可接受性。在各种大型语言模型上的评估表明,CSD优于现有方法,实现了高达2.33倍的吞吐量加速。CSD在所有任务中保持了模型精度,并进一步提高了在复杂推理数据集上的性能。这些结果表明,CSD是一种高效、轻量级的解决方案,适用于实际的LLM部署。
🔬 方法详解
问题定义:推测解码旨在加速自回归语言模型的推理过程,但现有方法在草稿模型生成语义正确但词汇不同的token时,容易出现大量的错误拒绝,导致效率提升受限。现有方法过于依赖精确的token匹配进行验证,缺乏对语义相似性的考虑。
核心思路:CSD的核心在于利用历史拒绝信息,并结合概率比率进行更宽松的验证。通过“频率引导的候选选择”和“概率保护的接受”原则,CSD旨在恢复那些被标准验证错误拒绝的有效token,从而提高整体的推理速度。
技术框架:CSD框架包含两个主要模块:1) 在线校正记忆(Online Correction Memory):用于存储和聚合历史拒绝的token信息,并根据频率选择候选token。2) 语义一致性门控(Semantic Consistency Gating):使用概率比率来评估候选token的语义一致性,而非进行精确的token匹配。整体流程是,首先使用草稿模型生成多个候选token,然后使用在线校正记忆选择潜在的校正候选,最后使用语义一致性门控验证候选token的有效性。
关键创新:CSD的关键创新在于其免训练的设计,以及利用历史拒绝信息进行候选选择和概率比率进行语义一致性验证。与需要额外训练的推测解码方法不同,CSD可以直接应用于现有的预训练语言模型,无需额外的训练成本。此外,CSD通过考虑语义相似性,避免了因词汇差异而导致的错误拒绝。
关键设计:在线校正记忆维护一个历史拒绝token的频率统计表。语义一致性门控使用目标模型和草稿模型的概率比率来判断候选token的语义一致性。具体而言,如果目标模型预测候选token的概率与草稿模型预测该token的概率之比高于某个阈值,则认为该候选token是可接受的。阈值的选择需要根据具体的模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
CSD在多种大型语言模型上进行了评估,实验结果表明,CSD优于现有的推测解码方法,实现了高达2.33倍的吞吐量加速。同时,CSD在所有任务中保持了模型精度,并在复杂推理数据集上进一步提高了性能。例如,在某些推理任务上,CSD不仅提高了速度,还略微提高了准确率。
🎯 应用场景
CSD可广泛应用于各种需要加速LLM推理的场景,例如在线对话系统、文本生成、机器翻译等。其免训练的特性使其易于部署到现有的LLM系统中,无需额外的训练成本。通过提高推理效率,CSD可以降低LLM的部署成本,并提高用户体验。未来,CSD可以进一步扩展到其他自回归生成任务,例如图像生成和音频生成。
📄 摘要(原文)
Speculative decoding accelerates autoregressive generation by letting draft tokens bypass full verification, but conventional frameworks suffer from frequent false rejections, particularly when draft models produce semantically correct but lexically divergent outputs. In this paper, we present Calibrated Speculative Decoding (CSD), a training-free framework that recovers valid tokens discarded by standard verification. Guided by the principle of "Frequency-Guided Candidate Selection and Probability-Guarded Acceptance," CSD incorporates two lightweight modules: Online Correction Memory, which aggregates historical rejections to propose recurring divergence patterns as rescue candidates, and Semantic Consistency Gating, which verifies candidate admissibility using probability ratios instead of exact token matching. Our evaluation across diverse large language models demonstrates that CSD outperforms existing methods, achieving a peak throughput speedup of 2.33x. CSD preserves model accuracy across all tasks while further boosting performance on complex reasoning datasets. These results establish CSD as a highly effective, lightweight solution for practical LLM deployments.