Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models

📄 arXiv: 2512.13194v3 📥 PDF

作者: Chendong Sun, Ali Mao, Lei Xu, mingmin Chen

分类: cs.CL, cs.AI

发布日期: 2025-12-15 (更新: 2025-12-17)


💡 一句话要点

提出高效自适应拒绝采样(EARS)加速大语言模型推理解码。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大语言模型 自适应拒绝采样 模型加速 不确定性估计

📋 核心要点

  1. 推测解码中固定阈值的拒绝采样在高不确定性场景下易导致token的“随机拒绝”,降低效率。
  2. EARS通过目标模型预测不确定性动态调整接受阈值,在模型不确定时放宽标准,减少随机拒绝。
  3. 实验表明,EARS显著提升了推测解码的吞吐量,且对模型准确率的影响可忽略不计。

📝 摘要(中文)

推测解码是一种通过使用快速草稿模型生成候选token序列,并使用大型目标模型并行验证它们来加速大型语言模型(LLM)自回归推理的突出技术。然而,其核心组件——拒绝采样机制——依赖于固定的、与上下文无关的随机阈值。这导致了高不确定性生成场景中显著的“随机拒绝”问题,其中合理的候选token由于随机机会而被频繁拒绝,从而降低了推理效率。本文介绍了一种高效自适应拒绝采样(EARS)方法,该方法通过结合目标模型自身的预测不确定性(以1 - max(P_target)衡量)来动态调整接受阈值。通过引入与此不确定性成比例的容差项,EARS在模型不确定时智能地放宽接受标准,从而有效减少随机拒绝,同时在模型有信心时保持严格的标准。在创造性写作和开放域问答任务上的实验表明,EARS显著提高了推测解码的效率,在GSM8K基准测试中实现了高达18.12%的吞吐量提升,而准确率仅下降了0.84%。该方法不需要修改模型架构,并且可以无缝集成到现有的推测解码框架中。

🔬 方法详解

问题定义:推测解码旨在加速LLM的自回归推理,但其拒绝采样机制依赖于固定的随机阈值,导致在高不确定性场景下,许多合理的候选token被随机拒绝,降低了推理效率。现有方法未能充分利用目标模型自身的信息来指导拒绝采样过程。

核心思路:EARS的核心思想是利用目标模型预测的token概率分布的不确定性,动态调整拒绝采样的接受阈值。当目标模型对预测结果不确定时(即最大概率值较低),放宽接受标准,允许更多候选token通过;当模型对预测结果有信心时,保持严格的标准。这样可以减少不必要的随机拒绝,提高推理效率。

技术框架:EARS可以无缝集成到现有的推测解码框架中。其主要流程如下:1) 使用草稿模型生成候选token序列;2) 使用目标模型对候选token序列进行验证;3) 计算目标模型预测概率分布的不确定性,即1 - max(P_target);4) 根据不确定性动态调整接受阈值;5) 根据调整后的阈值进行拒绝采样,决定接受或拒绝候选token。

关键创新:EARS的关键创新在于引入了自适应的拒绝采样机制,其接受阈值不再是固定的,而是根据目标模型自身的预测不确定性动态调整。这与传统的推测解码方法中使用的固定阈值拒绝采样形成了鲜明对比。

关键设计:EARS的关键设计在于容差项的设计,该容差项与目标模型预测不确定性成比例。具体来说,接受概率的计算公式为:min(1, p_draft / p_target + tolerance),其中tolerance = α * (1 - max(P_target)),α是一个超参数,用于控制容差项的影响程度。通过调整α的值,可以平衡推理效率和准确率之间的权衡。

📊 实验亮点

实验结果表明,EARS在创造性写作和开放域问答任务上显著提高了推测解码的效率。在GSM8K基准测试中,EARS实现了高达18.12%的吞吐量提升,而准确率仅下降了0.84%。这些结果表明,EARS能够在几乎不损失准确率的情况下显著加速LLM的推理。

🎯 应用场景

EARS可应用于各种需要加速LLM推理的场景,例如在线对话系统、文本生成、机器翻译等。通过提高推理效率,EARS可以降低计算成本,并提升用户体验。该方法尤其适用于对延迟敏感的应用,例如实时对话和交互式文本编辑。

📄 摘要(原文)

Speculative Decoding is a prominent technique for accelerating the autoregressive inference of large language models (LLMs) by employing a fast draft model to propose candidate token sequences and a large target model to verify them in parallel. However, its core component -- the rejection sampling mechanism -- relies on a fixed, context-independent random threshold. This leads to a significant "random rejection" problem in high-uncertainty generation scenarios, where plausible candidate tokens are frequently rejected due to random chance, undermining inference efficiency. This paper introduces Efficient Adaptive Rejection Sampling (EARS), a novel method that dynamically adjusts the acceptance threshold by incorporating the target model's own predictive uncertainty, measured as 1 - max(P_target). By introducing a tolerance term proportional to this uncertainty, EARS intelligently relaxes the acceptance criterion when the model is uncertain, effectively reducing random rejections while maintaining strict standards when the model is confident. Experiments on creative writing and open-domain QA tasks demonstrate that EARS significantly enhances the efficiency of speculative decoding, achieving up to an 18.12% increase in throughput with a negligible 0.84% accuracy drop on the GSM8K benchmark. The method requires no modifications to model architectures and can be seamlessly integrated into existing speculative decoding frameworks.