From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

📄 arXiv: 2604.15244v1 📥 PDF

作者: Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal

分类: cs.CL

发布日期: 2026-04-16


💡 一句话要点

提出SpecGuard,通过内部信号进行验证感知推测解码,提升多步推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 模型验证 内部信号 多步推理 注意力机制 推理加速

📋 核心要点

  1. 现有推测解码方法易传播错误步骤,且依赖外部奖励模型,引入额外开销并限制泛化性。
  2. SpecGuard利用模型内部信号进行步骤级验证,选择最一致的步骤,并自适应分配计算资源。
  3. 实验表明,SpecGuard在推理基准上显著提升准确率并降低延迟,优于现有推测解码方法。

📝 摘要(中文)

推测解码通过轻量级草稿模型生成候选输出,再由强大的目标模型验证,从而加速大型语言模型的推理。然而,其token中心化的特性会导致错误步骤的传播。现有方法通常使用外部奖励模型来缓解这个问题,但这会增加额外的延迟和计算开销,并限制了泛化能力。本文提出了SpecGuard,一个验证感知的推测解码框架,仅使用模型内部信号执行步骤级别的验证。在每个步骤中,SpecGuard采样多个草稿候选,并选择最一致的步骤,然后使用两个轻量级的模型内部信号的集成来验证:(i) 基于注意力的 grounding score,用于衡量对输入和先前接受步骤的归属;(ii) 基于log-probability的score,用于捕获token级别的置信度。这些信号共同决定是否接受一个步骤或使用目标模型重新计算,从而选择性地分配计算资源。在多个推理基准上的实验表明,SpecGuard提高了3.6%的准确率,同时降低了约11%的延迟,优于SD和奖励引导的SD。

🔬 方法详解

问题定义:现有推测解码方法在加速LLM推理时,由于以token为中心,容易导致错误逐步累积,降低推理的准确性。使用外部奖励模型进行纠正虽然有效,但会引入额外的计算开销和延迟,并且奖励模型的训练和泛化能力也是一个挑战。因此,如何在不引入额外外部模型的情况下,更有效地进行推测解码,提高推理精度和效率是一个关键问题。

核心思路:SpecGuard的核心思路是利用模型自身的内部信号,对推测解码的每一步进行验证,从而避免错误传播。通过综合考虑模型对输入和历史步骤的关注程度(grounding score)以及生成token的置信度(log-probability score),来判断当前步骤的合理性。如果验证结果表明当前步骤不可靠,则使用目标模型重新计算,从而实现计算资源的自适应分配。

技术框架:SpecGuard的整体框架如下:1) 草稿模型生成多个候选步骤;2) 计算每个候选步骤的grounding score和log-probability score;3) 综合两个score,选择最一致的步骤;4) 使用目标模型验证选定的步骤,如果验证通过则接受,否则使用目标模型重新计算。这个过程迭代进行,直到达到预定的推理长度。

关键创新:SpecGuard的关键创新在于使用模型内部信号进行步骤级别的验证,避免了对外部奖励模型的依赖。Grounding score和log-probability score的结合,能够更准确地评估步骤的合理性。此外,SpecGuard通过选择性地使用目标模型进行重新计算,实现了计算资源的自适应分配,提高了推理效率。

关键设计:Grounding score基于注意力机制,衡量当前步骤对输入和历史步骤的关注程度。Log-probability score直接使用模型输出的token概率。这两个score通过加权平均的方式进行融合,权重可以根据具体任务进行调整。目标模型的验证过程可以使用多种方法,例如计算交叉熵损失或使用更复杂的验证模型。

🖼️ 关键图片

fig_0

📊 实验亮点

SpecGuard在多个推理基准测试中表现出色,相较于传统的推测解码方法,准确率平均提升了3.6%,延迟降低了约11%。同时,SpecGuard也优于使用外部奖励模型引导的推测解码方法,证明了其在推理精度和效率方面的优势。

🎯 应用场景

SpecGuard可应用于各种需要高效和准确推理的大型语言模型应用场景,例如对话系统、文本摘要、机器翻译和代码生成等。通过提高推理效率和准确性,SpecGuard能够降低计算成本,提升用户体验,并促进LLM在资源受限环境中的部署。

📄 摘要(原文)

Speculative decoding (SD) accelerates large language model inference by allowing a lightweight draft model to propose outputs that a stronger target model verifies. However, its token-centric nature allows erroneous steps to propagate. Prior approaches mitigate this using external reward models, but incur additional latency, computational overhead, and limit generalizability. We propose SpecGuard, a verification-aware speculative decoding framework that performs step-level verification using only model-internal signals. At each step, SpecGuard samples multiple draft candidates and selects the most consistent step, which is then validated using an ensemble of two lightweight model-internal signals: (i) an attention-based grounding score that measures attribution to the input and previously accepted steps, and (ii) a log-probability-based score that captures token-level confidence. These signals jointly determine whether a step is accepted or recomputed using the target, allocating compute selectively. Experiments across a range of reasoning benchmarks show that SpecGuard improves accuracy by 3.6% while reducing latency by ~11%, outperforming both SD and reward-guided SD.