From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

作者: Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal

分类: cs.CL

发布日期: 2026-04-16

💡 一句话要点

提出SpecGuard，通过内部信号进行验证感知推测解码，提升多步推理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 模型验证 内部信号 多步推理 注意力机制 推理加速

📋 核心要点

现有推测解码方法易传播错误步骤，且依赖外部奖励模型，引入额外开销并限制泛化性。
SpecGuard利用模型内部信号进行步骤级验证，选择最一致的步骤，并自适应分配计算资源。
实验表明，SpecGuard在推理基准上显著提升准确率并降低延迟，优于现有推测解码方法。

📝 摘要（中文）

推测解码通过轻量级草稿模型生成候选输出，再由强大的目标模型验证，从而加速大型语言模型的推理。然而，其token中心化的特性会导致错误步骤的传播。现有方法通常使用外部奖励模型来缓解这个问题，但这会增加额外的延迟和计算开销，并限制了泛化能力。本文提出了SpecGuard，一个验证感知的推测解码框架，仅使用模型内部信号执行步骤级别的验证。在每个步骤中，SpecGuard采样多个草稿候选，并选择最一致的步骤，然后使用两个轻量级的模型内部信号的集成来验证：(i) 基于注意力的 grounding score，用于衡量对输入和先前接受步骤的归属；(ii) 基于log-probability的score，用于捕获token级别的置信度。这些信号共同决定是否接受一个步骤或使用目标模型重新计算，从而选择性地分配计算资源。在多个推理基准上的实验表明，SpecGuard提高了3.6%的准确率，同时降低了约11%的延迟，优于SD和奖励引导的SD。

🔬 方法详解

问题定义：现有推测解码方法在加速LLM推理时，由于以token为中心，容易导致错误逐步累积，降低推理的准确性。使用外部奖励模型进行纠正虽然有效，但会引入额外的计算开销和延迟，并且奖励模型的训练和泛化能力也是一个挑战。因此，如何在不引入额外外部模型的情况下，更有效地进行推测解码，提高推理精度和效率是一个关键问题。

核心思路：SpecGuard的核心思路是利用模型自身的内部信号，对推测解码的每一步进行验证，从而避免错误传播。通过综合考虑模型对输入和历史步骤的关注程度（grounding score）以及生成token的置信度（log-probability score），来判断当前步骤的合理性。如果验证结果表明当前步骤不可靠，则使用目标模型重新计算，从而实现计算资源的自适应分配。

技术框架：SpecGuard的整体框架如下：1) 草稿模型生成多个候选步骤；2) 计算每个候选步骤的grounding score和log-probability score；3) 综合两个score，选择最一致的步骤；4) 使用目标模型验证选定的步骤，如果验证通过则接受，否则使用目标模型重新计算。这个过程迭代进行，直到达到预定的推理长度。

关键创新：SpecGuard的关键创新在于使用模型内部信号进行步骤级别的验证，避免了对外部奖励模型的依赖。Grounding score和log-probability score的结合，能够更准确地评估步骤的合理性。此外，SpecGuard通过选择性地使用目标模型进行重新计算，实现了计算资源的自适应分配，提高了推理效率。

关键设计：Grounding score基于注意力机制，衡量当前步骤对输入和历史步骤的关注程度。Log-probability score直接使用模型输出的token概率。这两个score通过加权平均的方式进行融合，权重可以根据具体任务进行调整。目标模型的验证过程可以使用多种方法，例如计算交叉熵损失或使用更复杂的验证模型。

🖼️ 关键图片

📊 实验亮点

SpecGuard在多个推理基准测试中表现出色，相较于传统的推测解码方法，准确率平均提升了3.6%，延迟降低了约11%。同时，SpecGuard也优于使用外部奖励模型引导的推测解码方法，证明了其在推理精度和效率方面的优势。

🎯 应用场景

SpecGuard可应用于各种需要高效和准确推理的大型语言模型应用场景，例如对话系统、文本摘要、机器翻译和代码生成等。通过提高推理效率和准确性，SpecGuard能够降低计算成本，提升用户体验，并促进LLM在资源受限环境中的部署。

📄 摘要（原文）

Speculative decoding (SD) accelerates large language model inference by allowing a lightweight draft model to propose outputs that a stronger target model verifies. However, its token-centric nature allows erroneous steps to propagate. Prior approaches mitigate this using external reward models, but incur additional latency, computational overhead, and limit generalizability. We propose SpecGuard, a verification-aware speculative decoding framework that performs step-level verification using only model-internal signals. At each step, SpecGuard samples multiple draft candidates and selects the most consistent step, which is then validated using an ensemble of two lightweight model-internal signals: (i) an attention-based grounding score that measures attribution to the input and previously accepted steps, and (ii) a log-probability-based score that captures token-level confidence. These signals jointly determine whether a step is accepted or recomputed using the target, allocating compute selectively. Experiments across a range of reasoning benchmarks show that SpecGuard improves accuracy by 3.6% while reducing latency by ~11%, outperforming both SD and reward-guided SD.

From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理