TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification

📄 arXiv: 2601.23180v1 📥 PDF

作者: Haoyun Jiang, Junqi He, Feng Hong, Xinlong Yang, Jianwei Zhang, Zheng Li, Zhengyang Zhuge, Zhiyong Chen, Bo Han, Junyang Lin, Jiangchao Yao

分类: cs.LG

发布日期: 2026-01-30


💡 一句话要点

TriSpec:通过轻量级代理验证实现三元推测解码,提升LLM推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 推理加速 代理模型 三元推测 轻量级模型 模型优化

📋 核心要点

  1. 现有推测解码方法在草稿生成方面已接近瓶颈,验证成本成为提升效率的关键挑战。
  2. TriSpec引入轻量级代理模型,快速验证易验证的草稿序列,减少目标模型的调用次数。
  3. 实验表明,TriSpec在多种LLM上实现了高达35%的加速,并显著减少了目标模型的计算量。

📝 摘要(中文)

大型语言模型(LLM)的推理效率受到其串行自回归生成方式的根本限制,尤其是在推理成为关键能力且响应序列变得更长时。推测解码(SD)提供了一个强大的解决方案,通过其轻量级的草稿生成和并行验证机制,显著提高了速度。虽然现有的工作几乎已经饱和了草稿有效性和效率的改进,但本文从一个新的但至关重要的角度推进了SD:验证成本。我们提出了TriSpec,一种新颖的三元SD框架,其核心是引入一个轻量级代理,通过批准容易验证的草稿序列来显著降低计算成本,并且仅在遇到不确定的token时才使用完整的目标模型。TriSpec可以与最先进的SD方法(如EAGLE-3)集成,以进一步降低验证成本,从而实现更大的加速。在Qwen3和DeepSeek-R1-Distill-Qwen/LLaMA系列上的大量实验表明,TriSpec比标准SD实现了高达35%的加速,同时减少了高达50%的目标模型调用,同时保持了相当的准确性。

🔬 方法详解

问题定义:现有推测解码方法主要关注草稿模型的优化,而忽略了验证阶段的计算开销。尤其是在长序列生成中,目标模型的验证成本会显著影响整体推理效率。因此,如何降低验证成本,成为进一步提升推测解码效率的关键问题。

核心思路:TriSpec的核心思路是引入一个轻量级的代理模型,用于快速判断草稿序列是否可以被接受。对于容易验证的序列,代理模型直接批准,避免使用计算量大的目标模型进行验证。只有当代理模型无法确定时,才调用目标模型进行验证。这样可以显著减少目标模型的调用次数,从而降低整体计算成本。

技术框架:TriSpec包含三个主要模块:草稿模型(Draft Model)、代理模型(Proxy Model)和目标模型(Target Model)。首先,草稿模型生成草稿序列。然后,代理模型对草稿序列进行评估,判断其是否可以被接受。如果代理模型认为草稿序列可以接受,则直接将其添加到最终序列中。否则,使用目标模型对草稿序列进行验证,并根据目标模型的输出进行修正。

关键创新:TriSpec的关键创新在于引入了轻量级代理模型,实现三元推测解码。与传统的二元推测解码不同,TriSpec不仅区分了“接受”和“拒绝”两种状态,还引入了“不确定”状态。对于“不确定”状态的草稿序列,才需要使用目标模型进行验证。这种三元决策机制可以更有效地利用计算资源,降低验证成本。

关键设计:代理模型的设计是TriSpec的关键。论文中,代理模型通常是一个规模较小的神经网络,例如蒸馏后的目标模型或一个独立的轻量级模型。代理模型的训练目标是尽可能准确地预测目标模型的输出,同时保持较低的计算复杂度。此外,还需要设计合适的阈值来判断代理模型的输出是否足够可信,从而决定是否需要调用目标模型进行验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TriSpec在Qwen3和DeepSeek-R1-Distill-Qwen/LLaMA系列模型上实现了显著的加速。与标准推测解码相比,TriSpec实现了高达35%的加速,同时减少了高达50%的目标模型调用。在保持相当准确性的前提下,TriSpec有效地降低了验证成本,提升了整体推理效率。

🎯 应用场景

TriSpec可广泛应用于需要快速推理的大型语言模型应用场景,例如在线对话系统、机器翻译、文本摘要等。通过降低推理延迟,可以提升用户体验,并降低部署成本。此外,TriSpec还可以与其他推测解码优化技术相结合,进一步提升推理效率。

📄 摘要(原文)

Inference efficiency in Large Language Models (LLMs) is fundamentally limited by their serial, autoregressive generation, especially as reasoning becomes a key capability and response sequences grow longer. Speculative decoding (SD) offers a powerful solution, providing significant speed-ups through its lightweight drafting and parallel verification mechanism. While existing work has nearly saturated improvements in draft effectiveness and efficiency, this paper advances SD from a new yet critical perspective: the verification cost. We propose TriSpec, a novel ternary SD framework that, at its core, introduces a lightweight proxy to significantly reduce computational cost by approving easily verifiable draft sequences and engaging the full target model only when encountering uncertain tokens. TriSpec can be integrated with state-of-the-art SD methods like EAGLE-3 to further reduce verification costs, achieving greater acceleration. Extensive experiments on the Qwen3 and DeepSeek-R1-Distill-Qwen/LLaMA families show that TriSpec achieves up to 35\% speedup over standard SD, with up to 50\% fewer target model invocations while maintaining comparable accuracy.