TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification

作者: Haoyun Jiang, Junqi He, Feng Hong, Xinlong Yang, Jianwei Zhang, Zheng Li, Zhengyang Zhuge, Zhiyong Chen, Bo Han, Junyang Lin, Jiangchao Yao

分类: cs.LG

发布日期: 2026-01-30

💡 一句话要点

TriSpec：通过轻量级代理验证实现三元推测解码，提升LLM推理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 推理加速 代理模型 三元推测 轻量级模型 模型优化

📋 核心要点

现有推测解码方法在草稿生成方面已接近瓶颈，验证成本成为提升效率的关键挑战。
TriSpec引入轻量级代理模型，快速验证易验证的草稿序列，减少目标模型的调用次数。
实验表明，TriSpec在多种LLM上实现了高达35%的加速，并显著减少了目标模型的计算量。

📝 摘要（中文）

大型语言模型（LLM）的推理效率受到其串行自回归生成方式的根本限制，尤其是在推理成为关键能力且响应序列变得更长时。推测解码（SD）提供了一个强大的解决方案，通过其轻量级的草稿生成和并行验证机制，显著提高了速度。虽然现有的工作几乎已经饱和了草稿有效性和效率的改进，但本文从一个新的但至关重要的角度推进了SD：验证成本。我们提出了TriSpec，一种新颖的三元SD框架，其核心是引入一个轻量级代理，通过批准容易验证的草稿序列来显著降低计算成本，并且仅在遇到不确定的token时才使用完整的目标模型。TriSpec可以与最先进的SD方法（如EAGLE-3）集成，以进一步降低验证成本，从而实现更大的加速。在Qwen3和DeepSeek-R1-Distill-Qwen/LLaMA系列上的大量实验表明，TriSpec比标准SD实现了高达35%的加速，同时减少了高达50%的目标模型调用，同时保持了相当的准确性。

🔬 方法详解

问题定义：现有推测解码方法主要关注草稿模型的优化，而忽略了验证阶段的计算开销。尤其是在长序列生成中，目标模型的验证成本会显著影响整体推理效率。因此，如何降低验证成本，成为进一步提升推测解码效率的关键问题。

核心思路：TriSpec的核心思路是引入一个轻量级的代理模型，用于快速判断草稿序列是否可以被接受。对于容易验证的序列，代理模型直接批准，避免使用计算量大的目标模型进行验证。只有当代理模型无法确定时，才调用目标模型进行验证。这样可以显著减少目标模型的调用次数，从而降低整体计算成本。

技术框架：TriSpec包含三个主要模块：草稿模型（Draft Model）、代理模型（Proxy Model）和目标模型（Target Model）。首先，草稿模型生成草稿序列。然后，代理模型对草稿序列进行评估，判断其是否可以被接受。如果代理模型认为草稿序列可以接受，则直接将其添加到最终序列中。否则，使用目标模型对草稿序列进行验证，并根据目标模型的输出进行修正。

关键创新：TriSpec的关键创新在于引入了轻量级代理模型，实现三元推测解码。与传统的二元推测解码不同，TriSpec不仅区分了“接受”和“拒绝”两种状态，还引入了“不确定”状态。对于“不确定”状态的草稿序列，才需要使用目标模型进行验证。这种三元决策机制可以更有效地利用计算资源，降低验证成本。

关键设计：代理模型的设计是TriSpec的关键。论文中，代理模型通常是一个规模较小的神经网络，例如蒸馏后的目标模型或一个独立的轻量级模型。代理模型的训练目标是尽可能准确地预测目标模型的输出，同时保持较低的计算复杂度。此外，还需要设计合适的阈值来判断代理模型的输出是否足够可信，从而决定是否需要调用目标模型进行验证。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TriSpec在Qwen3和DeepSeek-R1-Distill-Qwen/LLaMA系列模型上实现了显著的加速。与标准推测解码相比，TriSpec实现了高达35%的加速，同时减少了高达50%的目标模型调用。在保持相当准确性的前提下，TriSpec有效地降低了验证成本，提升了整体推理效率。

🎯 应用场景

TriSpec可广泛应用于需要快速推理的大型语言模型应用场景，例如在线对话系统、机器翻译、文本摘要等。通过降低推理延迟，可以提升用户体验，并降低部署成本。此外，TriSpec还可以与其他推测解码优化技术相结合，进一步提升推理效率。

📄 摘要（原文）

Inference efficiency in Large Language Models (LLMs) is fundamentally limited by their serial, autoregressive generation, especially as reasoning becomes a key capability and response sequences grow longer. Speculative decoding (SD) offers a powerful solution, providing significant speed-ups through its lightweight drafting and parallel verification mechanism. While existing work has nearly saturated improvements in draft effectiveness and efficiency, this paper advances SD from a new yet critical perspective: the verification cost. We propose TriSpec, a novel ternary SD framework that, at its core, introduces a lightweight proxy to significantly reduce computational cost by approving easily verifiable draft sequences and engaging the full target model only when encountering uncertain tokens. TriSpec can be integrated with state-of-the-art SD methods like EAGLE-3 to further reduce verification costs, achieving greater acceleration. Extensive experiments on the Qwen3 and DeepSeek-R1-Distill-Qwen/LLaMA families show that TriSpec achieves up to 35\% speedup over standard SD, with up to 50\% fewer target model invocations while maintaining comparable accuracy.

TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理