StarSD: One-for-Many Speculative Decoding

📄 arXiv: 2601.21622v1 📥 PDF

作者: Junhao He, Feiran You, Hongyang Du

分类: eess.SY

发布日期: 2026-01-29


💡 一句话要点

StarSD:一种用于多目标模型推测解码的通用框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 分布式推理 大型语言模型 星型拓扑 资源利用率

📋 核心要点

  1. 现有推测解码方法难以扩展到多加速器集群,无法充分利用分布式资源。
  2. StarSD采用星型拓扑,解耦草稿生成和验证,实现草稿计算的有效共享。
  3. 实验表明,StarSD简化部署,支持异构资源分配,并保持输出质量。

📝 摘要(中文)

推测解码通过分离token提议和验证来加速自回归生成,但现有方法大多为单节点执行设计,难以扩展到用于服务现代大型语言模型(LLM)的多加速器集群。我们提出了StarSD,一种“一对多”的推测解码框架,它使用单个草稿模型,通过星型拓扑为分布式节点上的多个目标模型提供服务。StarSD解耦了草稿生成和验证,实现了草稿计算的有效共享,并防止分布式加速器在突发工作负载下保持空闲。我们提供了一个系统级分析,描述了单个草稿模型何时以及为何能够被多个验证器充分利用,从而产生可预测的延迟和利用率增益。在真实分布式推理环境中的大量实验表明,StarSD简化了部署,支持跨异构加速器的灵活资源分配,同时保持了输出质量。这些结果表明,StarSD是一个实用且可扩展的框架,可将推测解码引入现代云和边缘推理基础设施。

🔬 方法详解

问题定义:现有推测解码方法主要针对单节点设计,无法有效利用现代LLM服务所需的多加速器集群。在分布式环境中,加速器容易在突发工作负载下空闲,导致资源浪费和延迟增加。因此,如何设计一种可扩展的推测解码框架,充分利用分布式计算资源,是本文要解决的核心问题。

核心思路:StarSD的核心思路是采用“一对多”的星型拓扑结构,使用单个草稿模型为多个目标模型(验证器)提供服务。通过解耦草稿生成和验证过程,StarSD可以有效地共享草稿计算,避免每个验证器都重复进行草稿生成,从而提高整体的资源利用率和推理效率。

技术框架:StarSD框架包含一个草稿模型(运行在中心节点)和多个目标模型(运行在不同的分布式节点)。草稿模型负责快速生成多个候选token,然后将这些候选token发送给各个目标模型进行验证。目标模型并行地验证这些token,并返回验证结果。如果验证成功,则接受该token;否则,使用目标模型自身进行自回归生成。整个过程通过星型拓扑进行通信,中心节点负责草稿生成和分发,边缘节点负责验证和自回归生成。

关键创新:StarSD的关键创新在于其“一对多”的星型拓扑结构和解耦的草稿生成/验证机制。与传统的单节点推测解码方法相比,StarSD能够充分利用分布式计算资源,提高整体的吞吐量和资源利用率。与多草稿模型的方法相比,StarSD避免了草稿模型之间的同步和协调问题,简化了部署和管理。

关键设计:StarSD的关键设计包括:1) 草稿模型的选择:选择一个较小的模型作为草稿模型,以保证草稿生成的效率。2) 候选token的数量:根据目标模型的计算能力和网络带宽,调整候选token的数量,以平衡草稿生成和验证的开销。3) 通信协议:设计高效的通信协议,以减少中心节点和边缘节点之间的通信延迟。4) 动态资源分配:根据目标模型的负载情况,动态调整分配给每个目标模型的计算资源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StarSD在分布式推理环境中能够显著提高吞吐量和资源利用率。例如,在多个目标模型的情况下,StarSD可以将整体吞吐量提高2-3倍,同时保持与目标模型相当的输出质量。此外,StarSD还能够灵活地适应不同的硬件配置和负载情况,展现了良好的可扩展性和鲁棒性。

🎯 应用场景

StarSD适用于需要高性能和可扩展性的LLM推理服务,例如云端AI服务、边缘计算设备等。它可以帮助企业更有效地利用分布式计算资源,降低推理成本,并提高用户体验。未来,StarSD可以扩展到支持更复杂的模型结构和异构计算环境,为各种AI应用提供更强大的推理能力。

📄 摘要(原文)

Speculative decoding accelerates autoregressive generation by separating token proposal from verification, but most existing approaches are designed for single-node execution and do not scale well to multi-accelerator clusters used for serving modern Large Language Models (LLMs). We present StarSD, a one-for-many speculative decoding framework that uses a single draft model to serve multiple target models across distributed nodes via a star topology. StarSD decouples drafting and verification, enabling effective sharing of draft computation, and preventing distributed accelerators from remaining idle under bursty workloads. We provide a system-level analysis that characterizes when and why a single draft model can remain fully utilized by multiple verifiers, yielding predictable latency and utilization gains. Extensive experiments in real-world distributed inference settings demonstrate that StarSD simplifies deployment and supports flexible resource allocation across heterogeneous accelerators, while maintaining output quality. These results indicate that StarSD is a practical and scalable framework for bringing speculative decoding to modern cloud and edge inference infrastructures.