StarSD: One-for-Many Speculative Decoding

作者: Junhao He, Feiran You, Hongyang Du

分类: eess.SY

发布日期: 2026-01-29

💡 一句话要点

StarSD：一种用于多目标模型推测解码的通用框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 分布式推理 大型语言模型 星型拓扑 资源利用率

📋 核心要点

现有推测解码方法难以扩展到多加速器集群，无法充分利用分布式资源。
StarSD采用星型拓扑，解耦草稿生成和验证，实现草稿计算的有效共享。
实验表明，StarSD简化部署，支持异构资源分配，并保持输出质量。

📝 摘要（中文）

推测解码通过分离token提议和验证来加速自回归生成，但现有方法大多为单节点执行设计，难以扩展到用于服务现代大型语言模型（LLM）的多加速器集群。我们提出了StarSD，一种“一对多”的推测解码框架，它使用单个草稿模型，通过星型拓扑为分布式节点上的多个目标模型提供服务。StarSD解耦了草稿生成和验证，实现了草稿计算的有效共享，并防止分布式加速器在突发工作负载下保持空闲。我们提供了一个系统级分析，描述了单个草稿模型何时以及为何能够被多个验证器充分利用，从而产生可预测的延迟和利用率增益。在真实分布式推理环境中的大量实验表明，StarSD简化了部署，支持跨异构加速器的灵活资源分配，同时保持了输出质量。这些结果表明，StarSD是一个实用且可扩展的框架，可将推测解码引入现代云和边缘推理基础设施。

🔬 方法详解

问题定义：现有推测解码方法主要针对单节点设计，无法有效利用现代LLM服务所需的多加速器集群。在分布式环境中，加速器容易在突发工作负载下空闲，导致资源浪费和延迟增加。因此，如何设计一种可扩展的推测解码框架，充分利用分布式计算资源，是本文要解决的核心问题。

核心思路：StarSD的核心思路是采用“一对多”的星型拓扑结构，使用单个草稿模型为多个目标模型（验证器）提供服务。通过解耦草稿生成和验证过程，StarSD可以有效地共享草稿计算，避免每个验证器都重复进行草稿生成，从而提高整体的资源利用率和推理效率。

技术框架：StarSD框架包含一个草稿模型（运行在中心节点）和多个目标模型（运行在不同的分布式节点）。草稿模型负责快速生成多个候选token，然后将这些候选token发送给各个目标模型进行验证。目标模型并行地验证这些token，并返回验证结果。如果验证成功，则接受该token；否则，使用目标模型自身进行自回归生成。整个过程通过星型拓扑进行通信，中心节点负责草稿生成和分发，边缘节点负责验证和自回归生成。

关键创新：StarSD的关键创新在于其“一对多”的星型拓扑结构和解耦的草稿生成/验证机制。与传统的单节点推测解码方法相比，StarSD能够充分利用分布式计算资源，提高整体的吞吐量和资源利用率。与多草稿模型的方法相比，StarSD避免了草稿模型之间的同步和协调问题，简化了部署和管理。

关键设计：StarSD的关键设计包括：1) 草稿模型的选择：选择一个较小的模型作为草稿模型，以保证草稿生成的效率。2) 候选token的数量：根据目标模型的计算能力和网络带宽，调整候选token的数量，以平衡草稿生成和验证的开销。3) 通信协议：设计高效的通信协议，以减少中心节点和边缘节点之间的通信延迟。4) 动态资源分配：根据目标模型的负载情况，动态调整分配给每个目标模型的计算资源。

🖼️ 关键图片

📊 实验亮点

实验结果表明，StarSD在分布式推理环境中能够显著提高吞吐量和资源利用率。例如，在多个目标模型的情况下，StarSD可以将整体吞吐量提高2-3倍，同时保持与目标模型相当的输出质量。此外，StarSD还能够灵活地适应不同的硬件配置和负载情况，展现了良好的可扩展性和鲁棒性。

🎯 应用场景

StarSD适用于需要高性能和可扩展性的LLM推理服务，例如云端AI服务、边缘计算设备等。它可以帮助企业更有效地利用分布式计算资源，降低推理成本，并提高用户体验。未来，StarSD可以扩展到支持更复杂的模型结构和异构计算环境，为各种AI应用提供更强大的推理能力。

📄 摘要（原文）

Speculative decoding accelerates autoregressive generation by separating token proposal from verification, but most existing approaches are designed for single-node execution and do not scale well to multi-accelerator clusters used for serving modern Large Language Models (LLMs). We present StarSD, a one-for-many speculative decoding framework that uses a single draft model to serve multiple target models across distributed nodes via a star topology. StarSD decouples drafting and verification, enabling effective sharing of draft computation, and preventing distributed accelerators from remaining idle under bursty workloads. We provide a system-level analysis that characterizes when and why a single draft model can remain fully utilized by multiple verifiers, yielding predictable latency and utilization gains. Extensive experiments in real-world distributed inference settings demonstrate that StarSD simplifies deployment and supports flexible resource allocation across heterogeneous accelerators, while maintaining output quality. These results indicate that StarSD is a practical and scalable framework for bringing speculative decoding to modern cloud and edge inference infrastructures.

StarSD: One-for-Many Speculative Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理