SpecForge: A Flexible and Efficient Open-Source Training Framework for Speculative Decoding

作者: Shenggui Li, Chao Wang, Yikai Zhu, Yubo Wang, Fan Yin, Shuai Shi, Yefei Chen, Xiaomin Dong, Qiaoling Chen, Jin Pan, Ji Li, Laixin Xie, Yineng Zhang, Lei Yu, Yonggang Wen, Ivor Tsang, Tianwei Zhang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-19

💡 一句话要点

SpecForge：用于推测解码的灵活高效开源训练框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 模型训练框架 开源软件 EAGLE-3 模型加速 推理优化

📋 核心要点

现有大型语言模型推理速度受限于自回归解码的固有串行性，推测解码旨在加速这一过程，但缺乏高质量的草稿模型。
SpecForge框架通过目标-草稿解耦、混合并行等技术，高效训练推测解码模型，并发布了SpecBundle草稿模型集合。
实验表明，SpecForge能显著加速EAGLE-3训练，并使SGLang推理速度提升高达4.48倍，为实际部署奠定基础。

📝 摘要（中文）

大型语言模型由于自回归解码的顺序性而导致推理延迟较高。推测解码通过使用轻量级的草稿模型来提出多个token进行批量验证，从而缓解了这一瓶颈。然而，由于缺乏高质量的草稿模型和可扩展的训练基础设施，其应用受到限制。我们介绍了SpecForge，一个面向生产环境的开源框架，用于训练完全支持EAGLE-3的推测解码模型。SpecForge集成了目标-草稿解耦、混合并行、优化的训练内核以及与生产级推理引擎的集成，从而使Qwen3-235B-A22B的EAGLE-3训练速度提高了9.9倍。此外，我们发布了SpecBundle，一套使用SpecForge训练的用于主流开源LLM的生产级EAGLE-3草稿模型。通过对推测解码训练配方的系统研究，SpecBundle解决了社区中高质量草稿的稀缺问题，并且我们的草稿模型在SGLang上实现了高达4.48倍的端到端推理加速，从而将SpecForge确立为实际推测解码部署的实用基础。

🔬 方法详解

问题定义：论文旨在解决推测解码中高质量草稿模型匮乏以及训练基础设施不足的问题。现有的推测解码方法受限于草稿模型的质量，而训练高质量草稿模型又面临着计算资源和训练效率的挑战。

核心思路：论文的核心思路是构建一个灵活高效的开源训练框架SpecForge，通过优化训练流程和基础设施，降低训练高质量草稿模型的门槛。同时，通过系统研究推测解码的训练配方，提供一套高质量的草稿模型SpecBundle，从而解决社区中草稿模型稀缺的问题。

技术框架：SpecForge框架包含以下几个主要模块：1) 目标-草稿解耦，允许独立训练目标模型和草稿模型；2) 混合并行，结合数据并行和模型并行，提高训练效率；3) 优化的训练内核，加速计算密集型操作；4) 与生产级推理引擎的集成，方便部署和验证。整体流程是从数据准备开始，经过目标模型和草稿模型的训练，最终部署到推理引擎中进行验证。

关键创新：论文的关键创新在于SpecForge框架的整体设计，它将目标-草稿解耦、混合并行、优化内核和推理引擎集成到一个统一的框架中，从而实现了高效的推测解码模型训练。此外，SpecBundle的发布也为社区提供了高质量的草稿模型资源。

关键设计：SpecForge框架的关键设计包括：1) 目标-草稿解耦的实现方式，如何保证目标模型和草稿模型的一致性；2) 混合并行的策略，如何平衡数据并行和模型并行之间的trade-off；3) 优化内核的具体实现，例如使用CUDA kernel加速矩阵乘法等操作；4) 损失函数的设计，如何引导草稿模型学习目标模型的行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SpecForge框架能够将Qwen3-235B-A22B的EAGLE-3训练速度提高9.9倍。此外，使用SpecForge训练的SpecBundle草稿模型在SGLang上实现了高达4.48倍的端到端推理加速。这些结果表明SpecForge在提高推测解码训练效率和推理速度方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于需要低延迟的大型语言模型推理场景，例如在线对话系统、实时翻译、智能客服等。SpecForge框架的开源特性，降低了推测解码技术的应用门槛，促进了相关技术在工业界的落地。未来，该框架可以进一步扩展到支持更多类型的模型和硬件平台，并结合知识蒸馏等技术，进一步提高草稿模型的质量和推理速度。

📄 摘要（原文）

Large language models incur high inference latency due to sequential autoregressive decoding. Speculative decoding alleviates this bottleneck by using a lightweight draft model to propose multiple tokens for batched verification. However, its adoption has been limited by the lack of high-quality draft models and scalable training infrastructure. We introduce SpecForge, an open-source, production-oriented framework for training speculative decoding models with full support for EAGLE-3. SpecForge incorporates target-draft decoupling, hybrid parallelism, optimized training kernels, and integration with production-grade inference engines, enabling up to 9.9x faster EAGLE-3 training for Qwen3-235B-A22B. In addition, we release SpecBundle, a suite of production-grade EAGLE-3 draft models trained with SpecForge for mainstream open-source LLMs. Through a systematic study of speculative decoding training recipes, SpecBundle addresses the scarcity of high-quality drafts in the community, and our draft models achieve up to 4.48x end-to-end inference speedup on SGLang, establishing SpecForge as a practical foundation for real-world speculative decoding deployment.

SpecForge: A Flexible and Efficient Open-Source Training Framework for Speculative Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理