SlimSpec: Low-Rank Draft LM-Head for Accelerated Speculative Decoding
作者: Anton Plaksin, Sergei Krutikov, Sergei Skvortsov, Alexander Samarin
分类: cs.LG, cs.CL
发布日期: 2026-05-11
💡 一句话要点
提出SlimSpec以加速投机解码解决计算瓶颈
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低秩参数化 草拟模型 投机解码 大语言模型 计算加速 自然语言处理 效率优化 深度学习
📋 核心要点
- 现有方法在处理大语言模型解码时,草拟网络的计算成本仍然较高,造成了性能瓶颈。
- SlimSpec通过低秩参数化的方式优化草拟模型的语言模型头部,从而有效降低计算复杂度。
- 实验结果显示,SlimSpec在延迟和吞吐量两种推理模式下均实现了4-5倍加速,优于现有技术。
📝 摘要(中文)
投机解码通过两步过程加速大语言模型的自回归生成,其中轻量级草拟模型建议标记,目标模型在单次前向传递中进行验证。虽然现有草拟网络较小,但其语言模型头部依然需要投影到较大词汇表,成为主要的计算瓶颈。之前的研究通常通过静态或动态词汇截断来解决这一问题,但这也带来了额外的复杂性。本文提出SlimSpec,采用低秩参数化方法压缩草拟模型的内部表示,而非输出,完全保留词汇支持。我们在多种基准上评估SlimSpec,并在延迟和吞吐量受限的推理模式下,与EAGLE-3草拟模型组合,获得了4-5倍的加速,并超越现有方法8-9%的端到端提升。
🔬 方法详解
问题定义:论文要解决的是在大语言模型中,草拟网络的语言模型头部计算造成的性能瓶颈。现有方法如静态和动态词汇截断虽然缓解了问题,但增加了复杂性和操作难度。
核心思路:本文提出SlimSpec,通过低秩参数化方法压缩草拟模型的内部表示,而非输出,保持词汇表的完整性。这一设计旨在减少投影计算的复杂度,同时保持模型性能。
技术框架:SlimSpec包含几个重要模块:首先是草拟网络部分,其次是低秩投影模块,最终是目标模型用于验证草拟结果的部分。整体流程包括草拟标记建议,随后的验证及接受机制。
关键创新:SlimSpec的创新点在于采用低秩方法替代传统的全连接层,使得计算更为高效,相较于现有方法能显著降低计算量,简化推理流程。
关键设计:SlimSpec通过精心设计的低秩参数化结构,加上少量的网络修改,确保在训练和推理过程中相对简单。重要的参数设置包括低秩矩阵的维度选择和损失函数的优化。实际应用中,还需要合理的初始化和奖惩机制以促进有效学习。
🖼️ 关键图片
📊 实验亮点
SlimSpec在多个基准测试中,通过与EAGLE-3草拟模型结合,获得4-5倍的加速效果,与当前最佳方法相比,提升了8-9%的端到端速度。同时,对训练和推理管道的调整要求非常少,使得实用性增强。
🎯 应用场景
SlimSpec的研究成果在自然语言处理、自动文本生成及智能对话系统等领域具有广泛应用潜力。通过提升解码效率,它可以增强大语言模型在实时应用中的响应速度,满足用户对于更高性能的需求,对未来的AI语言模型开发与部署将产生积极影响。
📄 摘要(原文)
Speculative decoding speeds up autoregressive generation in Large Language Models (LLMs) through a two-step procedure, where a lightweight draft model proposes tokens which the target model then verifies in a single forward pass. Although the drafter network is small in modern architectures, its LM-head still performs projection to a large vocabulary, becoming one of the major computational bottlenecks. In prior work this issue has been predominantly addressed via static or dynamic vocabulary truncation. Yet mitigating the bottleneck, these methods bring in extra complexity, such as special vocabulary curation, sophisticated inference-time logic or modifications of the training setup. In this paper, we propose SlimSpec, a low-rank parameterization of the drafter's LM-head that compresses the inner representation rather than the output, preserving full vocabulary support. We evaluate our method with EAGLE-3 drafter across three target models and diverse benchmarks in both latency- and throughput-bound inference regimes. SlimSpec achieves $4\text{-}5\times$ acceleration over the standard LM-head architecture while maintaining a competitive acceptance length, surpassing existing methods by up to $8\text{-}9\%$ of the end-to-end speedup. Our method requires minimal adjustments of training and inference pipelines. Combined with the aforementioned speedup improvements, it makes SlimSpec a strong alternative across wide variety of draft LM-head architectures.