Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

📄 arXiv: 2603.17942v1 📥 PDF

作者: Raghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott

分类: cs.CL

发布日期: 2026-03-18


💡 一句话要点

提出基于嵌入空间探测的无训练多Token预测方法,提升LLM推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多Token预测 嵌入空间探测 无训练方法 推理加速

📋 核心要点

  1. 现有LLM推理效率受限于逐Token生成模式,缺乏并行预测能力,限制了吞吐量。
  2. 提出一种无训练的多Token预测方法,通过嵌入空间探测,并行生成并验证候选Token,加速解码过程。
  3. 实验表明,该方法在多个LLM上显著提升了Token吞吐量和接受长度,优于现有无训练基线。

📝 摘要(中文)

大型语言模型(LLMs)即使仅经过下一Token生成的训练,也展现出潜在的多Token预测(MTP)能力。我们提出了一种简单的、无训练的MTP方法,该方法通过使用从其嵌入空间中提取的即时掩码Token来探测LLM,从而能够并行预测未来的Token,而无需修改模型权重或依赖辅助草稿模型。我们的方法通过从掩码Token logits中采样top-K候选Token来构建推测Token树,并应用轻量级的剪枝策略来保留高概率的延续。在解码过程中,候选预测被并行验证,从而在实现无损生成的同时,显著减少了模型调用次数并提高了Token吞吐量。在多个基准测试中,我们基于探测的MTP始终优于现有的无训练基线,在LLaMA3上将接受长度提高了约12%,在Qwen3上提高了8-12%,并实现了高达15-19%的吞吐量增益。最后,我们提供了理论见解和经验证据,表明解码器层自然地将掩码Token表示与下一Token状态对齐,从而无需重新训练或辅助模型即可实现准确的多步预测。

🔬 方法详解

问题定义:现有大型语言模型(LLMs)虽然具备生成文本的能力,但其推理过程通常是逐Token进行的,效率较低。现有的多Token预测方法通常需要额外的训练或者依赖辅助模型,增加了计算成本和模型复杂度。因此,如何在不进行额外训练或引入辅助模型的情况下,提升LLM的多Token预测能力,是一个重要的研究问题。

核心思路:该论文的核心思路是利用LLM自身的嵌入空间,通过引入“掩码Token”来探测模型对未来Token的预测能力。具体来说,就是从模型的嵌入空间中选取一些Token作为掩码,然后将这些掩码Token输入到模型中,观察模型对这些掩码Token的预测结果。由于这些掩码Token是从嵌入空间中选取的,因此它们可以代表模型对不同语义信息的理解,从而实现多Token的并行预测。

技术框架:该方法主要包含以下几个阶段:1) 嵌入空间探测:从LLM的嵌入空间中选取合适的掩码Token。2) 推测Token树构建:将掩码Token输入到LLM中,并从模型的输出logits中采样top-K个候选Token,构建推测Token树。3) 剪枝策略:应用轻量级的剪枝策略,去除Token树中概率较低的分支,保留高概率的延续。4) 并行验证:并行验证候选预测,并选择最优的Token序列。

关键创新:该方法最重要的创新点在于它是一种完全无训练的多Token预测方法。与现有的需要额外训练或依赖辅助模型的方法不同,该方法直接利用LLM自身的嵌入空间和预测能力,无需修改模型权重或引入额外的计算资源。此外,该方法还提出了一种基于嵌入空间探测的掩码Token选择策略,能够有效地提高多Token预测的准确性。

关键设计:在嵌入空间探测阶段,论文可能采用了一些策略来选择合适的掩码Token,例如选择具有代表性的Token或者选择与当前上下文相关的Token。在剪枝策略方面,论文可能采用了一些基于概率的剪枝方法,例如保留概率最高的top-N个分支。此外,论文可能还设计了一些损失函数或优化目标,用于指导掩码Token的选择和剪枝策略的优化。(具体细节未知)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在LLaMA3和Qwen3等主流LLM上取得了显著的性能提升。具体来说,在LLaMA3上,该方法将接受长度提高了约12%,在Qwen3上提高了8-12%,并实现了高达15-19%的吞吐量增益。这些结果表明,该方法是一种有效的无训练多Token预测方法,能够显著提升LLM的推理效率。

🎯 应用场景

该研究成果可广泛应用于各种需要高效文本生成的场景,例如:智能对话系统、机器翻译、文本摘要、代码生成等。通过提升LLM的推理速度,可以显著改善用户体验,降低计算成本,并推动LLM在更多实际应用中的部署。此外,该方法还可以作为一种通用的加速技术,与其他LLM优化方法相结合,进一步提升性能。

📄 摘要(原文)

Large language models (LLMs) exhibit latent multi-token prediction (MTP) capabilities despite being trained solely for next-token generation. We propose a simple, training-free MTP approach that probes an LLM using on-the-fly mask tokens drawn from its embedding space, enabling parallel prediction of future tokens without modifying model weights or relying on auxiliary draft models. Our method constructs a speculative token tree by sampling top-K candidates from mask-token logits and applies a lightweight pruning strategy to retain high-probability continuations. During decoding, candidate predictions are verified in parallel, resulting in lossless generation while substantially reducing the number of model calls and improving token throughput. Across benchmarks, our probing-based MTP consistently outperforms existing training-free baselines, increasing acceptance length by approximately 12\% on LLaMA3 and 8--12\% on Qwen3, and achieving throughput gains of up to 15--19\%. Finally, we provide theoretical insights and empirical evidence showing that decoder layers naturally align mask-token representations with next-token states, enabling accurate multi-step prediction without retraining or auxiliary models.