Self-Distillation for Multi-Token Prediction

作者: Guoliang Zhao, Ruobing Xie, An Wang, Shuaipeng Li, Huaibing Xie, Xingwu Sun

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-25

💡 一句话要点

提出MTP-D自蒸馏方法，提升LLM多Token预测的效率和接受率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多Token预测 自蒸馏 推理加速 知识迁移

📋 核心要点

现有多Token预测（MTP）方法在大型语言模型推理加速中受限于MTP head接受率和多head联合训练的困难。
论文提出MTP-D自蒸馏方法，通过知识蒸馏提升MTP head的性能，同时保持主head性能，降低训练成本。
实验结果表明，MTP-D显著提升了MTP head的接受率和推理速度，并在多个基准测试中验证了其有效性。

📝 摘要（中文）

随着大型语言模型（LLMs）规模的扩大，推理效率成为关键瓶颈。多Token预测（MTP）通过并行预测多个未来token来加速LLM推理。然而，现有的MTP方法仍然面临两个挑战：MTP head的接受率有限，以及难以联合训练多个MTP head。因此，我们提出MTP-D，一种简单而有效的自蒸馏方法，以最小的额外训练成本，提高MTP head的接受率（+7.5%），同时最大限度地保持main-head的性能。我们还为MTP-D引入了一种循环扩展策略，从而能够有效且经济地扩展MTP head，并进一步显著加速推理，达到1-head MTP（+220.4%）。此外，我们通过在七个基准上的大量实验，系统地探索和验证了关于蒸馏策略和MTP潜在可扩展性的关键见解。这些结果表明，我们的MTP-D和循环扩展策略有效地提高了MTP-head的性能和推理效率，从而促进了MTP在LLM中的实际应用。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）推理效率低下的问题，特别是现有Multi-Token Prediction (MTP) 方法中MTP head接受率有限以及难以联合训练多个MTP head的痛点。现有的MTP方法虽然能够并行预测多个token，但由于head的性能问题，实际加速效果受限。

核心思路：论文的核心思路是利用自蒸馏技术，将主head（main-head）的知识迁移到MTP head，从而提升MTP head的性能和接受率。通过这种方式，MTP head能够更准确地预测多个token，从而提高整体的推理效率。自蒸馏方法降低了训练成本，同时保持了主head的性能。

技术框架：MTP-D的整体框架包括以下几个主要步骤：首先，训练一个标准的主head。然后，利用主head的输出作为“教师信号”，训练多个MTP head。MTP head的目标是模仿主head的输出，从而学习到主head的知识。为了进一步提高性能，论文还提出了一个循环扩展策略，允许逐步增加MTP head的数量，从而实现更大的推理加速。

关键创新：MTP-D的关键创新在于其简单而有效的自蒸馏方法，以及循环扩展策略。自蒸馏方法能够以最小的额外训练成本显著提升MTP head的性能，而循环扩展策略则允许灵活地调整MTP head的数量，以适应不同的推理需求。与现有方法相比，MTP-D不需要复杂的训练技巧或额外的模型结构。

关键设计：MTP-D的关键设计包括：1) 使用KL散度作为蒸馏损失函数，衡量MTP head和主head输出之间的差异。2) 设计了一个循环扩展策略，通过逐步增加MTP head的数量，实现更大的推理加速。3) 仔细调整了蒸馏过程中的超参数，以平衡MTP head的性能和主head的性能。

🖼️ 关键图片

📊 实验亮点

MTP-D方法在提升MTP head接受率方面表现出色，相较于基线方法提升了7.5%。通过循环扩展策略，MTP-D实现了显著的推理加速，在1-head MTP设置下达到了220.4%的加速效果。实验结果在七个基准测试中得到了验证，证明了MTP-D的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要加速大型语言模型推理的场景，例如在线对话系统、文本生成、机器翻译等。通过提高推理效率，可以降低计算成本，提升用户体验，并促进LLM在资源受限设备上的部署。未来，该方法有望进一步扩展到其他模型架构和任务中。

📄 摘要（原文）

As Large Language Models (LLMs) scale up, inference efficiency becomes a critical bottleneck. Multi-Token Prediction (MTP) could accelerate LLM inference by predicting multiple future tokens in parallel. However, existing MTP approaches still face two challenges: limited acceptance rates of MTP heads, and difficulties in jointly training multiple MTP heads. Therefore, we propose MTP-D, a simple yet effective self-distillation method with minimal additional training cost, which boosts MTP head acceptance rates (+7.5\%) while maximumly preserving main-head performance. We also introduce a looped extension strategy for MTP-D, enabling effective and economical MTP head extension and further significant inference speedup to 1-head MTP (+220.4\%). Moreover, we systematically explore and validate key insights on the distillation strategies and the potential scalability of MTP through extensive experiments on seven benchmarks. These results demonstrate that our MTP-D and looped extension strategy effectively enhance MTP-head performance and inference efficiency, facilitating the practical usage of MTP in LLMs.

Self-Distillation for Multi-Token Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理