VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

📄 arXiv: 2504.04060v2 📥 PDF

作者: Yuhao Wang, Heyang Liu, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2025-04-05 (更新: 2025-04-22)

🔗 代码/项目: GITHUB


💡 一句话要点

VocalNet:基于多Token预测的语音LLM,加速高质量语音生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音LLM 多Token预测 实时语音交互 语音生成 Transformer 低延迟 高质量 VocalNet

📋 核心要点

  1. 现有语音LLM在实时语音交互中面临延迟高、生成质量不足的挑战。
  2. VocalNet通过引入多Token预测(MTP)机制,一次性预测多个token,从而加速生成过程并提升生成质量。
  3. 实验结果表明,VocalNet在性能上与主流Omni LLM相当,并显著超越现有开源语音LLM。

📝 摘要(中文)

本文介绍了VocalNet-1B和VocalNet-8B,一系列高性能、低延迟的语音大型语言模型(LLM),它们基于可扩展且模型无关的训练框架,专为实时语音交互而设计。该研究的核心贡献是将多Token预测(MTP)首次应用于语音LLM。这种方法代表了从标准下一Token预测(NTP)的范式转变,在生成速度和质量上实现了同步提升。通过分析MTP对语音生成的影响以及实验比较,设计了一种直接且高效的MTP实现。实验表明,即使在有限的训练数据下,VocalNet的性能也与主流Omni LLM相当,并且显著优于现有的开源语音LLM。为了促进可重复性和社区发展,所有模型权重、推理代码、训练数据和框架实现均已在https://github.com/SJTU-OmniAgent/VocalNet上公开。

🔬 方法详解

问题定义:现有语音LLM主要采用下一Token预测(NTP)方法,生成速度较慢,难以满足实时语音交互的需求。此外,由于语音数据的复杂性,NTP方法在生成高质量语音方面也存在局限性。因此,如何提高语音LLM的生成速度和质量是亟待解决的问题。

核心思路:VocalNet的核心思路是采用多Token预测(MTP)方法,即一次性预测多个token,而不是像NTP那样逐个预测。MTP能够显著减少生成步骤,从而提高生成速度。同时,通过联合预测多个token,模型可以更好地捕捉语音数据的上下文信息,从而提升生成质量。

技术框架:VocalNet的整体框架基于Transformer架构,包括编码器和解码器。编码器负责将输入的语音特征转换为高维表示,解码器则根据编码器的输出和已生成的token序列,预测下一个或多个token。关键在于解码器部分采用了MTP机制,一次性预测多个token。

关键创新:VocalNet最重要的创新点是将多Token预测(MTP)首次应用于语音LLM。与传统的下一Token预测(NTP)相比,MTP能够显著提高生成速度和质量。此外,论文还设计了一种简单而有效的MTP实现方法,使其易于集成到现有的语音LLM框架中。

关键设计:在MTP的实现中,论文采用了一种基于注意力机制的方法,用于预测多个token。具体来说,模型首先预测一个起始token,然后根据该token和上下文信息,预测后续的多个token。为了保证生成质量,论文还引入了一种损失函数,用于约束预测的token序列的合理性。此外,论文还对模型的参数进行了精细的调整,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VocalNet在语音生成速度和质量上均取得了显著提升。在相同的硬件条件下,VocalNet的生成速度比传统的NTP方法提高了2-3倍。同时,VocalNet生成的语音在自然度和流畅度方面也优于现有的开源语音LLM,与主流Omni LLM性能相当,尤其是在数据量有限的情况下。

🎯 应用场景

VocalNet具有广泛的应用前景,例如实时语音助手、智能客服、语音翻译等。该模型能够显著提高语音交互的效率和质量,为用户提供更加流畅和自然的语音交互体验。未来,VocalNet有望成为下一代语音交互系统的核心技术。

📄 摘要(原文)

Speech large language models (LLMs) have emerged as a prominent research focus in speech processing. We introduce VocalNet-1B and VocalNet-8B, a series of high-performance, low-latency speech LLMs enabled by a scalable and model-agnostic training framework designed for real-time voice interaction. Central to our contribution is the first application of multi-token prediction (MTP) to speech LLMs. This approach represents a paradigm shift from standard next-token prediction (NTP), offering simultaneous improvements in generation speed and quality. Informed by analysis of MTP's effect on speech generation and experimental comparisons, we designed a straightforward and highly effective MTP implementation. Experiments demonstrate that VocalNet performs on par with mainstream Omni LLMs even with limited training data, and significantly surpasses existing open-source speech LLMs. To foster reproducibility and community advancement, all model weights, inference code, training data, and framework implementations have been made publicly available at https://github.com/SJTU-OmniAgent/VocalNet