Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction
作者: Shu-wen Yang, Byeonggeun Kim, Kuan-Po Huang, Qingming Tang, Huy Phan, Bo-Ru Lu, Harsha Sundar, Shalini Ghosh, Hung-yi Lee, Chieh-Chi Kao, Chao Wang
分类: eess.AS, cs.CV, cs.SD
发布日期: 2025-07-14
备注: Accepted by ICML 2025. Project website: https://audiomntp.github.io/
💡 一句话要点
提出基于连续值Token和掩码预测的生成式音频语言模型,提升音频生成质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频生成 连续值Token 扩散模型 语言模型 掩码预测 自回归模型 Transformer解码器
📋 核心要点
- 现有音频生成方法依赖离散token,忽略了音频的连续性,限制了生成质量。
- 提出基于token-wise扩散的连续值token建模方法,并引入掩码next-token预测任务。
- 实验表明,该方法在音频生成质量上显著优于现有方法,且参数量更少。
📝 摘要(中文)
本文研究了使用因果语言模型(LM)进行音频生成,无需离散token。利用token-wise扩散来建模下一个连续值token的连续分布。该方法在AudioCaps数据集上,相较于之前的离散解决方案AudioGen,在Frechet Audio Distance (FAD) 和 Kullback-Leibler (KL) 散度上分别实现了20%和40%的相对提升。此外,本文提出了一种新颖的掩码next-token预测任务,将其融入因果LM框架中。在AudioCaps上,该创新相较于AudioGen Base (285M) 和 AudioGen Large (1B) 模型,分别实现了41%和33%的相对FAD提升,并且与最先进的扩散模型相当。更重要的是,这些结果是在参数量显著减少的情况下实现的——Base模型为193M,Large模型为462M。
🔬 方法详解
问题定义:论文旨在解决音频生成任务中,现有方法依赖离散token表示音频,导致信息损失和生成质量受限的问题。现有方法无法充分利用音频的连续性特征,导致生成音频的真实感和多样性不足。
核心思路:论文的核心思路是直接对连续值的音频token进行建模,避免离散化带来的信息损失。通过token-wise扩散模型学习连续token的分布,并结合因果语言模型进行生成。此外,引入掩码next-token预测任务,增强模型对音频上下文信息的理解能力。
技术框架:整体框架基于Transformer解码器,采用自回归next-token预测的方式进行音频生成。主要模块包括:1) 音频编码器,将原始音频转换为连续值的token序列;2) token-wise扩散模型,用于建模下一个token的连续分布;3) Transformer解码器,基于上下文信息预测下一个token;4) 掩码next-token预测模块,用于增强模型对上下文信息的理解。
关键创新:最重要的技术创新点在于:1) 使用连续值token表示音频,避免了离散化带来的信息损失;2) 提出token-wise扩散模型,能够有效建模连续token的复杂分布;3) 引入掩码next-token预测任务,增强了模型对音频上下文信息的理解能力。
关键设计:论文的关键设计包括:1) 使用Transformer解码器作为生成模型的主体框架;2) 设计token-wise扩散模型的具体结构和训练方式;3) 选择合适的损失函数,例如FAD和KL散度,用于评估生成音频的质量;4) 调整掩码next-token预测任务的掩码比例和训练策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在AudioCaps数据集上,相较于AudioGen,在FAD和KL散度上分别实现了20%和40%的相对提升。引入掩码next-token预测后,FAD指标进一步提升,相较于AudioGen Base和Large模型,分别实现了41%和33%的相对提升,并且与SOTA扩散模型性能相当。更重要的是,该方法在参数量显著减少的情况下取得了这些成果。
🎯 应用场景
该研究成果可应用于各种音频生成场景,例如音乐创作、语音合成、音效设计等。通过生成高质量、逼真的音频内容,可以提升用户体验,并为相关领域带来创新。未来,该技术有望应用于虚拟现实、游戏开发、智能助手等领域,实现更加自然、智能的音频交互。
📄 摘要(原文)
Autoregressive next-token prediction with the Transformer decoder has become a de facto standard in large language models (LLMs), achieving remarkable success in Natural Language Processing (NLP) at scale. Extending this paradigm to audio poses unique challenges due to its inherently continuous nature. We research audio generation with a causal language model (LM) without discrete tokens. We leverage token-wise diffusion to model the continuous distribution of the next continuous-valued token. Our approach delivers significant improvements over previous discrete solution, AudioGen, achieving 20% and 40% relative gains on AudioCaps in Frechet Audio Distance (FAD) and Kullback-Leibler (KL) divergence, respectively. Additionally, we propose a novel masked next-token prediction task that incorporates masked prediction into the causal LM framework. On AudioCaps, the innovation yields 41% and 33% relative FAD improvements over AudioGen Base (285M) and AudioGen Large (1B) models, respectively, and is on par with the state-of-the-art (SOTA) diffusion models. Furthermore, we achieve these results with significantly fewer parameters -- 193M for our Base and 462M for our Large models.