dMel: Speech Tokenization made Simple
作者: Richard He Bai, Tatiana Likhomanenko, Ruixiang Zhang, Zijin Gu, Zakaria Aldeneh, Navdeep Jaitly
分类: cs.CL, cs.AI, cs.SD, eess.AS
发布日期: 2024-07-22 (更新: 2025-05-21)
备注: preprint
💡 一句话要点
提出dMel:一种简化的语音Token化方法,提升语音合成与识别性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音Token化 语音合成 语音识别 自监督学习 Transformer 离散化 Mel滤波器组
📋 核心要点
- 现有语音Token化方法依赖音频压缩器,引入额外复杂性和计算成本,且泛化性较差。
- 提出dMel,将Mel滤波器组通道离散化为强度bins,简化语音表示,提升鲁棒性。
- 构建RichTTS和RichASR模型,在语音合成和识别任务上取得与专用模型相当或更好的结果。
📝 摘要(中文)
大型语言模型通过在海量文本数据上进行自监督预训练,彻底改变了自然语言处理领域。受此启发,研究人员探索了各种基于压缩的语音Token化方法,以离散化连续语音信号,从而将语言建模技术应用于离散Token。然而,音频压缩器引入了额外的复杂性和计算成本,并且常常在领域外音频信号上失效。本文提出了一种新的语音表示(dMel),它将Mel滤波器组通道离散化为强度bins,与现有的语音Token化方法相比,创建了一种更简单但更有效的表示。我们的方法在保留音频内容、对领域外数据的鲁棒性方面表现出卓越的性能,并提供了一种免训练、自然且可流式传输的表示。为了解决log-Mel频谱图的高维特性,我们提出了一种使用LM风格Transformer架构的高维Token高效并行编码和解码方法。这项创新使我们能够开发RichTTS和RichASR,这两个模型共享相同的架构,同时实现了与现有专用方法相当或更好的结果。我们的结果表明,dMel在统一框架内实现语音合成和识别任务的高性能方面是有效的,为语音和文本的有效联合建模铺平了道路。
🔬 方法详解
问题定义:现有语音Token化方法依赖复杂的音频压缩器,计算成本高昂,且在处理领域外音频数据时表现不佳。这些方法难以提供一种简单、高效且鲁棒的语音表示,阻碍了语音和文本的有效联合建模。
核心思路:论文的核心思路是将Mel滤波器组通道的连续强度值离散化为有限数量的bins,从而将连续的语音信号转化为离散的Token序列。这种方法避免了复杂的音频压缩过程,简化了语音表示,并提高了对领域外数据的鲁棒性。通过将语音表示为离散Token,可以利用现有的语言建模技术进行语音合成和识别。
技术框架:该方法主要包含两个阶段:dMel编码和解码。dMel编码阶段将log-Mel频谱图的每个通道离散化为强度bins,生成高维离散Token序列。为了处理高维Token,论文提出了一种基于LM风格Transformer架构的并行编码和解码方法。RichTTS和RichASR模型共享相同的Transformer架构,分别用于语音合成和识别任务。
关键创新:最重要的技术创新点是dMel语音表示,它是一种简单、高效且鲁棒的语音离散化方法。与现有的基于压缩的语音Token化方法相比,dMel避免了复杂的音频压缩过程,降低了计算成本,并提高了对领域外数据的泛化能力。此外,并行编码和解码方法能够有效处理高维Token,提高了模型的训练效率。
关键设计:dMel编码的关键参数是强度bins的数量,该参数决定了离散化后的Token数量。论文中使用了LM风格的Transformer架构,该架构包含多个Transformer层,用于学习Token之间的依赖关系。损失函数根据具体任务选择,例如,语音合成任务可以使用均方误差损失函数,语音识别任务可以使用交叉熵损失函数。并行编码和解码方法通过将高维Token分解为多个子Token,并使用多个Transformer层并行处理这些子Token,从而提高了计算效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,dMel在语音合成和识别任务上取得了与现有专用模型相当或更好的结果。RichTTS和RichASR模型在性能上与现有模型具有竞争力,同时共享相同的架构,验证了dMel的有效性和通用性。此外,dMel在领域外数据上的鲁棒性也得到了验证,表明其具有良好的泛化能力。
🎯 应用场景
该研究成果可广泛应用于语音合成、语音识别、语音翻译等领域。dMel作为一种简单高效的语音表示,有助于构建统一的语音和文本处理框架,实现更自然、更智能的人机交互。未来,该技术有望应用于智能助手、语音搜索、自动字幕生成等场景,提升用户体验。
📄 摘要(原文)
Large language models have revolutionized natural language processing by leveraging self-supervised pretraining on vast textual data. Inspired by this success, researchers have investigated various compression-based speech tokenization methods to discretize continuous speech signals, enabling the application of language modeling techniques to discrete tokens. However, audio compressor introduces additional complexity and computational cost, and often fail on out-of-domain audio signals. In this work, we introduce a novel speech representation (dmel) that discretizes mel-filterbank channels into intensity bins, creating a simpler yet more effective representation compared to existing speech tokenization methods. Our approach demonstrates superior performance in preserving audio content, robustness to out-of-domain data, and offers a training-free, natural, and streamable representation. To address the high-dimensional nature of log-mel spectrograms, we propose an efficient parallel encoding and decoding method for high-dimensional tokens using an LM-style transformer architecture. This innovation enables us to develop RichTTS and RichASR, two models sharing the same architecture while achieving comparable or better results than specialized existing methods. Our results demonstrate the effectiveness of dmel in achieving high performance on both speech synthesis and recognition tasks within a unified framework, paving the way for efficient and effective joint modeling of speech and text.