WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching

作者: Tianze Luo, Xingchen Miao, Wenbo Duan

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-03-20

备注: Accepted to the main conference of NAACL 2025. The codes are available at https://github.com/luotianze666/WaveFM

💡 一句话要点

WaveFM：一种基于流匹配的高保真高效声码器，用于mel谱条件下的语音合成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 流匹配 扩散模型 声码器 语音合成 一致性蒸馏

📋 核心要点

现有扩散声码器直接应用流匹配方法时，音频质量不佳，存在提升空间。
WaveFM通过mel谱条件先验分布和辅助损失函数，优化流匹配过程，提升音频质量。
WaveFM采用定制的一致性蒸馏方法加速推理，在保证质量的前提下实现单步波形生成。

📝 摘要（中文）

本文提出WaveFM，一种重参数化的流匹配模型，用于mel谱图条件下的语音合成，旨在提高扩散声码器的采样质量和生成速度。WaveFM采用mel谱图条件下的先验分布，而非标准高斯先验，以最小化合成过程中的不必要传输成本，因为mel谱图代表了波形的能量分布。此外，除了单一损失函数外，本文还引入了辅助损失，包括改进的多分辨率STFT损失，以进一步提高音频质量。为了在不显著降低采样质量的情况下加速推理，本文为WaveFM定制了一种一致性蒸馏方法。实验结果表明，与之前的扩散声码器相比，该模型在质量和效率方面都取得了优异的性能，并能够以单步推理生成波形。

🔬 方法详解

问题定义：论文旨在解决mel谱图条件下的语音合成任务中，现有扩散声码器质量和效率难以兼顾的问题。直接应用流匹配方法训练的声码器，音频质量有待提高。同时，扩散模型推理速度慢，难以满足实时性要求。

核心思路：论文的核心思路是通过优化流匹配过程，并结合一致性蒸馏技术，在保证音频质量的前提下，提升生成速度。具体而言，利用mel谱图的特性，设计mel条件先验分布，减少不必要的传输成本。同时，引入辅助损失函数，进一步提升音频质量。最后，通过一致性蒸馏，将扩散模型的知识迁移到单步模型，加速推理。

技术框架：WaveFM的整体框架包括以下几个主要模块：1) Mel谱图编码器：将mel谱图转换为特征表示。2) 流匹配模型：基于mel谱图特征，学习从先验分布到目标分布的映射。3) 辅助损失计算模块：计算多分辨率STFT损失等辅助损失。4) 一致性蒸馏模块：将扩散模型的知识蒸馏到单步模型。整个流程是：首先，mel谱图通过编码器得到特征表示，然后输入到流匹配模型中，生成波形。同时，计算辅助损失，优化模型参数。最后，通过一致性蒸馏，得到单步推理模型。

关键创新：论文的关键创新点在于：1) 提出了mel条件先验分布，更符合语音合成任务的特点，减少了不必要的计算。2) 引入了辅助损失函数，进一步提升了音频质量。3) 设计了定制的一致性蒸馏方法，在保证质量的前提下，实现了单步推理。与现有方法的本质区别在于，WaveFM更加注重利用mel谱图的特性来优化流匹配过程，并结合一致性蒸馏技术来加速推理。

关键设计：在mel条件先验分布方面，论文采用了基于mel谱图的条件高斯分布。在辅助损失函数方面，论文采用了多分辨率STFT损失，并对损失函数进行了改进。在一致性蒸馏方面，论文采用了基于教师-学生模型的蒸馏方法，并设计了特定的蒸馏目标。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，WaveFM在语音合成质量和效率方面均优于现有扩散声码器。在主观听觉测试中，WaveFM的MOS得分显著高于其他基线模型。同时，WaveFM通过一致性蒸馏，实现了单步推理，大大提高了生成速度。具体性能数据在论文中有详细展示。

🎯 应用场景

WaveFM具有广泛的应用前景，包括语音合成、语音转换、语音增强等领域。它可以用于生成高质量的语音，提升语音交互体验。此外，WaveFM的高效性使其可以应用于实时语音合成场景，例如智能助手、语音游戏等。未来，WaveFM可以进一步扩展到其他音频生成任务，例如音乐生成、音效生成等。

📄 摘要（原文）

Flow matching offers a robust and stable approach to training diffusion models. However, directly applying flow matching to neural vocoders can result in subpar audio quality. In this work, we present WaveFM, a reparameterized flow matching model for mel-spectrogram conditioned speech synthesis, designed to enhance both sample quality and generation speed for diffusion vocoders. Since mel-spectrograms represent the energy distribution of waveforms, WaveFM adopts a mel-conditioned prior distribution instead of a standard Gaussian prior to minimize unnecessary transportation costs during synthesis. Moreover, while most diffusion vocoders rely on a single loss function, we argue that incorporating auxiliary losses, including a refined multi-resolution STFT loss, can further improve audio quality. To speed up inference without degrading sample quality significantly, we introduce a tailored consistency distillation method for WaveFM. Experiment results demonstrate that our model achieves superior performance in both quality and efficiency compared to previous diffusion vocoders, while enabling waveform generation in a single inference step.

WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理