FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates
作者: Nicola Pia, Martin Strauss, Markus Multrus, Bernd Edler
分类: eess.AS, cs.LG, cs.SD
发布日期: 2024-09-26 (更新: 2025-04-06)
备注: Published in: ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
DOI: 10.1109/ICASSP49660.2025.10888898
💡 一句话要点
FlowMAC:基于条件流匹配的低码率高质量音频编码
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 音频编码 条件流匹配 低比特率 神经音频编解码器 mel频谱 音频压缩 生成模型
📋 核心要点
- 现有神经音频编解码器在低码率下难以兼顾高质量和计算效率,限制了其在资源受限场景的应用。
- FlowMAC利用条件流匹配(CFM)学习mel频谱的编码、量化和解码,实现高效的概率建模和高质量音频生成。
- 实验表明,FlowMAC在3kbps下达到与现有方法6kbps相似的音质,并支持CPU实时编码,显著提升了效率。
📝 摘要(中文)
本文提出了一种名为FlowMAC的新型神经音频编解码器,它基于条件流匹配(CFM),用于在低比特率下实现高质量的通用音频压缩。FlowMAC联合学习mel频谱编码器、量化器和解码器。在推理时,解码器通过ODE求解器积分一个连续归一化流,以生成高质量的mel频谱。这是首次将基于CFM的方法应用于通用音频编码,从而实现可扩展、简单且内存高效的训练。主观评估表明,FlowMAC在3 kbps下的质量与最先进的基于GAN和基于DDPM的神经音频编解码器在两倍比特率下的质量相似。此外,FlowMAC提供了一个可调的推理流程,允许在复杂度和质量之间进行权衡,从而可以在CPU上进行实时编码,同时保持较高的感知质量。
🔬 方法详解
问题定义:论文旨在解决低比特率下高质量通用音频编码的问题。现有的神经音频编解码器,如基于GAN或DDPM的方法,虽然能达到较好的音质,但通常需要较高的比特率,并且计算复杂度较高,难以在资源受限的设备上部署。因此,如何在低比特率下实现高质量且高效的音频编码是一个重要的挑战。
核心思路:FlowMAC的核心思路是利用条件流匹配(CFM)来学习mel频谱的概率分布。CFM通过学习一个时间相关的向量场,将简单的高斯分布映射到复杂的目标分布(mel频谱)。这种方法具有训练稳定、易于扩展和内存效率高的优点,非常适合于音频编码任务。通过控制向量场的积分过程,可以实现质量和计算复杂度的权衡。
技术框架:FlowMAC的整体框架包括一个mel频谱编码器、一个量化器和一个基于CFM的解码器。编码器将输入音频转换为mel频谱表示。量化器对mel频谱进行压缩,降低比特率。解码器使用条件流匹配,通过ODE求解器将量化后的mel频谱逐步恢复为高质量的mel频谱。整个过程是端到端训练的,以优化整体的编码和解码性能。
关键创新:FlowMAC的关键创新在于首次将条件流匹配(CFM)应用于通用音频编码。与传统的基于GAN或DDPM的方法相比,CFM具有训练更稳定、内存效率更高和可扩展性更强的优点。此外,FlowMAC还提供了一个可调的推理流程,允许在质量和计算复杂度之间进行权衡,使其能够适应不同的应用场景。
关键设计:FlowMAC的关键设计包括:1) 使用mel频谱作为音频表示,因为它更符合人类听觉感知;2) 使用条件流匹配(CFM)来学习mel频谱的概率分布,并使用ODE求解器进行推理;3) 设计了一个可调的推理流程,通过控制ODE求解器的步数来调节质量和计算复杂度;4) 使用端到端训练来优化编码器、量化器和解码器的整体性能。损失函数包括重构损失和对抗损失,以提高生成音频的质量。
🖼️ 关键图片
📊 实验亮点
FlowMAC在3 kbps的比特率下实现了与最先进的基于GAN和DDPM的神经音频编解码器在6 kbps比特率下相似的音质。主观听觉测试表明,FlowMAC在低比特率下具有显著的优势。此外,FlowMAC还支持CPU上的实时编码,使其能够在移动设备等资源受限的平台上部署。
🎯 应用场景
FlowMAC在低带宽通信、移动设备音频处理、音频流媒体和存储等领域具有广泛的应用前景。其低比特率和高音质的特性使其非常适合于资源受限的环境。此外,FlowMAC的可调推理流程使其能够适应不同的计算能力和质量要求,从而进一步扩展了其应用范围。未来,FlowMAC有望成为下一代低比特率音频编码的标准。
📄 摘要(原文)
This paper introduces FlowMAC, a novel neural audio codec for high-quality general audio compression at low bit rates based on conditional flow matching (CFM). FlowMAC jointly learns a mel spectrogram encoder, quantizer and decoder. At inference time the decoder integrates a continuous normalizing flow via an ODE solver to generate a high-quality mel spectrogram. This is the first time that a CFM-based approach is applied to general audio coding, enabling a scalable, simple and memory efficient training. Our subjective evaluations show that FlowMAC at 3 kbps achieves similar quality as state-of-the-art GAN-based and DDPM-based neural audio codecs at double the bit rate. Moreover, FlowMAC offers a tunable inference pipeline, which permits to trade off complexity and quality. This enables real-time coding on CPU, while maintaining high perceptual quality.