FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates

作者: Nicola Pia, Martin Strauss, Markus Multrus, Bernd Edler

分类: eess.AS, cs.LG, cs.SD

发布日期: 2024-09-26 (更新: 2025-04-06)

备注: Published in: ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

DOI: 10.1109/ICASSP49660.2025.10888898

💡 一句话要点

FlowMAC：基于条件流匹配的低码率高质量音频编码

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 音频编码 条件流匹配 低比特率 神经音频编解码器 mel频谱 音频压缩 生成模型

📋 核心要点

现有神经音频编解码器在低码率下难以兼顾高质量和计算效率，限制了其在资源受限场景的应用。
FlowMAC利用条件流匹配（CFM）学习mel频谱的编码、量化和解码，实现高效的概率建模和高质量音频生成。
实验表明，FlowMAC在3kbps下达到与现有方法6kbps相似的音质，并支持CPU实时编码，显著提升了效率。

📝 摘要（中文）

本文提出了一种名为FlowMAC的新型神经音频编解码器，它基于条件流匹配（CFM），用于在低比特率下实现高质量的通用音频压缩。FlowMAC联合学习mel频谱编码器、量化器和解码器。在推理时，解码器通过ODE求解器积分一个连续归一化流，以生成高质量的mel频谱。这是首次将基于CFM的方法应用于通用音频编码，从而实现可扩展、简单且内存高效的训练。主观评估表明，FlowMAC在3 kbps下的质量与最先进的基于GAN和基于DDPM的神经音频编解码器在两倍比特率下的质量相似。此外，FlowMAC提供了一个可调的推理流程，允许在复杂度和质量之间进行权衡，从而可以在CPU上进行实时编码，同时保持较高的感知质量。

🔬 方法详解

问题定义：论文旨在解决低比特率下高质量通用音频编码的问题。现有的神经音频编解码器，如基于GAN或DDPM的方法，虽然能达到较好的音质，但通常需要较高的比特率，并且计算复杂度较高，难以在资源受限的设备上部署。因此，如何在低比特率下实现高质量且高效的音频编码是一个重要的挑战。

核心思路：FlowMAC的核心思路是利用条件流匹配（CFM）来学习mel频谱的概率分布。CFM通过学习一个时间相关的向量场，将简单的高斯分布映射到复杂的目标分布（mel频谱）。这种方法具有训练稳定、易于扩展和内存效率高的优点，非常适合于音频编码任务。通过控制向量场的积分过程，可以实现质量和计算复杂度的权衡。

技术框架：FlowMAC的整体框架包括一个mel频谱编码器、一个量化器和一个基于CFM的解码器。编码器将输入音频转换为mel频谱表示。量化器对mel频谱进行压缩，降低比特率。解码器使用条件流匹配，通过ODE求解器将量化后的mel频谱逐步恢复为高质量的mel频谱。整个过程是端到端训练的，以优化整体的编码和解码性能。

关键创新：FlowMAC的关键创新在于首次将条件流匹配（CFM）应用于通用音频编码。与传统的基于GAN或DDPM的方法相比，CFM具有训练更稳定、内存效率更高和可扩展性更强的优点。此外，FlowMAC还提供了一个可调的推理流程，允许在质量和计算复杂度之间进行权衡，使其能够适应不同的应用场景。

关键设计：FlowMAC的关键设计包括：1) 使用mel频谱作为音频表示，因为它更符合人类听觉感知；2) 使用条件流匹配（CFM）来学习mel频谱的概率分布，并使用ODE求解器进行推理；3) 设计了一个可调的推理流程，通过控制ODE求解器的步数来调节质量和计算复杂度；4) 使用端到端训练来优化编码器、量化器和解码器的整体性能。损失函数包括重构损失和对抗损失，以提高生成音频的质量。

🖼️ 关键图片

📊 实验亮点

FlowMAC在3 kbps的比特率下实现了与最先进的基于GAN和DDPM的神经音频编解码器在6 kbps比特率下相似的音质。主观听觉测试表明，FlowMAC在低比特率下具有显著的优势。此外，FlowMAC还支持CPU上的实时编码，使其能够在移动设备等资源受限的平台上部署。

🎯 应用场景

FlowMAC在低带宽通信、移动设备音频处理、音频流媒体和存储等领域具有广泛的应用前景。其低比特率和高音质的特性使其非常适合于资源受限的环境。此外，FlowMAC的可调推理流程使其能够适应不同的计算能力和质量要求，从而进一步扩展了其应用范围。未来，FlowMAC有望成为下一代低比特率音频编码的标准。

📄 摘要（原文）

This paper introduces FlowMAC, a novel neural audio codec for high-quality general audio compression at low bit rates based on conditional flow matching (CFM). FlowMAC jointly learns a mel spectrogram encoder, quantizer and decoder. At inference time the decoder integrates a continuous normalizing flow via an ODE solver to generate a high-quality mel spectrogram. This is the first time that a CFM-based approach is applied to general audio coding, enabling a scalable, simple and memory efficient training. Our subjective evaluations show that FlowMAC at 3 kbps achieves similar quality as state-of-the-art GAN-based and DDPM-based neural audio codecs at double the bit rate. Moreover, FlowMAC offers a tunable inference pipeline, which permits to trade off complexity and quality. This enables real-time coding on CPU, while maintaining high perceptual quality.

FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理