Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates
作者: Harry Julian, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao
分类: cs.SD, cs.LG
发布日期: 2025-09-11 (更新: 2025-09-12)
💡 一句话要点
NeuCodec:基于有限标量量化的鲁棒性神经音频压缩编码
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经音频编码 有限标量量化 鲁棒性 编码器蒸馏 低比特率 抗噪 音频压缩
📋 核心要点
- 现有神经音频编解码器主要依赖残差矢量量化,训练复杂且缺乏对噪声信道的鲁棒性。
- 论文提出基于有限标量量化的神经音频编解码器NeuCodec,利用FSQ的内置冗余提高抗噪能力。
- 实验表明,NeuCodec在噪声信道下传输时,比特级扰动鲁棒性远优于RVQ编解码器。
📝 摘要(中文)
神经音频编解码器(NACs)因其卓越的率失真性能以及与大型语言模型(LLMs)的兼容性(作为音频生成的离散特征表示)而在语音处理任务中得到越来越多的应用。虽然大多数现有编解码器依赖于残差矢量量化(RVQ),但有限标量量化(FSQ)最近作为一种引人注目的替代方案出现,它简化了训练并原生支持单个码本。我们引入了NeuCodec,一种基于FSQ的NAC,并表明FSQ编码具有内置冗余,从而产生一种在噪声信道中传输时具有鲁棒性的编码。首先,通过编码器蒸馏实验,我们表明两个不同的编码器可以学习将相同的音频编码成截然不同的代码序列,同时使用相同的量化器和解码器保持相当的重建质量。其次,我们通过模拟代码序列通过噪声信道的传输,比较RVQ和FSQ编解码器的性能,证明FSQ具有明显优越的比特级扰动鲁棒性。
🔬 方法详解
问题定义:现有神经音频编解码器(NACs)主要依赖残差矢量量化(RVQ),存在训练复杂、对传输信道噪声敏感的问题。在低比特率下,信道噪声容易导致解码质量显著下降,限制了其在实际通信环境中的应用。
核心思路:论文的核心思路是利用有限标量量化(FSQ)的特性,在编码过程中引入冗余信息。这种冗余信息使得即使在传输过程中出现比特错误,解码器仍然能够恢复出较为接近原始音频的信号。通过编码器蒸馏,进一步增强编码的多样性,使得不同的编码器可以学习到不同的冗余模式,从而提高整体的鲁棒性。
技术框架:NeuCodec的整体框架包括编码器、有限标量量化器和解码器。编码器将输入音频转换为潜在表示,然后通过FSQ进行量化,得到离散的代码序列。这些代码序列通过信道传输到解码器,解码器将代码序列转换回音频信号。为了提高鲁棒性,论文还采用了编码器蒸馏技术,训练多个编码器,并鼓励它们学习不同的编码方式。
关键创新:论文的关键创新在于将有限标量量化(FSQ)应用于神经音频编码,并利用其内在的冗余性来提高抗噪能力。此外,通过编码器蒸馏,进一步增加了编码的多样性,使得系统对信道噪声更加鲁棒。与传统的RVQ方法相比,FSQ简化了训练过程,并且天然支持单码本,更易于实现和部署。
关键设计:在FSQ量化器的设计上,论文可能采用了均匀量化或非均匀量化,具体细节未知。编码器和解码器通常采用卷积神经网络或Transformer结构。损失函数可能包括重建损失(例如L1或L2损失)以及对抗损失或感知损失,以提高重建音频的质量。编码器蒸馏的具体实现方式未知,可能涉及到知识蒸馏或集成学习等技术。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于FSQ的NeuCodec在噪声信道下的比特级扰动鲁棒性显著优于基于RVQ的编解码器。通过编码器蒸馏,不同的编码器可以学习到不同的代码序列,同时保持相当的重建质量,进一步验证了FSQ的冗余性和鲁棒性。具体的性能提升数据未知。
🎯 应用场景
该研究成果可应用于对传输可靠性要求较高的音频通信场景,例如无线通信、卫星通信等。此外,该技术还可以用于音频存储,在有限存储空间下,保证音频数据的鲁棒性。未来,该技术有望与语音识别、语音合成等任务结合,提升在噪声环境下的性能。
📄 摘要(原文)
Neural Audio Codecs (NACs) have become increasingly adopted in speech processing tasks due to their excellent rate-distortion performance and compatibility with Large Language Models (LLMs) as discrete feature representations for audio generation. While most existing codecs rely on Residual Vector Quantization (RVQ), Finite Scalar Quantization (FSQ) has recently emerged as a compelling alternative that simplifies training and natively supports single codebooks. We introduce NeuCodec, an FSQ-based NAC, and show that FSQ encodes baked-in redundancy which produces an encoding which is robust when transmitted through noisy channels. First, through an encoder distillation experiment, we show that two different encoders can learn to encode identical audio into vastly different code sequences whilst maintaining comparable reconstruction quality with the same quantizer and decoder. Second, we demonstrate that FSQ has vastly superior bit-level perturbation robustness by comparing the performance of RVQ and FSQ codecs when simulating the transmission of code sequences through a noisy channel.