Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

📄 arXiv: 2509.02244v1 📥 PDF

作者: Luis Felipe Chary, Miguel Arjona Ramirez

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-09-02


💡 一句话要点

提出一种基于2D块量化VQ-VAE和HiFi-GAN的神经语音编码方法,简化了残差量化流程。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 神经语音编码 向量量化 VQ-VAE HiFi-GAN 梅尔频谱图 低延迟 语音合成

📋 核心要点

  1. 现有神经语音编码器依赖复杂的残差向量量化(RVQ)堆栈,增加了计算复杂度和延迟。
  2. 该论文提出一种基于2D块量化的VQ-VAE,直接在梅尔频谱图上操作,简化了量化流程。
  3. 实验结果表明,该方法在7.5 kbits/s码率下,实现了与现有方法相当的感知质量和可懂度。

📝 摘要(中文)

本文提出了一种神经语音编码器,通过引入更简单的单阶段量化方法,挑战了对复杂残差向量量化(RVQ)堆栈的需求。该方法直接作用于梅尔频谱图,将其视为2D数据,并将非重叠的4x4块量化到单个共享码本中。这种分块设计简化了架构,实现了低延迟流传输,并产生了一个离散的潜在网格。为了确保高保真合成,我们对VQ-VAE进行了后期的对抗微调,并从头开始在编解码器重建的频谱图上训练HiFi-GAN声码器。在16 kHz语音下,该系统以大约7.5 kbits/s的速率运行,并使用STOI、PESQ、MCD和ViSQOL等客观指标与几种最先进的神经编解码器进行了评估。结果表明,我们简化的非残差架构实现了具有竞争力的感知质量和可理解性,验证了其作为未来低延迟编解码器设计的有效和开放的基础。

🔬 方法详解

问题定义:现有的神经语音编码器通常采用复杂的残差向量量化(RVQ)堆栈来实现高压缩率和高质量的语音重建。然而,这些RVQ堆栈增加了计算复杂度,引入了额外的延迟,并且需要大量的训练数据。因此,如何设计一种更简单、更高效的神经语音编码器,同时保持良好的语音质量和可懂度,是一个重要的研究问题。

核心思路:该论文的核心思路是将梅尔频谱图视为二维图像数据,并采用图像压缩领域常用的块量化方法。具体来说,将频谱图分割成非重叠的4x4小块,然后将每个小块量化到共享的码本中。这种方法避免了复杂的RVQ堆栈,简化了量化过程,并降低了计算复杂度。同时,通过对抗训练和高质量的声码器,保证了重建语音的质量。

技术框架:该神经语音编码器的整体框架包括以下几个主要模块:1) VQ-VAE编码器:将梅尔频谱图编码为离散的潜在表示;2) 码本:存储量化后的码字;3) VQ-VAE解码器:将离散的潜在表示解码为重建的梅尔频谱图;4) HiFi-GAN声码器:将重建的梅尔频谱图合成为语音。训练过程包括VQ-VAE的训练和HiFi-GAN的训练。VQ-VAE的训练采用对抗训练的方式,以提高重建频谱图的质量。HiFi-GAN的训练则基于VQ-VAE重建的频谱图,以提高合成语音的自然度。

关键创新:该论文的关键创新在于将二维块量化方法引入到神经语音编码中。与传统的基于一维向量量化的方法相比,二维块量化能够更好地捕捉频谱图中的局部相关性,从而提高压缩效率和重建质量。此外,该方法避免了复杂的RVQ堆栈,简化了编码器的结构,降低了计算复杂度,并实现了低延迟流传输。

关键设计:在VQ-VAE的训练过程中,采用了对抗损失函数来提高重建频谱图的质量。具体来说,使用了一个判别器来区分重建的频谱图和真实的频谱图,并使用对抗损失来训练VQ-VAE的编码器和解码器。此外,为了提高合成语音的自然度,使用了HiFi-GAN声码器,并从头开始在VQ-VAE重建的频谱图上训练该声码器。码本大小和块大小是重要的超参数,论文中使用了4x4的块大小,并选择合适的码本大小以平衡压缩率和重建质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在16kHz语音下,以约7.5 kbits/s的码率运行,并使用STOI、PESQ、MCD和ViSQOL等客观指标与多个最先进的神经编解码器进行了评估。实验结果表明,该方法在感知质量和可懂度方面具有竞争力,验证了其作为未来低延迟编解码器设计的有效性。

🎯 应用场景

该研究成果可应用于低比特率语音通信、语音存储、语音加密等领域。尤其在对延迟敏感的应用场景,如实时语音通话、在线游戏等,该方法具有显著优势。未来,该技术有望进一步发展,应用于更广泛的语音处理任务,例如语音增强、语音识别等。

📄 摘要(原文)

We present a neural speech codec that challenges the need for complex residual vector quantization (RVQ) stacks by introducing a simpler, single-stage quantization approach. Our method operates directly on the mel-spectrogram, treating it as a 2D data and quantizing non-overlapping 4x4 patches into a single, shared codebook. This patchwise design simplifies the architecture, enables low-latency streaming, and yields a discrete latent grid. To ensure high-fidelity synthesis, we employ a late-stage adversarial fine-tuning for the VQ-VAE and train a HiFi-GAN vocoder from scratch on the codec's reconstructed spectrograms. Operating at approximately 7.5 kbits/s for 16 kHz speech, our system was evaluated against several state-of-the-art neural codecs using objective metrics such as STOI, PESQ, MCD, and ViSQOL. The results demonstrate that our simplified, non-residual architecture achieves competitive perceptual quality and intelligibility, validating it as an effective and open foundation for future low-latency codec designs.