Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

作者: Luis Felipe Chary, Miguel Arjona Ramirez

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-09-02

💡 一句话要点

提出一种基于2D块量化VQ-VAE和HiFi-GAN的神经语音编码方法，简化了残差量化流程。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 神经语音编码 向量量化 VQ-VAE HiFi-GAN 梅尔频谱图 低延迟 语音合成

📋 核心要点

现有神经语音编码器依赖复杂的残差向量量化(RVQ)堆栈，增加了计算复杂度和延迟。
该论文提出一种基于2D块量化的VQ-VAE，直接在梅尔频谱图上操作，简化了量化流程。
实验结果表明，该方法在7.5 kbits/s码率下，实现了与现有方法相当的感知质量和可懂度。

📝 摘要（中文）

本文提出了一种神经语音编码器，通过引入更简单的单阶段量化方法，挑战了对复杂残差向量量化(RVQ)堆栈的需求。该方法直接作用于梅尔频谱图，将其视为2D数据，并将非重叠的4x4块量化到单个共享码本中。这种分块设计简化了架构，实现了低延迟流传输，并产生了一个离散的潜在网格。为了确保高保真合成，我们对VQ-VAE进行了后期的对抗微调，并从头开始在编解码器重建的频谱图上训练HiFi-GAN声码器。在16 kHz语音下，该系统以大约7.5 kbits/s的速率运行，并使用STOI、PESQ、MCD和ViSQOL等客观指标与几种最先进的神经编解码器进行了评估。结果表明，我们简化的非残差架构实现了具有竞争力的感知质量和可理解性，验证了其作为未来低延迟编解码器设计的有效和开放的基础。

🔬 方法详解

问题定义：现有的神经语音编码器通常采用复杂的残差向量量化（RVQ）堆栈来实现高压缩率和高质量的语音重建。然而，这些RVQ堆栈增加了计算复杂度，引入了额外的延迟，并且需要大量的训练数据。因此，如何设计一种更简单、更高效的神经语音编码器，同时保持良好的语音质量和可懂度，是一个重要的研究问题。

核心思路：该论文的核心思路是将梅尔频谱图视为二维图像数据，并采用图像压缩领域常用的块量化方法。具体来说，将频谱图分割成非重叠的4x4小块，然后将每个小块量化到共享的码本中。这种方法避免了复杂的RVQ堆栈，简化了量化过程，并降低了计算复杂度。同时，通过对抗训练和高质量的声码器，保证了重建语音的质量。

技术框架：该神经语音编码器的整体框架包括以下几个主要模块：1) VQ-VAE编码器：将梅尔频谱图编码为离散的潜在表示；2) 码本：存储量化后的码字；3) VQ-VAE解码器：将离散的潜在表示解码为重建的梅尔频谱图；4) HiFi-GAN声码器：将重建的梅尔频谱图合成为语音。训练过程包括VQ-VAE的训练和HiFi-GAN的训练。VQ-VAE的训练采用对抗训练的方式，以提高重建频谱图的质量。HiFi-GAN的训练则基于VQ-VAE重建的频谱图，以提高合成语音的自然度。

关键创新：该论文的关键创新在于将二维块量化方法引入到神经语音编码中。与传统的基于一维向量量化的方法相比，二维块量化能够更好地捕捉频谱图中的局部相关性，从而提高压缩效率和重建质量。此外，该方法避免了复杂的RVQ堆栈，简化了编码器的结构，降低了计算复杂度，并实现了低延迟流传输。

关键设计：在VQ-VAE的训练过程中，采用了对抗损失函数来提高重建频谱图的质量。具体来说，使用了一个判别器来区分重建的频谱图和真实的频谱图，并使用对抗损失来训练VQ-VAE的编码器和解码器。此外，为了提高合成语音的自然度，使用了HiFi-GAN声码器，并从头开始在VQ-VAE重建的频谱图上训练该声码器。码本大小和块大小是重要的超参数，论文中使用了4x4的块大小，并选择合适的码本大小以平衡压缩率和重建质量。

🖼️ 关键图片

📊 实验亮点

该系统在16kHz语音下，以约7.5 kbits/s的码率运行，并使用STOI、PESQ、MCD和ViSQOL等客观指标与多个最先进的神经编解码器进行了评估。实验结果表明，该方法在感知质量和可懂度方面具有竞争力，验证了其作为未来低延迟编解码器设计的有效性。

🎯 应用场景

该研究成果可应用于低比特率语音通信、语音存储、语音加密等领域。尤其在对延迟敏感的应用场景，如实时语音通话、在线游戏等，该方法具有显著优势。未来，该技术有望进一步发展，应用于更广泛的语音处理任务，例如语音增强、语音识别等。

📄 摘要（原文）

We present a neural speech codec that challenges the need for complex residual vector quantization (RVQ) stacks by introducing a simpler, single-stage quantization approach. Our method operates directly on the mel-spectrogram, treating it as a 2D data and quantizing non-overlapping 4x4 patches into a single, shared codebook. This patchwise design simplifies the architecture, enables low-latency streaming, and yields a discrete latent grid. To ensure high-fidelity synthesis, we employ a late-stage adversarial fine-tuning for the VQ-VAE and train a HiFi-GAN vocoder from scratch on the codec's reconstructed spectrograms. Operating at approximately 7.5 kbits/s for 16 kHz speech, our system was evaluated against several state-of-the-art neural codecs using objective metrics such as STOI, PESQ, MCD, and ViSQOL. The results demonstrate that our simplified, non-residual architecture achieves competitive perceptual quality and intelligibility, validating it as an effective and open foundation for future low-latency codec designs.

Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理