DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick
作者: Mohammad Hassan Vali, Tom Bäckström, Arno Solin
分类: cs.LG
发布日期: 2025-09-30
💡 一句话要点
提出DiVeQ,利用重参数化技巧实现可微向量量化,提升VQ-VAE和VQGAN性能。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 向量量化 可微量化 重参数化技巧 VQ-VAE VQGAN 端到端训练 生成模型
📋 核心要点
- 传统向量量化硬分配阻断梯度,限制了深度模型端到端训练的性能。
- DiVeQ将量化视为添加误差向量,模拟量化失真,实现梯度反向传播。
- DiVeQ及其空间填充变体SF-DiVeQ,在VQ-VAE和VQGAN任务上提升了重建和生成质量。
📝 摘要(中文)
向量量化在深度模型中应用广泛,但其硬分配方式阻碍了梯度传播,影响端到端训练。本文提出了DiVeQ,将量化视为添加一个模仿量化失真的误差向量,在保持前向传播硬分配的同时,允许梯度流动。此外,还提出了一种空间填充变体(SF-DiVeQ),它分配到由码字连接线构建的曲线上,从而减少量化误差并充分利用码本。这两种方法都可以在不需要辅助损失或温度调度的情况下进行端到端训练。在各种数据集上的VQ-VAE压缩和VQGAN生成任务中,它们比其他量化方法提高了重建质量和样本质量。
🔬 方法详解
问题定义:论文旨在解决向量量化中硬分配导致的梯度消失问题,该问题阻碍了VQ-VAE和VQGAN等模型进行有效的端到端训练。现有方法通常需要辅助损失或温度调度等技巧来缓解这个问题,但这些方法增加了训练的复杂性,并且可能无法达到最优性能。
核心思路:DiVeQ的核心思想是将量化过程建模为添加一个误差向量,该误差向量模拟了量化带来的失真。通过这种方式,前向传播仍然执行硬量化,但反向传播可以通过误差向量流动梯度,从而实现可微的量化操作。这种设计允许模型在端到端训练中优化量化码本,而无需额外的辅助损失或温度调整。
技术框架:DiVeQ的整体框架可以概括为以下几个步骤:1. 输入特征经过编码器得到潜在表示。2. 对潜在表示进行向量量化,使用码本中的最近邻码字进行替换。3. 在DiVeQ中,量化过程被建模为添加一个误差向量,该向量是潜在表示与最近邻码字之间的差值。4. 解码器接收量化后的表示,并重建输入。5. 模型通过最小化重建损失进行端到端训练,梯度可以通过误差向量反向传播到编码器和码本。
关键创新:DiVeQ的关键创新在于其可微的量化方法,它通过将量化建模为添加误差向量,绕过了硬分配带来的梯度消失问题。与现有方法相比,DiVeQ不需要辅助损失或温度调度,简化了训练过程,并提高了性能。SF-DiVeQ进一步创新,通过空间填充曲线连接码本,减少量化误差,并充分利用码本空间。
关键设计:DiVeQ的关键设计包括:1. 使用最近邻搜索进行硬量化,保证前向传播的效率。2. 将量化误差建模为误差向量,允许梯度通过误差向量反向传播。3. SF-DiVeQ使用连接码字的曲线进行量化,减少量化误差。损失函数主要为重建损失,用于优化编码器、解码器和码本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DiVeQ在VQ-VAE压缩和VQGAN生成任务中,优于其他量化方法。在多个数据集上,DiVeQ及其空间填充变体SF-DiVeQ均实现了更高的重建质量和更好的样本质量。具体性能提升数据在论文中给出,证明了DiVeQ在向量量化方面的有效性。
🎯 应用场景
DiVeQ可应用于图像和音频压缩、生成模型、以及其他需要向量量化的深度学习任务中。其端到端可训练的特性,简化了模型训练流程,并能提升模型性能。该方法在数据压缩、图像生成、语音合成等领域具有广泛的应用前景,并可能促进相关技术的进一步发展。
📄 摘要(原文)
Vector quantization is common in deep models, yet its hard assignments block gradients and hinder end-to-end training. We propose DiVeQ, which treats quantization as adding an error vector that mimics the quantization distortion, keeping the forward pass hard while letting gradients flow. We also present a space-filling variant (SF-DiVeQ) that assigns to a curve constructed by the lines connecting codewords, resulting in less quantization error and full codebook usage. Both methods train end-to-end without requiring auxiliary losses or temperature schedules. On VQ-VAE compression and VQGAN generation across various data sets, they improve reconstruction and sample quality over alternative quantization approaches.