ArcVQ-VAE: A Spherical Vector Quantization Framework with ArcCosine Additive Margin
作者: Jaeyung Kim, YoungJoon Yoo
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-05-13
备注: To appear in Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
🔗 代码/项目: GITHUB
💡 一句话要点
提出ArcVQ-VAE,通过球形向量量化框架提升图像建模中离散表示的质量。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 向量量化 变分自编码器 离散表示学习 图像建模 角度裕度损失
📋 核心要点
- VQ-VAE受限于码本容量,难以捕捉图像中丰富多样的信息,限制了其表示能力。
- ArcVQ-VAE引入球形角度裕度先验(SAMP),约束码本向量并鼓励潜在向量间的角度分离。
- 实验表明,ArcVQ-VAE在图像重建精度、表示多样性和样本质量上均表现出竞争力。
📝 摘要(中文)
向量量化变分自编码器(VQ-VAE)已成为图像建模中学习离散表示的基础框架。然而,VQ-VAE模型必须使用有限的码本向量来标记整个图像,这种容量限制了它们捕获丰富和多样化表示的能力。本文提出ArcCosine Additive Margin VQ-VAE (ArcVQ-VAE),这是一种新颖的向量量化框架,它为传统VQ-VAE的码本引入了球形角度裕度先验(SAMP)。所提出的SAMP包括球边界范数正则化,它将所有码本向量约束在随时间变化的欧几里得球内,以及ArcCosine加性裕度损失,它鼓励潜在向量之间更大的角度可分离性。这种公式促进了在约束空间内更具区分性和均匀分散的潜在表示,从而提高了有效的潜在空间覆盖率,并提高了码本利用率。在标准图像重建和生成任务上的实验结果表明,ArcVQ-VAE在重建精度、表示多样性和样本质量方面实现了与基线模型相比具有竞争力的性能。代码可在https://github.com/goals4292/ArcVQ-VAE获取。
🔬 方法详解
问题定义:VQ-VAE在图像建模中需要将图像编码为离散的码本向量,但有限的码本容量限制了模型捕捉图像丰富细节和多样性的能力。现有方法难以在有限的码本空间内实现高效的表示学习,导致重建质量和生成样本的多样性受限。
核心思路:ArcVQ-VAE的核心思路是通过引入球形角度裕度先验(SAMP)来约束和优化码本向量。SAMP包含两个关键部分:球边界范数正则化和ArcCosine加性裕度损失。前者限制码本向量的范数,后者鼓励潜在向量在角度上的可分离性。通过这种方式,模型能够更有效地利用码本空间,学习到更具区分性和均匀分布的潜在表示。
技术框架:ArcVQ-VAE的整体框架基于标准的VQ-VAE架构,包括编码器、码本和解码器。编码器将输入图像映射到潜在空间,然后通过向量量化操作将潜在向量映射到码本中的最近邻向量。解码器则将量化后的码本向量重构为图像。ArcVQ-VAE的关键改进在于码本的学习过程,通过SAMP来约束和优化码本向量。
关键创新:ArcVQ-VAE最重要的技术创新在于引入了球形角度裕度先验(SAMP)。与传统的VQ-VAE相比,SAMP能够更有效地利用码本空间,学习到更具区分性和均匀分布的潜在表示。这使得模型能够更好地捕捉图像的细节和多样性,从而提高重建质量和生成样本的多样性。
关键设计:ArcVQ-VAE的关键设计包括:1) 球边界范数正则化,使用时变的欧几里得球来约束码本向量的范数,防止码本向量过大或过小;2) ArcCosine加性裕度损失,使用ArcCosine函数来计算潜在向量之间的角度距离,并添加裕度项来鼓励角度分离;3) 损失函数的设计,综合考虑了重建损失、量化损失和SAMP损失,以平衡重建质量和码本的优化。
🖼️ 关键图片
📊 实验亮点
ArcVQ-VAE在图像重建和生成任务上取得了有竞争力的结果。与基线VQ-VAE模型相比,ArcVQ-VAE在重建精度、表示多样性和样本质量方面均有所提升。实验结果表明,所提出的球形角度裕度先验能够有效地提高码本的利用率,并学习到更具区分性的潜在表示。
🎯 应用场景
ArcVQ-VAE可应用于图像压缩、图像生成、图像编辑等领域。通过学习更有效的离散表示,可以实现更高质量的图像重建和更逼真的图像生成。此外,该方法还可以应用于其他模态的数据,如音频和视频,以学习更有效的离散表示。
📄 摘要(原文)
Vector Quantized Variational Autoencoder (VQ-VAE) has become a fundamental framework for learning discrete representations in image modeling. However, VQ-VAE models must tokenize entire images using a finite set of codebook vectors, and this capacity limitation restricts their ability to capture rich and diverse representations. In this paper, we propose ArcCosine Additive Margin VQ-VAE (ArcVQ-VAE), a novel vector quantization framework that introduces a spherical angular-margin prior (SAMP) for the codebook of a conventional VQ-VAE. The proposed SAMP consists of Ball-Bounded Norm Regularization, which constrains all codebook vectors within a time-dependent Euclidean ball, and ArcCosine Additive Margin Loss, which encourages greater angular separability among latent vectors. This formulation promotes more discriminative and uniformly dispersed latent representations within the constrained space, thereby improving effective latent-space coverage and leading to improved codebook utilization. Experimental results on standard image reconstruction and generation tasks show that ArcVQ-VAE achieves competitive performance against baseline models in terms of reconstruction accuracy, representation diversity, and sample quality. The code is available at: https://github.com/goals4292/ArcVQ-VAE