GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting
作者: Jiajun Dong, Chengkun Wang, Wenzhao Zheng, Lei Chen, Jiwen Lu, Yansong Tang
分类: cs.CV, cs.AI
发布日期: 2025-01-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出GaussianToken,利用2D高斯溅射增强图像Tokenizer的表征能力。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 图像Tokenizer 2D高斯溅射 向量量化 图像重建 多模态学习
📋 核心要点
- 现有图像Tokenizer依赖向量量化,受限于离散码本空间,表达能力不足。
- GaussianToken将图像编码为2D高斯分布,并量化高斯特征,提升表征能力。
- 在多个数据集上,GaussianToken实现了有竞争力的图像重建性能,验证了其有效性。
📝 摘要(中文)
本文提出GaussianToken,一种基于2D高斯溅射的有效图像Tokenizer。现有方法通常采用向量量化(VQ)将像素投影到离散码本并从中重建图像。然而,与连续潜在空间相比,有限的离散码本空间严重限制了这些图像Tokenizer的表征能力。GaussianToken将编码后的样本表示为多个灵活的特征化2D高斯分布,这些高斯分布由位置、旋转角度、缩放因子和特征系数表征。对高斯特征进行标准量化,并将量化结果与其他内在高斯参数连接,然后进行相应的溅射操作和后续解码模块。GaussianToken将2D高斯分布的局部影响集成到离散空间中,从而增强了图像Tokenizer的表征能力。在CIFAR、Mini-ImageNet和ImageNet-1K上的实验结果表明了该框架的有效性。
🔬 方法详解
问题定义:现有图像Tokenizer主要依赖于向量量化(VQ),将图像像素投影到离散的码本空间中。这种方法的瓶颈在于离散码本空间的容量有限,无法充分表达图像的复杂信息,导致图像重建质量受限。现有方法难以在离散表示和连续信息之间取得平衡。
核心思路:GaussianToken的核心思路是将图像编码为多个2D高斯分布的集合,每个高斯分布都具有位置、旋转、缩放和特征系数等参数。通过这种方式,图像的信息被分散到多个高斯分布中,从而避免了单一码本容量的限制。同时,对高斯特征进行量化,使得模型可以与离散文本数据对齐。
技术框架:GaussianToken的整体框架包括编码器、高斯参数估计器、量化器、溅射(Splatting)操作和解码器。首先,编码器将图像转换为潜在表示。然后,高斯参数估计器从潜在表示中预测每个高斯分布的位置、旋转角度、缩放因子和特征系数。接着,对高斯特征系数进行量化。之后,将量化后的特征系数与其他高斯参数一起输入到溅射操作中,将高斯分布渲染回图像空间。最后,解码器从渲染后的图像中重建原始图像。
关键创新:GaussianToken的关键创新在于使用2D高斯溅射来表示图像,并将高斯分布的局部影响集成到离散空间中。与传统的VQ方法相比,GaussianToken能够更有效地利用连续信息,从而提高图像的表征能力。此外,通过对高斯特征进行量化,GaussianToken可以方便地与离散文本数据对齐。
关键设计:GaussianToken的关键设计包括:1) 使用MLP网络来预测高斯参数;2) 使用标准量化方法对高斯特征进行量化;3) 使用可微分的溅射操作,以便进行端到端训练;4) 使用重建损失函数来优化模型参数。具体的参数设置(如高斯分布的数量、量化码本的大小等)需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
GaussianToken在CIFAR、Mini-ImageNet和ImageNet-1K等数据集上取得了有竞争力的图像重建性能,证明了其有效性。具体而言,GaussianToken在重建图像质量方面优于或接近于现有的VQ方法,同时具有更强的表征能力。实验结果表明,GaussianToken能够有效地将图像信息编码为离散的token序列,并从中重建高质量的图像。
🎯 应用场景
GaussianToken作为一种有效的图像Tokenizer,可以应用于多模态理解和生成任务,例如图像描述、视觉问答、文本到图像生成等。它能够将图像信息转换为离散的token序列,从而方便与文本数据进行对齐和融合。该研究有望推动多模态人工智能的发展,并为各种实际应用提供更强大的技术支持。
📄 摘要(原文)
Effective image tokenization is crucial for both multi-modal understanding and generation tasks due to the necessity of the alignment with discrete text data. To this end, existing approaches utilize vector quantization (VQ) to project pixels onto a discrete codebook and reconstruct images from the discrete representation. However, compared with the continuous latent space, the limited discrete codebook space significantly restrict the representational ability of these image tokenizers. In this paper, we propose GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting as a solution. We first represent the encoded samples as multiple flexible featured 2D Gaussians characterized by positions, rotation angles, scaling factors, and feature coefficients. We adopt the standard quantization for the Gaussian features and then concatenate the quantization results with the other intrinsic Gaussian parameters before the corresponding splatting operation and the subsequent decoding module. In general, GaussianToken integrates the local influence of 2D Gaussian distribution into the discrete space and thus enhances the representation capability of the image tokenizer. Competitive reconstruction performances on CIFAR, Mini-ImageNet, and ImageNet-1K demonstrate the effectiveness of our framework. Our code is available at: https://github.com/ChrisDong-THU/GaussianToken.