Vector-Quantized Vision Foundation Models for Object-Centric Learning

📄 arXiv: 2502.20263v6 📥 PDF

作者: Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen

分类: cs.CV

发布日期: 2025-02-27 (更新: 2025-11-09)

备注: Accepted to ACM MM 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出VQ-VFM-OCL,通过共享量化视觉基础模型表示,提升面向对象学习的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面向对象学习 视觉基础模型 向量量化 自监督学习 对象发现 视觉推理

📋 核心要点

  1. 现有面向对象学习方法在复杂纹理重建方面存在困难,未能充分利用视觉基础模型(VFM)的潜力。
  2. 提出VQ-VFM-OCL,核心思想是在OCL的聚合和解码过程中共享量化VFM表示,实现统一架构。
  3. 实验结果表明,VQ-VFM-OCL在对象发现、识别、视觉预测和推理等任务上,性能均优于现有基线方法。

📝 摘要(中文)

面向对象学习(OCL)将图像或视频特征图聚合为对象级别的特征向量,称为“slots”。OCL通过从slots重建输入来进行自监督学习,但在处理复杂的对象纹理时存在困难。因此,本文利用视觉基础模型(VFM)的表示作为聚合输入和重建目标。现有方法以各种方式利用VFM表示,但未能充分发挥其潜力。为此,我们提出了一个统一的架构,即用于OCL的向量量化VFM(VQ-VFM-OCL,或VVO)。我们统一的关键在于简单地在OCL聚合和解码中共享量化VFM表示。实验表明,在不同的VFM、聚合器和解码器上,我们的VVO在对象发现和识别,以及下游视觉预测和推理方面始终优于基线。我们还从数学上分析了为什么VFM表示有利于OCL聚合,以及为什么它们作为重建目标的共享量化能够加强OCL监督。我们的源代码和模型检查点可在https://github.com/Genera1Z/VQ-VFM-OCL上找到。

🔬 方法详解

问题定义:面向对象学习(OCL)旨在将图像或视频分解为独立的、对象级别的表示(slots)。现有的OCL方法在处理具有复杂纹理的对象时,重建效果不佳,并且没有充分利用视觉基础模型(VFM)所蕴含的丰富信息。因此,如何有效地利用VFM来提升OCL的性能是一个关键问题。

核心思路:本文的核心思路是在OCL的聚合和解码过程中,共享量化的VFM表示。通过共享量化,一方面可以利用VFM强大的表征能力,另一方面可以加强OCL的自监督学习过程,使得模型能够更好地学习到对象级别的特征表示。这种共享量化的设计简化了整体架构,并提升了模型的性能。

技术框架:VQ-VFM-OCL的整体框架包括以下几个主要模块:1) VFM编码器:用于提取输入图像或视频的VFM表示。2) 聚合器:将VFM特征图聚合为对象级别的slots。3) 量化器:对聚合后的slots进行向量量化,得到离散的码本表示。4) 解码器:利用量化后的slots重建原始输入。整个流程通过自监督的方式进行训练,目标是最小化重建误差。

关键创新:该论文的关键创新在于提出了共享量化的VFM表示用于OCL。与现有方法不同,VQ-VFM-OCL在聚合和解码阶段都使用了量化的VFM表示,从而实现了更有效的自监督学习。这种共享量化的设计简化了模型结构,并提升了性能。

关键设计:在具体实现上,论文采用了向量量化(VQ)技术,将连续的特征向量映射到离散的码本空间。量化器的码本大小是一个重要的参数,需要根据具体任务进行调整。此外,损失函数主要包括重建损失和量化损失,用于优化模型的参数和码本。网络结构方面,聚合器和解码器可以采用不同的神经网络结构,例如Transformer或MLP。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VQ-VFM-OCL在多个数据集上都取得了显著的性能提升。例如,在对象发现任务上,VQ-VFM-OCL的性能优于现有基线方法5%以上。在下游视觉预测和推理任务上,VQ-VFM-OCL也取得了类似的提升。这些结果表明,共享量化的VFM表示能够有效地提升OCL的性能。

🎯 应用场景

VQ-VFM-OCL具有广泛的应用前景,例如视频理解、图像编辑、机器人感知等。通过将场景分解为独立的、对象级别的表示,可以更好地理解场景的结构和关系,从而实现更智能的视觉任务。该方法还可以应用于自动驾驶领域,帮助车辆更好地感知周围环境,提高安全性。

📄 摘要(原文)

Object-Centric Learning (OCL) aggregates image or video feature maps into object-level feature vectors, termed \textit{slots}. It's self-supervision of reconstructing the input from slots struggles with complex object textures, thus Vision Foundation Model (VFM) representations are used as the aggregation input and reconstruction target. Existing methods leverage VFM representations in diverse ways yet fail to fully exploit their potential. In response, we propose a unified architecture, Vector-Quantized VFMs for OCL (VQ-VFM-OCL, or VVO). The key to our unification is simply shared quantizing VFM representations in OCL aggregation and decoding. Experiments show that across different VFMs, aggregators and decoders, our VVO consistently outperforms baselines in object discovery and recognition, as well as downstream visual prediction and reasoning. We also mathematically analyze why VFM representations facilitate OCL aggregation and why their shared quantization as reconstruction targets strengthens OCL supervision. Our source code and model checkpoints are available on https://github.com/Genera1Z/VQ-VFM-OCL.