Object-Centric Pretraining via Target Encoder Bootstrapping

📄 arXiv: 2503.15141v1 📥 PDF

作者: Nikola Đukić, Tim Lebailly, Tinne Tuytelaars

分类: cs.CV

发布日期: 2025-03-19

备注: ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出OCEBO,通过目标编码器自举实现面向对象表征的预训练,无需依赖非对象中心预训练模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面向对象表征学习 自监督学习 目标编码器自举 Slot Attention 无监督对象发现

📋 核心要点

  1. 现有的面向对象表征学习依赖于非对象中心的预训练模型,限制了性能上限,且更新目标编码器会导致性能下降。
  2. OCEBO通过自举更新目标编码器,使其具备面向对象的归纳偏置,并使用跨视角patch过滤缓解槽坍塌问题。
  3. 在COCO数据集上预训练后,OCEBO在无监督对象发现任务上取得了与依赖大规模非对象中心预训练模型的方法相当的性能。

📝 摘要(中文)

本文提出了一种名为Object-CEntric Pretraining by Target Encoder BOotstrapping (OCEBO) 的方法,旨在从头开始在真实世界数据上训练面向对象的模型。该方法采用自蒸馏框架,通过指数移动平均更新目标编码器,使其具备由Slot Attention引入的面向对象的归纳偏置,从而克服了以往方法中目标编码器固定导致的性能上限。为了缓解目标编码器随机初始化导致的槽坍塌问题,本文提出了一种新颖的跨视角patch过滤方法,将监督限制在信息量充足的patch上。在COCO数据集的241k图像上预训练后,OCEBO实现了与使用在数亿图像上预训练的非对象中心目标编码器的面向对象模型相当的无监督对象发现性能。代码和预训练模型已公开。

🔬 方法详解

问题定义:现有面向对象表征学习方法依赖于预训练的非对象中心模型,这些模型通常在大规模数据集上训练。然而,这些预训练模型的目标编码器在训练过程中必须保持冻结,这限制了面向对象模型能够达到的性能上限。尝试更新目标编码器会导致性能显著下降,因为它们缺乏面向对象的归纳偏置,导致面向对象模型的编码器偏离作为重建目标有用的表征。

核心思路:OCEBO的核心思想是通过自蒸馏的方式,从头开始训练面向对象的模型,并动态更新目标编码器。具体来说,目标编码器是面向对象模型的编码器的指数移动平均(EMA),从而使其逐渐具备面向对象的归纳偏置。这种自举的方式允许目标编码器不断学习,避免了固定目标编码器带来的性能瓶颈。

技术框架:OCEBO的整体框架包含一个面向对象的模型(例如,基于Slot Attention的模型)和一个目标编码器。面向对象模型接收输入图像,并将其分解为一组对象槽(slots)。目标编码器也接收相同的输入图像,并生成一个目标表征。面向对象模型的任务是重建目标编码器的输出。目标编码器通过面向对象模型的编码器的EMA进行更新。

关键创新:OCEBO的关键创新在于目标编码器的自举更新机制和跨视角patch过滤方法。自举更新机制允许目标编码器学习面向对象的归纳偏置,从而提高模型的性能。跨视角patch过滤方法缓解了目标编码器随机初始化导致的槽坍塌问题,通过只监督信息量充足的图像区域,稳定了训练过程。

关键设计:OCEBO的关键设计包括:1) 使用Slot Attention作为面向对象模型的基础架构;2) 使用指数移动平均(EMA)更新目标编码器,EMA的衰减率是一个重要的超参数;3) 引入跨视角patch过滤,选择信息量大的图像区域进行监督,具体实现方式未知;4) 使用重建损失作为主要的训练目标,鼓励面向对象模型学习重建目标编码器的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OCEBO在COCO数据集的241k图像上预训练后,实现了与使用在数亿图像上预训练的非对象中心目标编码器的面向对象模型相当的无监督对象发现性能。这表明OCEBO能够有效地从头开始学习面向对象的表征,无需依赖大规模的非对象中心预训练数据。具体的性能指标和对比基线未知。

🎯 应用场景

OCEBO的潜在应用领域包括计算机视觉中的无监督对象发现、场景理解、机器人导航和交互等。该方法可以用于训练自主学习的机器人,使其能够理解和操作周围环境中的物体。此外,OCEBO还可以应用于图像编辑、视频分析等领域,提高相关任务的性能和效率。未来,该方法有望推动人工智能在真实世界场景中的应用。

📄 摘要(原文)

Object-centric representation learning has recently been successfully applied to real-world datasets. This success can be attributed to pretrained non-object-centric foundation models, whose features serve as reconstruction targets for slot attention. However, targets must remain frozen throughout the training, which sets an upper bound on the performance object-centric models can attain. Attempts to update the target encoder by bootstrapping result in large performance drops, which can be attributed to its lack of object-centric inductive biases, causing the object-centric model's encoder to drift away from representations useful as reconstruction targets. To address these limitations, we propose Object-CEntric Pretraining by Target Encoder BOotstrapping, a self-distillation setup for training object-centric models from scratch, on real-world data, for the first time ever. In OCEBO, the target encoder is updated as an exponential moving average of the object-centric model, thus explicitly being enriched with object-centric inductive biases introduced by slot attention while removing the upper bound on performance present in other models. We mitigate the slot collapse caused by random initialization of the target encoder by introducing a novel cross-view patch filtering approach that limits the supervision to sufficiently informative patches. When pretrained on 241k images from COCO, OCEBO achieves unsupervised object discovery performance comparable to that of object-centric models with frozen non-object-centric target encoders pretrained on hundreds of millions of images. The code and pretrained models are publicly available at https://github.com/djukicn/ocebo.