Are We Done with Object-Centric Learning?
作者: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-04-09 (更新: 2025-04-10)
🔗 代码/项目: GITHUB
💡 一句话要点
利用分割模型实现目标中心化学习,并提出OCCAM探究其泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 目标中心化学习 分布外泛化 对象分割 表征学习 无监督学习
📋 核心要点
- 现有目标中心化学习方法依赖于无监督槽分配,在复杂场景中分离对象的能力有限,泛化性不足。
- 论文提出利用样本高效的分割模型,在像素空间中分离对象并独立编码,实现更精确的目标中心化表征。
- 实验表明,基于分割的编码方法在分布外泛化任务中显著优于基于槽的方法,但实际应用仍面临挑战。
📝 摘要(中文)
目标中心化学习(OCL)旨在学习仅编码单个对象的表征,将对象从场景中的其他对象或背景线索中隔离。这种方法支撑着各种目标,包括分布外(OOD)泛化、样本高效组合和结构化环境建模。目前的研究主要集中在开发无监督机制,将对象分离到表征空间中的离散槽中,并使用无监督对象发现进行评估。然而,随着最近样本高效分割模型的发展,我们可以在像素空间中分离对象并独立编码它们。这在OOD对象发现基准测试中实现了显著的零样本性能,可扩展到基础模型,并且可以开箱即用地处理可变数量的槽。因此,OCL方法获得目标中心化表征的目标已基本实现。尽管取得了这些进展,但一个关键问题仍然存在:在场景中分离对象的能力如何促进更广泛的OCL目标,例如OOD泛化?我们通过OCL的视角,研究由虚假背景线索引起的OOD泛化挑战。我们提出了一种新颖的、无需训练的探针,称为应用掩码的目标中心化分类(OCCAM),表明基于分割的单个对象编码显著优于基于槽的OCL方法。然而,实际应用中的挑战仍然存在。我们为OCL社区提供了一个工具箱,以使用可扩展的目标中心化表征,并专注于实际应用和基本问题,例如理解人类认知中的对象感知。
🔬 方法详解
问题定义:论文旨在解决目标中心化学习中,现有方法在分布外(OOD)泛化方面表现不佳的问题。现有方法,特别是基于槽(slot-based)的无监督方法,在处理复杂场景和虚假背景线索时,难以准确分离和表征单个对象,导致泛化能力受限。
核心思路:论文的核心思路是利用近年来发展迅速的、样本高效的分割模型,直接在像素空间中将不同的对象分割出来,然后对每个分割出来的对象进行独立编码。这种方法避免了无监督槽分配的复杂性和局限性,能够更准确地提取目标对象的特征,从而提高OOD泛化能力。
技术框架:论文提出的方法主要包含两个阶段:1) 使用预训练的分割模型(如Mask R-CNN)对输入图像进行分割,得到每个对象的像素掩码;2) 使用这些掩码将图像中的每个对象裁剪出来,然后使用编码器(如ResNet)对每个对象进行独立编码,得到目标中心化的表征。此外,论文还提出了一个名为OCCAM (Object-Centric Classification with Applied Masks) 的探针,用于评估不同目标中心化表征的OOD泛化能力。OCCAM通过将分割掩码应用于图像,然后进行分类,来衡量模型对目标对象的关注程度和对背景线索的鲁棒性。
关键创新:论文的关键创新在于将样本高效的分割模型引入到目标中心化学习中,并证明了基于分割的编码方法在OOD泛化方面优于传统的基于槽的方法。此外,OCCAM探针提供了一种新的、无需训练的方式来评估目标中心化表征的质量。
关键设计:OCCAM探针的关键设计在于使用分割掩码来隔离目标对象,并评估模型在仅关注目标对象时的分类性能。具体来说,OCCAM首先使用分割模型生成对象的掩码,然后将掩码应用于原始图像,得到仅包含目标对象的图像区域。最后,使用预训练的分类器对这些图像区域进行分类,并计算分类准确率。通过比较使用不同目标中心化表征的分类准确率,可以评估这些表征的OOD泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于分割的编码方法在OOD对象发现基准测试中实现了显著的零样本性能,并且在OCCAM探针的评估中,显著优于基于槽的OCL方法。具体来说,基于分割的方法在OOD分类准确率上取得了显著提升,表明其对虚假背景线索具有更强的鲁棒性。代码已开源。
🎯 应用场景
该研究成果可应用于机器人视觉、自动驾驶、图像编辑等领域。通过更准确地分离和表征场景中的对象,可以提高机器人对环境的理解和交互能力,增强自动驾驶系统的鲁棒性,并实现更灵活的图像编辑功能。未来,该方法有望应用于更复杂的场景和任务,例如视频理解、三维重建等。
📄 摘要(原文)
Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called Object-Centric Classification with Applied Masks (OCCAM), demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available here: https://github.com/AlexanderRubinstein/OCCAM.