Finding Distributed Object-Centric Properties in Self-Supervised Transformers

作者: Samyak Rawlekar, Amitabh Swain, Yujun Cai, Yiwei Wang, Ming-Hsuan Yang, Narendra Ahuja

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM

发布日期: 2026-03-27

备注: Computer Vision and Pattern Recognition (CVPR) 2026

💡 一句话要点

提出Object-DINO，无需训练即可从自监督ViT中提取分布式对象中心属性，提升对象发现和多模态对齐。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 视觉Transformer 对象发现 多模态学习 视觉 grounding

📋 核心要点

现有自监督ViT的对象发现依赖[CLS] token，易受虚假激活干扰，导致对象定位不准。
Object-DINO通过分析ViT各层patch间注意力相似性，提取分布式对象中心信息，无需额外训练。
实验表明，Object-DINO显著提升无监督对象发现性能，并能有效缓解多模态LLM中的对象幻觉。

📝 摘要（中文）

自监督视觉Transformer（ViT），如DINO，展现出发现对象的涌现能力，这通常在最后一层的[CLS] token注意力图中观察到。然而，这些图通常包含虚假激活，导致对象定位不佳。这是因为[CLS] token在图像级别目标上训练，总结了整个图像，而不是专注于对象。这种聚合稀释了局部、patch级别交互中存在的对象中心信息。我们通过计算跨所有层的patch级别注意力组件（query、key和value）之间的patch间相似性来分析这一点。我们发现：（1）对象中心属性被编码在从所有三个组件（q、k、v）导出的相似性图中，这与仅使用key特征或[CLS] token的先前工作不同。（2）这种对象中心信息分布在整个网络中，而不仅仅局限于最后一层。基于这些见解，我们引入了Object-DINO，一种无需训练的方法，可以提取这种分布式对象中心信息。Object-DINO基于patches的相似性对所有层的注意力头进行聚类，并自动识别对应于所有对象的对象中心簇。我们通过两个应用证明了Object-DINO的有效性：增强无监督对象发现（CorLoc增益+3.6至+12.4）以及通过提供视觉基础来缓解多模态大型语言模型中的对象幻觉。我们的结果表明，使用这种分布式对象中心信息可以改善下游任务，而无需额外的训练。

🔬 方法详解

问题定义：现有自监督ViT模型，如DINO，在对象发现方面存在局限性。它们主要依赖于[CLS] token的注意力图来定位对象，但[CLS] token是对整个图像进行总结，容易受到背景噪声和虚假激活的影响，导致对象定位不准确。此外，现有方法通常只关注最后一层的特征，忽略了网络中其他层可能存在的对象中心信息。

核心思路：Object-DINO的核心思路是利用ViT网络中所有层的patch级别注意力信息，挖掘分布式的对象中心属性。作者认为，对象信息并非只存在于最后一层，而是分散在整个网络中，并且可以通过分析query、key和value之间的相似性来提取。通过对这些相似性进行聚类，可以识别出与不同对象对应的注意力头，从而实现更准确的对象发现。

技术框架：Object-DINO是一个训练自由的方法，其主要流程如下：1. 计算patch间相似性：对于ViT的每一层，计算query、key和value之间的patch间相似性矩阵。2. 注意力头聚类：基于patch间相似性矩阵，对所有层的注意力头进行聚类。3. 对象中心簇识别：自动识别与不同对象对应的对象中心簇。这个过程通常涉及一些启发式规则或阈值来区分不同的对象。4. 视觉 grounding：将提取的对象信息用于下游任务，例如增强无监督对象发现或缓解多模态LLM中的对象幻觉。

关键创新：Object-DINO的关键创新在于：1. 分布式对象中心信息提取：它不再局限于最后一层或[CLS] token，而是利用整个网络的patch级别注意力信息。2. 无需训练：Object-DINO是一种训练自由的方法，可以直接应用于预训练的ViT模型，无需额外的训练成本。3. 多组件分析：它同时考虑了query、key和value三个组件，而不仅仅是key特征或[CLS] token。

关键设计：Object-DINO的关键设计包括：1. 相似性度量：选择合适的相似性度量方法来计算patch间的相似性，例如余弦相似度。2. 聚类算法：选择合适的聚类算法来对注意力头进行聚类，例如K-means或谱聚类。3. 对象中心簇识别策略：设计有效的策略来自动识别与不同对象对应的对象中心簇，例如基于簇的大小或与其他簇的距离。

🖼️ 关键图片

📊 实验亮点

Object-DINO在无监督对象发现任务上取得了显著的性能提升，CorLoc指标提升了+3.6%到+12.4%。此外，Object-DINO还成功应用于缓解多模态LLM中的对象幻觉问题，证明了其在视觉 grounding 方面的有效性。这些结果表明，利用分布式对象中心信息可以显著改善下游任务，而无需额外的训练。

🎯 应用场景

Object-DINO具有广泛的应用前景，包括：1) 提升无监督对象发现的性能，无需人工标注即可自动发现图像中的对象。2) 缓解多模态大型语言模型中的对象幻觉问题，通过提供更准确的视觉 grounding，提高模型生成文本的可靠性。3) 机器人视觉，例如目标抓取和导航。未来，该方法可以扩展到视频理解、图像编辑等领域。

📄 摘要（原文）

Self-supervised Vision Transformers (ViTs) like DINO show an emergent ability to discover objects, typically observed in [CLS] token attention maps of the final layer. However, these maps often contain spurious activations resulting in poor localization of objects. This is because the [CLS] token, trained on an image-level objective, summarizes the entire image instead of focusing on objects. This aggregation dilutes the object-centric information existing in the local, patch-level interactions. We analyze this by computing inter-patch similarity using patch-level attention components (query, key, and value) across all layers. We find that: (1) Object-centric properties are encoded in the similarity maps derived from all three components ($q, k, v$), unlike prior work that uses only key features or the [CLS] token. (2) This object-centric information is distributed across the network, not just confined to the final layer. Based on these insights, we introduce Object-DINO, a training-free method that extracts this distributed object-centric information. Object-DINO clusters attention heads across all layers based on the similarities of their patches and automatically identifies the object-centric cluster corresponding to all objects. We demonstrate Object-DINO's effectiveness on two applications: enhancing unsupervised object discovery (+3.6 to +12.4 CorLoc gains) and mitigating object hallucination in Multimodal Large Language Models by providing visual grounding. Our results demonstrate that using this distributed object-centric information improves downstream tasks without additional training.

Finding Distributed Object-Centric Properties in Self-Supervised Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理