Finding Distributed Object-Centric Properties in Self-Supervised Transformers

📄 arXiv: 2603.26127v1 📥 PDF

作者: Samyak Rawlekar, Amitabh Swain, Yujun Cai, Yiwei Wang, Ming-Hsuan Yang, Narendra Ahuja

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM

发布日期: 2026-03-27

备注: Computer Vision and Pattern Recognition (CVPR) 2026


💡 一句话要点

提出Object-DINO,无需训练即可从自监督ViT中提取分布式对象中心属性,提升对象发现和多模态对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 视觉Transformer 对象发现 多模态学习 视觉 grounding

📋 核心要点

  1. 现有自监督ViT的对象发现依赖[CLS] token,易受虚假激活干扰,导致对象定位不准。
  2. Object-DINO通过分析ViT各层patch间注意力相似性,提取分布式对象中心信息,无需额外训练。
  3. 实验表明,Object-DINO显著提升无监督对象发现性能,并能有效缓解多模态LLM中的对象幻觉。

📝 摘要(中文)

自监督视觉Transformer(ViT),如DINO,展现出发现对象的涌现能力,这通常在最后一层的[CLS] token注意力图中观察到。然而,这些图通常包含虚假激活,导致对象定位不佳。这是因为[CLS] token在图像级别目标上训练,总结了整个图像,而不是专注于对象。这种聚合稀释了局部、patch级别交互中存在的对象中心信息。我们通过计算跨所有层的patch级别注意力组件(query、key和value)之间的patch间相似性来分析这一点。我们发现:(1)对象中心属性被编码在从所有三个组件(q、k、v)导出的相似性图中,这与仅使用key特征或[CLS] token的先前工作不同。(2)这种对象中心信息分布在整个网络中,而不仅仅局限于最后一层。基于这些见解,我们引入了Object-DINO,一种无需训练的方法,可以提取这种分布式对象中心信息。Object-DINO基于patches的相似性对所有层的注意力头进行聚类,并自动识别对应于所有对象的对象中心簇。我们通过两个应用证明了Object-DINO的有效性:增强无监督对象发现(CorLoc增益+3.6至+12.4)以及通过提供视觉基础来缓解多模态大型语言模型中的对象幻觉。我们的结果表明,使用这种分布式对象中心信息可以改善下游任务,而无需额外的训练。

🔬 方法详解

问题定义:现有自监督ViT模型,如DINO,在对象发现方面存在局限性。它们主要依赖于[CLS] token的注意力图来定位对象,但[CLS] token是对整个图像进行总结,容易受到背景噪声和虚假激活的影响,导致对象定位不准确。此外,现有方法通常只关注最后一层的特征,忽略了网络中其他层可能存在的对象中心信息。

核心思路:Object-DINO的核心思路是利用ViT网络中所有层的patch级别注意力信息,挖掘分布式的对象中心属性。作者认为,对象信息并非只存在于最后一层,而是分散在整个网络中,并且可以通过分析query、key和value之间的相似性来提取。通过对这些相似性进行聚类,可以识别出与不同对象对应的注意力头,从而实现更准确的对象发现。

技术框架:Object-DINO是一个训练自由的方法,其主要流程如下:1. 计算patch间相似性:对于ViT的每一层,计算query、key和value之间的patch间相似性矩阵。2. 注意力头聚类:基于patch间相似性矩阵,对所有层的注意力头进行聚类。3. 对象中心簇识别:自动识别与不同对象对应的对象中心簇。这个过程通常涉及一些启发式规则或阈值来区分不同的对象。4. 视觉 grounding:将提取的对象信息用于下游任务,例如增强无监督对象发现或缓解多模态LLM中的对象幻觉。

关键创新:Object-DINO的关键创新在于:1. 分布式对象中心信息提取:它不再局限于最后一层或[CLS] token,而是利用整个网络的patch级别注意力信息。2. 无需训练:Object-DINO是一种训练自由的方法,可以直接应用于预训练的ViT模型,无需额外的训练成本。3. 多组件分析:它同时考虑了query、key和value三个组件,而不仅仅是key特征或[CLS] token。

关键设计:Object-DINO的关键设计包括:1. 相似性度量:选择合适的相似性度量方法来计算patch间的相似性,例如余弦相似度。2. 聚类算法:选择合适的聚类算法来对注意力头进行聚类,例如K-means或谱聚类。3. 对象中心簇识别策略:设计有效的策略来自动识别与不同对象对应的对象中心簇,例如基于簇的大小或与其他簇的距离。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Object-DINO在无监督对象发现任务上取得了显著的性能提升,CorLoc指标提升了+3.6%到+12.4%。此外,Object-DINO还成功应用于缓解多模态LLM中的对象幻觉问题,证明了其在视觉 grounding 方面的有效性。这些结果表明,利用分布式对象中心信息可以显著改善下游任务,而无需额外的训练。

🎯 应用场景

Object-DINO具有广泛的应用前景,包括:1) 提升无监督对象发现的性能,无需人工标注即可自动发现图像中的对象。2) 缓解多模态大型语言模型中的对象幻觉问题,通过提供更准确的视觉 grounding,提高模型生成文本的可靠性。3) 机器人视觉,例如目标抓取和导航。未来,该方法可以扩展到视频理解、图像编辑等领域。

📄 摘要(原文)

Self-supervised Vision Transformers (ViTs) like DINO show an emergent ability to discover objects, typically observed in [CLS] token attention maps of the final layer. However, these maps often contain spurious activations resulting in poor localization of objects. This is because the [CLS] token, trained on an image-level objective, summarizes the entire image instead of focusing on objects. This aggregation dilutes the object-centric information existing in the local, patch-level interactions. We analyze this by computing inter-patch similarity using patch-level attention components (query, key, and value) across all layers. We find that: (1) Object-centric properties are encoded in the similarity maps derived from all three components ($q, k, v$), unlike prior work that uses only key features or the [CLS] token. (2) This object-centric information is distributed across the network, not just confined to the final layer. Based on these insights, we introduce Object-DINO, a training-free method that extracts this distributed object-centric information. Object-DINO clusters attention heads across all layers based on the similarities of their patches and automatically identifies the object-centric cluster corresponding to all objects. We demonstrate Object-DINO's effectiveness on two applications: enhancing unsupervised object discovery (+3.6 to +12.4 CorLoc gains) and mitigating object hallucination in Multimodal Large Language Models by providing visual grounding. Our results demonstrate that using this distributed object-centric information improves downstream tasks without additional training.