From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models

📄 arXiv: 2506.00718v1 📥 PDF

作者: Tianqin Li, Ziqi Wen, Leiran Song, Jun Liu, Zhi Jing, Tai Sing Lee

分类: cs.CV, cs.AI

发布日期: 2025-05-31


💡 一句话要点

研究表明,自监督视觉模型通过Gestalt原则涌现全局感知能力,并提出DiSRT测试基准。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 格式塔感知 自监督学习 全局结构 视觉Transformer 掩码自编码 DiSRT测试基准 Top-K激活稀疏 计算机视觉

📋 核心要点

  1. 现有视觉模型缺乏对全局空间结构的敏感性,难以像人类一样利用格式塔原则进行感知。
  2. 通过研究自监督学习模型,发现其涌现出与格式塔原则一致的激活模式,表明具备全局感知能力。
  3. 提出了DiSRT测试基准,用于评估模型对全局空间扰动的敏感性,并发现自监督模型表现优异。

📝 摘要(中文)

人类视觉利用格式塔原则(如闭合、邻近性和图形-背景分配)将局部线索组织成连贯的全局形式,这些功能依赖于全局空间结构。本文研究了现代视觉模型是否表现出类似的行为,以及在何种训练条件下这些行为会涌现。研究发现,使用掩码自编码(MAE)训练的Vision Transformers(ViT)表现出与格式塔定律一致的激活模式,包括错觉轮廓补全、凸性偏好和动态图形-背景分离。为了探究其计算基础,假设建模全局依赖关系对于类格式塔组织是必要的。引入了扭曲空间关系测试基准(DiSRT),该基准评估模型对全局空间扰动的敏感性,同时保留局部纹理。使用DiSRT表明,自监督模型(如MAE、CLIP)优于监督基线,有时甚至超过人类表现。使用MAE训练的ConvNeXt模型也表现出与格式塔兼容的表示,表明这种敏感性可以在没有注意力机制的情况下产生。然而,分类微调会降低这种能力。受生物视觉的启发,表明Top-K激活稀疏机制可以恢复全局敏感性。研究结果确定了促进或抑制类格式塔感知的训练条件,并将DiSRT确立为跨模型全局结构敏感性的诊断工具。

🔬 方法详解

问题定义:现有视觉模型在理解图像时,往往侧重于局部特征,缺乏对全局空间关系的感知能力,导致无法有效利用格式塔原则进行图像理解。这限制了模型在复杂场景下的表现,例如在存在遮挡或噪声的情况下,难以准确识别物体。

核心思路:论文的核心思路是,通过自监督学习的方式,让模型学习图像的全局结构信息,从而使其具备类似人类的格式塔感知能力。具体来说,通过掩码自编码(MAE)等方法,迫使模型学习重建被遮挡的图像区域,从而学习到图像的全局依赖关系。

技术框架:论文主要包含以下几个部分:1)研究了不同训练方式(自监督、监督)下,视觉模型对格式塔原则的响应;2)提出了DiSRT测试基准,用于评估模型对全局空间扰动的敏感性;3)分析了不同模型结构(ViT、ConvNeXt)和训练策略对全局感知能力的影响;4)提出了Top-K激活稀疏机制,用于提升模型的全局感知能力。

关键创新:论文的关键创新在于:1)首次系统性地研究了自监督学习模型在格式塔感知方面的能力;2)提出了DiSRT测试基准,为评估模型的全局结构敏感性提供了一种新的方法;3)发现Top-K激活稀疏机制可以有效提升模型的全局感知能力。

关键设计:DiSRT测试基准通过对图像进行空间扭曲,例如旋转、平移、缩放等,来评估模型对全局空间关系的敏感性。Top-K激活稀疏机制通过只保留网络中激活值最高的K个神经元,来鼓励模型学习更稀疏、更具有全局代表性的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用MAE训练的ViT和ConvNeXt模型在DiSRT测试基准上表现优于监督学习模型,甚至在某些情况下超过人类水平。此外,Top-K激活稀疏机制可以有效提升模型的全局感知能力,在DiSRT测试基准上取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于提升计算机视觉任务的性能,例如目标检测、图像分割和场景理解。通过使模型具备更强的全局感知能力,可以提高其在复杂环境下的鲁棒性和准确性。此外,该研究还可以为开发更智能的机器人和自动驾驶系统提供理论指导。

📄 摘要(原文)

Human vision organizes local cues into coherent global forms using Gestalt principles like closure, proximity, and figure-ground assignment -- functions reliant on global spatial structure. We investigate whether modern vision models show similar behaviors, and under what training conditions these emerge. We find that Vision Transformers (ViTs) trained with Masked Autoencoding (MAE) exhibit activation patterns consistent with Gestalt laws, including illusory contour completion, convexity preference, and dynamic figure-ground segregation. To probe the computational basis, we hypothesize that modeling global dependencies is necessary for Gestalt-like organization. We introduce the Distorted Spatial Relationship Testbench (DiSRT), which evaluates sensitivity to global spatial perturbations while preserving local textures. Using DiSRT, we show that self-supervised models (e.g., MAE, CLIP) outperform supervised baselines and sometimes even exceed human performance. ConvNeXt models trained with MAE also exhibit Gestalt-compatible representations, suggesting such sensitivity can arise without attention architectures. However, classification finetuning degrades this ability. Inspired by biological vision, we show that a Top-K activation sparsity mechanism can restore global sensitivity. Our findings identify training conditions that promote or suppress Gestalt-like perception and establish DiSRT as a diagnostic for global structure sensitivity across models.