Learning to Perceive "Where": Spatial Pretext Tasks for Robust Self-Supervised Learning
作者: Yang Shen, Yusen Cai, Weronika Hryniewska-Guzik, Qing Lin, Mengmi Zhang
分类: cs.CV
发布日期: 2026-05-11
💡 一句话要点
提出空间预测(SP)预训练任务,通过建模局部几何关系增强自监督学习的结构化表征能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自监督学习 空间感知 表征学习 几何推理 计算机视觉 预训练任务
📋 核心要点
- 现有SSL方法过度关注对象不变性,忽略了视觉场景中关键的部件空间结构与几何关系,限制了表征的细粒度理解能力。
- 提出空间预测(SP)任务,通过回归预测图像局部块之间的相对位置与尺度,将几何先验显式引入自监督学习过程。
- 实验证明SP插件能显著提升下游任务性能,特别是在细粒度分类、语义分割及分布外鲁棒性方面表现出卓越的泛化能力。
📝 摘要(中文)
现有的自监督学习(SSL)方法主要侧重于学习对象不变性表征,却往往忽视了对象部件间的空间结构与关系。为解决这一局限,本文引入了空间预测(Spatial Prediction, SP)任务,这是一种空间感知的回归预训练任务,旨在预测同一图像中一对解耦局部视图之间的相对位置和尺度。通过在连续几何空间中建模部件间的关系,SP 促使模型学习到超越不变类别语义的细粒度空间依赖,从而捕捉视觉场景的组合结构。SP 作为一种解耦插件,可无缝集成至多种 SSL 框架中。实验表明,该方法在图像识别、细粒度分类、语义分割及深度估计任务中均有显著提升,并增强了模型在分布外(OOD)场景下的鲁棒性。此外,本文提出的空间推理评估任务进一步验证了模型在几何感知方面的优越性。
🔬 方法详解
问题定义:现有SSL方法(如对比学习)主要通过数据增强学习不变性,导致模型对物体内部的几何结构、部件间的空间依赖关系缺乏感知,难以应对需要精细空间推理的复杂视觉任务。
核心思路:引入空间预测(SP)任务,将空间感知作为一种归纳偏置。通过强制模型预测图像局部块之间的相对几何参数(位置与尺度),迫使编码器学习物体的组合结构,从而获得更具结构化的视觉表征。
技术框架:SP被设计为一个轻量级的解耦插件。它从输入图像中采样一对局部视图,通过共享权重的编码器提取特征,随后利用一个回归头预测这两块区域在连续几何空间中的相对位置偏移量与尺度比例。
关键创新:不同于传统的离散化拼图任务,SP在连续空间中建模几何关系,能够捕捉更精细的结构信息。其解耦设计使其不依赖于特定的SSL框架,可作为辅助任务灵活嵌入到现有的对比学习或掩码图像建模流程中。
关键设计:该方法采用回归损失函数来优化预测的几何参数。通过在训练过程中动态采样不同尺度和位置的局部块,模型能够学习到多尺度的空间依赖,从而在保持语义不变性的同时,显著增强了对物体几何构成的理解。
🖼️ 关键图片
📊 实验亮点
实验结果显示,SP插件在ImageNet分类、细粒度识别、语义分割及深度估计任务中均实现了持续性能提升。特别是在分布外(OOD)鲁棒性测试中,该方法表现出显著优势。通过拼图重构与空间推理任务评估,证明了模型在几何结构理解方面优于基线模型。
🎯 应用场景
该方法适用于对空间结构敏感的计算机视觉任务,如自动驾驶中的障碍物精细检测、医疗影像中的病灶定位与分割、以及机器人视觉中的物体抓取与操作。其增强的几何感知能力有助于提升模型在复杂、遮挡及分布外环境下的泛化性能。
📄 摘要(原文)
Existing self-supervised learning (SSL) methods primarily learn object-invariant representations but often neglect the spatial structure and relationships among object parts. To address this limitation, we introduce Spatial Prediction (SP), a spatially aware pretext regression task that predicts the relative position and scale between a pair of disentangled local views from the same image. By modeling part-to-part relationships in a continuous geometric space, SP encourages representations to capture fine-grained spatial dependencies beyond invariant categorical semantics, thereby learning the compositional structure of visual scenes. SP is implemented as a decoupled plug-in and can be seamlessly integrated into diverse SSL frameworks. Extensive experiments show consistent improvements across image recognition, fine-grained classification, semantic segmentation, and depth estimation, as well as substantial gains in out-of-distribution robustness for object recognition. To evaluate spatial reasoning, we introduce (1) a position and scale prediction task on image patch pairs and (2) a jigsaw understanding task requiring patch reordering and recognition after reconstruction. Strong performance on these tasks indicates improved spatial structure and geometric awareness. Overall, explicitly modeling spatial information provides an effective inductive bias for SSL, leading to more structured representations and better generalization. Code and models will be released.