Simulated Cortical Magnification Supports Self-Supervised Object Learning

📄 arXiv: 2509.15751v1 📥 PDF

作者: Zhengyang Yu, Arthur Aubret, Chen Yu, Jochen Triesch

分类: cs.CV

发布日期: 2025-09-19

备注: Accepted at IEEE ICDL 2025. 6 pages, 5 figures


💡 一句话要点

模拟皮层放大提升自监督物体学习性能

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自监督学习 中央凹视觉 皮层放大 物体表征 生物启发

📋 核心要点

  1. 现有自监督学习模型忽略了人类视觉的中央凹特性,导致学习到的物体表征不够真实。
  2. 本文通过模拟人类中央凹视觉和皮层放大,使模型能够更好地权衡中心和边缘视觉信息。
  3. 实验结果表明,模拟中央凹视觉可以提高自监督学习模型学习到的物体表征的质量。

📝 摘要(中文)

近期的自监督学习模型通过在类似幼儿的视觉体验上进行训练,来模拟语义物体表征的形成。然而,这些模型忽略了人类视觉的中央凹特性,即视觉中心区域具有高分辨率,而边缘区域具有低分辨率。本文研究了这种分辨率变化在物体表征学习中的作用。我们利用两个以自我为中心的视频数据集,这些数据集捕捉了人类与物体交互时的视觉体验。我们应用人类中央凹和皮层放大模型来修改这些输入,使得视觉内容在边缘区域变得不那么清晰。然后,使用生成的序列来训练两个基于时间的生物启发式自监督学习模型。结果表明,模拟中央凹视觉的各个方面可以提高在这种设置下学习到的物体表征的质量。我们的分析表明,这种改进来自于使物体看起来更大,并在中心和边缘视觉信息之间实现更好的权衡。总的来说,这项工作朝着使人类视觉表征学习模型更加真实和高效的方向迈出了一步。

🔬 方法详解

问题定义:论文旨在解决现有自监督学习模型在模拟人类视觉学习物体表征时,忽略了人类视觉的中央凹特性,导致学习到的表征不够真实和高效的问题。现有方法通常将所有区域的视觉信息同等对待,没有考虑到人类视觉中心区域高分辨率、边缘区域低分辨率的特点。

核心思路:论文的核心思路是通过模拟人类的中央凹视觉和皮层放大机制,来改善自监督学习模型学习物体表征的能力。通过降低边缘区域的分辨率,使模型更加关注中心区域的物体,并更好地权衡中心和边缘视觉信息。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用以自我为中心的视频数据集,模拟人类与物体交互的视觉体验。2) 应用人类中央凹和皮层放大模型来修改输入视频,降低边缘区域的分辨率。3) 使用修改后的视频序列来训练两个生物启发式自监督学习模型,这些模型基于时间学习目标。4) 评估学习到的物体表征的质量。

关键创新:论文的关键创新在于将人类视觉的中央凹特性引入到自监督学习模型中。通过模拟皮层放大,使模型能够更好地模拟人类视觉系统对物体的感知方式,从而提高学习到的物体表征的质量。与现有方法相比,该方法更加关注中心区域的物体,并更好地权衡中心和边缘视觉信息。

关键设计:论文的关键设计包括:1) 使用两个以自我为中心的视频数据集,以模拟真实的视觉体验。2) 应用人类中央凹和皮层放大模型来修改输入视频,具体实现方式未知。3) 使用基于时间的自监督学习目标,鼓励模型学习物体在时间上的不变性表征。4) 使用特定的评估指标来衡量学习到的物体表征的质量,具体指标未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,模拟人类中央凹视觉可以提高自监督学习模型学习到的物体表征的质量。具体性能提升数据未知,但分析表明,这种改进来自于使物体看起来更大,并在中心和边缘视觉信息之间实现更好的权衡。该研究为自监督学习模型的设计提供了新的思路。

🎯 应用场景

该研究成果可应用于机器人视觉、智能监控、自动驾驶等领域。通过模拟人类视觉特性,可以提高机器在复杂环境下的物体识别和理解能力,从而提升相关系统的性能和鲁棒性。未来,该研究还可以扩展到其他感觉模态,例如听觉和触觉,以构建更加通用和智能的感知系统。

📄 摘要(原文)

Recent self-supervised learning models simulate the development of semantic object representations by training on visual experience similar to that of toddlers. However, these models ignore the foveated nature of human vision with high/low resolution in the center/periphery of the visual field. Here, we investigate the role of this varying resolution in the development of object representations. We leverage two datasets of egocentric videos that capture the visual experience of humans during interactions with objects. We apply models of human foveation and cortical magnification to modify these inputs, such that the visual content becomes less distinct towards the periphery. The resulting sequences are used to train two bio-inspired self-supervised learning models that implement a time-based learning objective. Our results show that modeling aspects of foveated vision improves the quality of the learned object representations in this setting. Our analysis suggests that this improvement comes from making objects appear bigger and inducing a better trade-off between central and peripheral visual information. Overall, this work takes a step towards making models of humans' learning of visual representations more realistic and performant.