Do computer vision foundation models learn the low-level characteristics of the human visual system?

📄 arXiv: 2502.20256v2 📥 PDF

作者: Yancheng Cai, Fei Yin, Dounia Hammou, Rafal Mantiuk

分类: cs.CV

发布日期: 2025-02-27 (更新: 2025-03-11)

备注: Accepted by CVPR 2025


💡 一句话要点

评估计算机视觉基础模型与人类视觉系统在低级特征上的相似性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算机视觉 基础模型 人类视觉系统 对比度感知 自监督学习

📋 核心要点

  1. 现有计算机视觉模型缺乏对人类视觉系统低级特征的深入理解,限制了其在某些视觉任务中的表现。
  2. 该研究通过设计一系列对比度相关的测试,评估了多个基础模型在模拟人类视觉特性方面的能力。
  3. 实验结果表明,部分基础模型(如DINOv2)在对比度掩蔽等方面与人类视觉系统表现出一定的相似性。

📝 摘要(中文)

计算机视觉基础模型,如DINO或OpenCLIP,通过自监督学习在大规模图像数据集上进行训练。类似地,大量证据表明人类视觉系统(HVS)受到自然界中颜色和模式的统计分布的影响,这些特征也存在于基础模型的训练数据中。本文旨在探讨在自然图像上训练的基础模型是否模仿了人类视觉系统的一些低级特征,如对比度检测、对比度掩蔽和对比度恒常性。具体而言,我们设计了一个包含九种测试类型的协议来评估45个基础模型和生成模型的图像编码器。结果表明,一些基础模型(如DINO、DINOv2和OpenCLIP)与人类视觉具有一些共同特征,但其他模型则几乎没有相似之处。基础模型对低对比度的敏感性往往较小,并且对不同频率的对比度响应不规则。在对比度掩蔽方面,基础模型与人类数据表现出最佳一致性。我们的研究结果表明,人类视觉和计算机视觉在学习解释真实世界图像时,可能采取相似和不同的路径。总的来说,虽然仍然存在差异,但在视觉任务上训练的基础模型开始与低级人类视觉对齐,其中DINOv2表现出最接近的相似性。

🔬 方法详解

问题定义:论文旨在研究计算机视觉基础模型是否学习到了人类视觉系统(HVS)的低级特征,例如对比度检测、对比度掩蔽和对比度恒常性。现有方法缺乏对基础模型与人类视觉系统在这些低级特征上的系统性比较,无法有效评估基础模型在多大程度上模拟了人类视觉。

核心思路:核心思路是通过设计一系列心理物理学实验,模拟人类视觉系统对对比度的感知过程,然后将这些实验应用于计算机视觉基础模型,比较模型和人类在这些任务上的表现。通过这种方式,可以量化基础模型与人类视觉系统在低级特征上的相似程度。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一系列计算机视觉基础模型和生成模型;2) 设计包含九种测试类型的协议,用于评估模型的图像编码器,这些测试类型涵盖对比度检测、对比度掩蔽和对比度恒常性等人类视觉的低级特征;3) 将这些测试应用于选定的模型,并记录模型的输出;4) 将模型的输出与人类的视觉数据进行比较,分析模型与人类视觉系统在不同测试中的相似性和差异。

关键创新:该研究的关键创新在于首次系统性地评估了计算机视觉基础模型在模拟人类视觉系统低级特征方面的能力。通过设计专门的测试协议,量化了模型与人类视觉系统在对比度感知方面的相似程度,为理解基础模型的内部机制以及如何改进模型以更好地模拟人类视觉提供了新的视角。

关键设计:该研究的关键设计包括:1) 精心设计的九种测试类型,这些测试类型涵盖了人类视觉系统对对比度的不同方面,例如对比度检测阈值、对比度掩蔽效应等;2) 选择了多个具有代表性的计算机视觉基础模型,包括DINO、DINOv2和OpenCLIP等;3) 使用标准化的评估指标,例如均方误差(MSE)和相关系数(CC),来量化模型与人类视觉系统之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DINO、DINOv2和OpenCLIP等基础模型在一定程度上与人类视觉具有相似的对比度感知特性,尤其是在对比度掩蔽方面表现出较好的一致性。DINOv2在所有模型中与人类视觉的相似度最高。然而,基础模型对低对比度的敏感性普遍较低,且对不同频率的对比度响应不规则,表明仍有改进空间。

🎯 应用场景

该研究成果可应用于提升计算机视觉模型的鲁棒性和泛化能力,尤其是在处理低质量或噪声图像时。通过使模型更接近人类视觉系统,可以改善图像增强、目标检测和图像分割等任务的性能。此外,该研究还有助于理解人类视觉的计算机制,并为开发更智能的人工智能系统提供启示。

📄 摘要(原文)

Computer vision foundation models, such as DINO or OpenCLIP, are trained in a self-supervised manner on large image datasets. Analogously, substantial evidence suggests that the human visual system (HVS) is influenced by the statistical distribution of colors and patterns in the natural world, characteristics also present in the training data of foundation models. The question we address in this paper is whether foundation models trained on natural images mimic some of the low-level characteristics of the human visual system, such as contrast detection, contrast masking, and contrast constancy. Specifically, we designed a protocol comprising nine test types to evaluate the image encoders of 45 foundation and generative models. Our results indicate that some foundation models (e.g., DINO, DINOv2, and OpenCLIP), share some of the characteristics of human vision, but other models show little resemblance. Foundation models tend to show smaller sensitivity to low contrast and rather irregular responses to contrast across frequencies. The foundation models show the best agreement with human data in terms of contrast masking. Our findings suggest that human vision and computer vision may take both similar and different paths when learning to interpret images of the real world. Overall, while differences remain, foundation models trained on vision tasks start to align with low-level human vision, with DINOv2 showing the closest resemblance.