Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts

📄 arXiv: 2505.13281v1 📥 PDF

作者: Zekun Wang, Sashank Varma

分类: cs.CV

发布日期: 2025-05-19

备注: 10 pages, 4 figures, CosSci 2025

期刊: Cognitive Science Society 2025


💡 一句话要点

研究发现Transformer模型在几何拓扑概念理解上表现出类人敏感性,但多模态模型性能下降

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算机视觉 几何拓扑概念 Transformer模型 认知科学 多模态学习

📋 核心要点

  1. 现有理论认为几何拓扑概念是人类天生的,本文挑战这一观点,探索通过环境互动学习的可能性。
  2. 论文利用计算机视觉模型,特别是CNN、Transformer和视觉-语言模型,评估其对几何拓扑概念的理解能力。
  3. 实验表明,Transformer模型在几何拓扑概念理解上表现最佳,与儿童认知模式高度一致,但多模态模型性能下降。

📝 摘要(中文)

随着机器学习模型的快速发展,认知科学家越来越关注它们与人类思维的对齐程度。本文探讨了计算机视觉模型和人类对几何拓扑(GT)概念的敏感性。基于核心知识理论,这些概念是天生的,并由专门的神经回路支持。本文研究了一种替代解释,即GT概念是通过与环境的日常互动“免费”学习的。我们使用在大型图像数据集上训练的计算机视觉模型进行研究。我们基于先前的研究,调查了三类模型——卷积神经网络(CNN)、基于Transformer的模型和视觉-语言模型——在奇数选择任务中对43个GT概念(跨越七个类别)的整体性能和与人类的对齐程度。基于Transformer的模型实现了最高的总体准确率,超过了幼儿的水平。它们还表现出与儿童表现的强烈对齐,发现相同类别的概念容易或困难。相比之下,视觉-语言模型的表现不如其纯视觉模型,并且进一步偏离了人类的表现,表明朴素的多模态可能会损害抽象的几何敏感性。这些发现支持使用计算机视觉模型来评估学习解释人类对GT概念的敏感性的充分性,同时也表明整合语言和视觉表征可能会产生不可预测的不利后果。

🔬 方法详解

问题定义:论文旨在研究计算机视觉模型是否能够像人类一样理解几何和拓扑(GT)概念,并探讨这种理解是否可以通过学习获得,而非天生。现有方法主要基于核心知识理论,认为GT概念是与生俱来的。而本文挑战这一观点,试图证明通过与环境的互动学习,模型也能获得对GT概念的敏感性。

核心思路:核心思路是利用在大量图像数据上训练的计算机视觉模型,模拟人类与环境的互动学习过程,并评估这些模型在GT概念理解任务上的表现。通过比较不同类型模型(CNN、Transformer、视觉-语言模型)的表现,以及它们与人类(特别是儿童)认知模式的对齐程度,来验证学习解释的充分性。

技术框架:整体框架包括以下几个主要步骤:1) 选择并训练不同类型的计算机视觉模型;2) 构建一个包含43个GT概念的奇数选择任务;3) 使用训练好的模型和人类(包括儿童)进行奇数选择任务;4) 分析模型和人类的表现,比较它们的准确率和认知模式的对齐程度。

关键创新:最重要的创新点在于使用计算机视觉模型来评估学习解释对于人类GT概念理解的充分性。以往的研究主要集中在认知科学领域,而本文将计算机视觉模型引入这一领域,提供了一种新的研究视角和方法。此外,发现视觉-语言模型在GT概念理解上的表现不如纯视觉模型,这表明多模态融合可能存在一些未知的负面影响。

关键设计:关键设计包括:1) 选择具有代表性的计算机视觉模型,如CNN、Transformer和视觉-语言模型;2) 构建一个涵盖广泛GT概念的奇数选择任务,确保任务的难度和区分度;3) 使用与人类认知发展阶段相对应的模型规模和训练数据量;4) 采用合适的评估指标,如准确率和认知模式对齐程度,来衡量模型和人类的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,基于Transformer的模型在几何拓扑概念理解任务中表现最佳,其准确率超过了幼儿的水平,并且与儿童的认知模式高度一致。然而,视觉-语言模型的表现却不如纯视觉模型,这表明简单地将语言和视觉信息融合可能会损害模型对抽象几何概念的理解能力。这些发现为理解人类认知和设计更有效的多模态学习模型提供了新的视角。

🎯 应用场景

该研究成果可应用于认知科学、人工智能和机器人等领域。通过理解计算机视觉模型如何学习几何拓扑概念,可以更好地理解人类认知的本质,并为开发更智能、更具通用性的AI系统提供指导。此外,该研究还可以帮助设计更符合人类认知习惯的机器人,提高人机交互的效率和自然性。

📄 摘要(原文)

With the rapid improvement of machine learning (ML) models, cognitive scientists are increasingly asking about their alignment with how humans think. Here, we ask this question for computer vision models and human sensitivity to geometric and topological (GT) concepts. Under the core knowledge account, these concepts are innate and supported by dedicated neural circuitry. In this work, we investigate an alternative explanation, that GT concepts are learned ``for free'' through everyday interaction with the environment. We do so using computer visions models, which are trained on large image datasets. We build on prior studies to investigate the overall performance and human alignment of three classes of models -- convolutional neural networks (CNNs), transformer-based models, and vision-language models -- on an odd-one-out task testing 43 GT concepts spanning seven classes. Transformer-based models achieve the highest overall accuracy, surpassing that of young children. They also show strong alignment with children's performance, finding the same classes of concepts easy vs. difficult. By contrast, vision-language models underperform their vision-only counterparts and deviate further from human profiles, indicating that naïve multimodality might compromise abstract geometric sensitivity. These findings support the use of computer vision models to evaluate the sufficiency of the learning account for explaining human sensitivity to GT concepts, while also suggesting that integrating linguistic and visual representations might have unpredicted deleterious consequences.