Predicting Reaction Time to Comprehend Scenes with Foveated Scene Understanding Maps

📄 arXiv: 2505.12660v1 📥 PDF

作者: Ziqi Wen, Jonathan Skaza, Shravan Murlidaran, William Y. Wang, Miguel P. Eckstein

分类: cs.CV

发布日期: 2025-05-19


💡 一句话要点

提出基于注视场景理解图(F-SUM)的反应时间预测模型,用于预测场景理解时间。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 场景理解 反应时间预测 注视视觉 视觉-语言模型 F-SUM 人机交互 眼动追踪

📋 核心要点

  1. 现有模型难以准确预测场景理解所需的时间,缺乏有效的图像可计算预测器。
  2. 提出F-SUM模型,结合注视视觉和视觉-语言模型,生成场景理解的空间解析图。
  3. 实验表明,F-SUM与人类反应时间、扫视次数和描述准确度显著相关,优于传统指标。

📝 摘要(中文)

尽管已存在预测目标搜索和视觉辨别等任务中人类反应时间(RTs)的模型,但为场景理解时间开发图像可计算的预测器仍然是一个开放的挑战。视觉-语言模型(VLMs)的最新进展,结合比较语言描述的定量指标,为建模人类场景理解提供了新的机会。我们假设人类场景理解的主要瓶颈以及场景间反应时间差异的驱动因素是人类视觉系统的注视特性与图像内任务相关视觉信息的空间分布之间的相互作用。基于此,我们提出了一种新的图像可计算模型,该模型将注视视觉与VLM集成,以生成场景理解的空间解析图,作为注视位置的函数(注视场景理解图,或F-SUM),以及聚合的F-SUM分数。该指标与平均(N=17)人类RT(r=0.47)和理解场景所需的扫视次数(r=0.51)(跨277个场景)相关。F-SUM分数还与限时呈现中平均(N=16)人类描述准确度(r=-0.56)相关。这些相关性显著超过了基于图像的标准指标,如杂乱度、视觉复杂性和基于语言熵的场景模糊性。总而言之,我们的工作引入了一种新的图像可计算指标,用于预测场景理解中的人类反应时间,并证明了注视视觉处理在塑造理解难度中的重要性。

🔬 方法详解

问题定义:论文旨在解决场景理解中人类反应时间预测的问题。现有方法主要依赖于图像的全局特征,如杂乱度或视觉复杂度,无法充分考虑人类视觉系统的注视特性以及任务相关信息在图像中的空间分布,导致预测精度不高。

核心思路:论文的核心思路是,人类场景理解的难易程度受到视觉系统的注视特性和图像中任务相关信息的空间分布的共同影响。通过模拟人类的注视过程,并结合视觉-语言模型提取场景理解信息,可以更准确地预测反应时间。

技术框架:该模型主要包含以下几个模块:1) 注视点采样:模拟人类的注视行为,在图像上采样一系列注视点。2) 视觉-语言模型:使用视觉-语言模型(VLM)为每个注视点生成场景描述。3) 场景理解图构建:基于每个注视点的场景描述,构建注视场景理解图(F-SUM),该图反映了在不同注视位置理解场景的难易程度。4) F-SUM分数计算:对F-SUM进行聚合,得到一个整体的F-SUM分数,用于预测反应时间。

关键创新:该论文的关键创新在于:1) 提出了F-SUM的概念,将注视视觉和视觉-语言模型相结合,用于建模场景理解过程。2) 提出了一种新的图像可计算指标,用于预测场景理解中的人类反应时间。3) 证明了注视视觉处理在塑造理解难度中的重要性。

关键设计:在注视点采样方面,可以使用现有的眼动追踪数据或基于显著性图的采样方法。在视觉-语言模型方面,可以使用预训练的CLIP模型或其他VLM。F-SUM的构建可以基于不同注视点生成的场景描述之间的相似度或差异度。F-SUM分数的计算可以使用平均值、最大值或其他聚合函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,F-SUM分数与人类反应时间的相关性达到0.47,与扫视次数的相关性达到0.51,与描述准确度的相关性达到-0.56。这些相关性显著高于传统的图像特征,如杂乱度、视觉复杂度和场景模糊性,表明F-SUM能够更准确地预测场景理解的难易程度。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、辅助驾驶等领域。例如,在人机交互中,可以根据F-SUM预测用户理解场景的难易程度,从而优化界面设计,提高用户体验。在辅助驾驶中,可以利用F-SUM评估驾驶员对周围环境的理解程度,及时发出预警,提高驾驶安全性。

📄 摘要(原文)

Although models exist that predict human response times (RTs) in tasks such as target search and visual discrimination, the development of image-computable predictors for scene understanding time remains an open challenge. Recent advances in vision-language models (VLMs), which can generate scene descriptions for arbitrary images, combined with the availability of quantitative metrics for comparing linguistic descriptions, offer a new opportunity to model human scene understanding. We hypothesize that the primary bottleneck in human scene understanding and the driving source of variability in response times across scenes is the interaction between the foveated nature of the human visual system and the spatial distribution of task-relevant visual information within an image. Based on this assumption, we propose a novel image-computable model that integrates foveated vision with VLMs to produce a spatially resolved map of scene understanding as a function of fixation location (Foveated Scene Understanding Map, or F-SUM), along with an aggregate F-SUM score. This metric correlates with average (N=17) human RTs (r=0.47) and number of saccades (r=0.51) required to comprehend a scene (across 277 scenes). The F-SUM score also correlates with average (N=16) human description accuracy (r=-0.56) in time-limited presentations. These correlations significantly exceed those of standard image-based metrics such as clutter, visual complexity, and scene ambiguity based on language entropy. Together, our work introduces a new image-computable metric for predicting human response times in scene understanding and demonstrates the importance of foveated visual processing in shaping comprehension difficulty.