Why We Look Where We Look: Emergent Human-like Fixations of a Foveated Visual Language Model Maximizing Scene Understanding
作者: Shravan Murlidaran, Ziqi Wen, Sana Shehabi, Miguel P. Eckstein
分类: cs.CV, cs.AI
发布日期: 2026-05-18
💡 一句话要点
基于注视视觉语言模型,通过最大化场景理解,涌现类人眼动模式
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 眼动模式 场景理解 中央凹视觉 视觉语言模型 自由观看
📋 核心要点
- 人类自由观看场景时的眼动模式具有特定规律,但其深层原因和优化目标尚不明确。
- 本文提出一种基于中央凹视觉的视觉语言模型,通过优化场景理解任务来模拟人类眼动。
- 实验表明,该模型涌现出与人类相似的注视模式,优于其他任务训练的模型和不同视觉能力的模型。
📝 摘要(中文)
当人类在没有特定任务的情况下观看场景(自由观看)时,他们最初会将视线 направлять 到场景中心,然后注视人物、文本、被注视或抓取的物体以及语义上有意义的区域。这些标志性的注视模式反映了什么,以及它们是否优化了潜在的感知任务,仍然未知。本文表明,一个具有模拟中央凹视力的计算代理,经过训练以优化场景理解,表现出涌现的人类注视特征模式。相比之下,经过训练以搜索或分类场景,或配备了比人类视觉更好或更差的外围视觉的代理版本,预测人类注视模式的准确性较低。因此,人类自由观看的注视模式可能作为在中央凹视力的生物学约束下优化场景理解的功能性副产品而出现。
🔬 方法详解
问题定义:论文旨在探究人类在自由观看场景时,眼动模式背后的潜在优化目标。现有方法缺乏对眼动模式成因的解释,以及与特定感知任务的联系。论文试图通过构建计算模型,揭示眼动模式与场景理解之间的关系。
核心思路:论文的核心思路是,人类的眼动模式是为了优化场景理解而产生的。通过训练一个具有中央凹视觉的视觉语言模型,使其能够更好地理解场景内容,观察其是否会涌现出与人类相似的眼动模式。如果模型在优化场景理解的过程中,自发地学习到与人类相似的眼动策略,则可以支持该假设。
技术框架:该研究构建了一个基于视觉语言模型的计算代理,该代理具有模拟的中央凹视觉。该代理通过一系列的眼动(注视)来观察场景,并利用视觉信息来理解场景内容。模型的训练目标是最大化场景理解能力,例如通过回答与场景相关的问题。研究比较了不同训练目标(场景理解、场景搜索、场景分类)和不同视觉能力(外围视觉好坏)的代理的眼动模式。
关键创新:该研究的关键创新在于,它将人类的眼动模式与场景理解任务联系起来,并提出了一种基于计算模型的解释。通过模拟中央凹视觉和优化场景理解,模型能够涌现出与人类相似的眼动模式,这为理解人类视觉认知提供了一种新的视角。此外,该研究还比较了不同任务和视觉能力对眼动模式的影响,进一步验证了场景理解在眼动控制中的作用。
关键设计:模型采用中央凹视觉模拟,即只有中心区域是高分辨率的,周围区域是低分辨率的。模型使用强化学习进行训练,奖励函数与场景理解任务相关,例如回答问题的准确率。研究中对比了不同外围视觉的设置,以及不同的训练任务,例如场景搜索和场景分类。通过比较不同设置下模型的眼动模式,来分析场景理解在眼动控制中的作用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过场景理解任务训练的代理,其眼动模式与人类的眼动模式最为相似,显著优于经过场景搜索和场景分类任务训练的代理。此外,具有与人类相似的外围视觉能力的代理,其眼动模式也更接近人类。这些结果表明,场景理解是驱动人类眼动模式的重要因素。
🎯 应用场景
该研究成果可应用于机器人视觉、智能监控、虚拟现实等领域。通过模拟人类的眼动机制,可以提高机器对复杂场景的理解能力,使其能够更有效地感知和交互。此外,该研究还可以为眼动追踪技术提供理论指导,优化算法设计,提升用户体验。
📄 摘要(原文)
When humans view scenes without a specific task (free-viewing), they initially direct their eye movements toward the scene center and then fixate on people, text, objects being gazed at or grasped, and semantically meaningful regions. What these signature fixation patterns reflect and whether they optimize an underlying perceptual task remain unknown. We show that a computational agent with simulated foveation, trained to optimize scene comprehension, exhibits emergent human fixation signature patterns. In contrast, versions of the agent trained to search or classify scenes, or equipped with peripheral vision that was better or worse than human vision, predicted human fixation patterns less accurately. Thus, human free-viewing fixation patterns may emerge as a functional byproduct of optimizing scene comprehension under the biological constraints of foveated vision.