Modeling Subjective Urban Perception with Human Gaze

作者: Lin Che, Xi Wang, Marc Pollefeys, Konrad Schindler, Martin Raubal, Peter Kiefer

分类: cs.CV, cs.HC

发布日期: 2026-05-01

💡 一句话要点

提出Place Pulse-Gaze数据集和Gaze-Guided框架，利用人类注视建模主观城市感知。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 城市感知 眼动追踪 注视行为 街景图像 多模态融合

📋 核心要点

现有城市感知计算方法忽略了人类感知过程，直接从街景图像建模，缺乏对人类主观判断形成机制的考量。
论文提出Gaze-Guided框架，通过融合眼动追踪数据，研究注视行为对主观城市感知建模的贡献。
实验表明，注视数据本身包含有用的预测信号，与场景表示融合能进一步提升城市感知预测的准确性。

📝 摘要（中文）

城市感知描述了人们如何主观地评估城市环境，从而塑造了城市被体验和理解的方式。现有的计算方法主要从街景图像中直接建模城市感知，但很大程度上忽略了形成这些判断的人类感知过程。本文介绍了一个城市感知数据集Place Pulse-Gaze，该数据集通过同步的眼动追踪记录和个体感知标签来增强街景图像。基于该数据集，我们提出了一个Gaze-Guided城市感知框架，以研究注视行为如何促进主观城市感知的建模。该框架系统地研究了三个互补的设置：仅注视建模、注视融合显式语义场景表示以及注视融合隐式更丰富的视觉表示。实验表明，仅注视就携带了用于主观城市感知的有用预测信号，并且将注视与场景表示相结合可以进一步提高语义和更丰富的视觉表示下的预测性能。总的来说，我们的发现强调了将人类感知过程纳入城市场景理解的重要性，并为注视引导的多模态城市计算开辟了一个方向。

🔬 方法详解

问题定义：现有方法在建模城市感知时，主要依赖于直接从街景图像提取特征，忽略了人类在感知城市环境时的主观视觉注意力和感知过程。这导致模型无法充分理解人类如何形成对城市环境的主观评价，例如安全、宜居等。

核心思路：论文的核心思路是将人类的注视行为（gaze）纳入城市感知的建模过程中。通过分析人们在观察街景图像时的眼动轨迹，提取与主观感知相关的视觉关注信息，并将其与图像特征相结合，从而更准确地预测人类对城市环境的主观评价。

技术框架：Gaze-Guided Urban Perception Framework包含以下几个主要模块：1) Place Pulse-Gaze数据集的构建，包含街景图像、眼动追踪数据和主观感知标签；2) 注视特征提取，从眼动数据中提取注视点、注视时长等特征；3) 场景表示学习，包括显式的语义场景表示（例如，使用语义分割提取建筑物、植被等）和隐式的视觉表示（例如，使用预训练的卷积神经网络提取图像特征）；4) 注视融合模块，将注视特征与场景表示进行融合，用于预测主观城市感知标签。

关键创新：该论文的关键创新在于将人类的注视行为显式地引入到城市感知建模中。与以往直接从图像提取特征的方法不同，该方法考虑了人类的视觉注意力机制，从而能够更准确地捕捉与主观感知相关的视觉信息。此外，论文还系统地研究了注视信息在不同场景表示下的融合方式，为后续研究提供了参考。

关键设计：在注视融合模块中，论文尝试了多种融合策略，包括简单的特征拼接、注意力机制等。在损失函数方面，使用了交叉熵损失函数来训练模型，以预测主观城市感知标签。数据集Place Pulse-Gaze包含大量街景图像，并为每张图像收集了多个用户的眼动追踪数据和主观感知标签，保证了模型的训练效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，仅使用注视数据就能有效预测主观城市感知，与场景表示融合后性能进一步提升。在语义场景表示下，融合注视数据后预测准确率提升显著。在更丰富的视觉表示下，融合注视数据也能带来性能提升，验证了注视信息在城市感知建模中的重要性。

🎯 应用场景

该研究成果可应用于城市规划、公共安全、智能导航等领域。例如，可以利用该模型评估城市不同区域的安全性、宜居性，为城市规划提供数据支持；可以用于智能导航系统，引导用户选择更安全、更舒适的路线；还可以用于公共安全监控，自动识别潜在的危险区域。

📄 摘要（原文）

Urban perception describes how people subjectively evaluate urban environments, shaping how cities are experienced and understood. Existing computational approaches primarily model urban perception directly from street view images, but largely ignore the human perceptual process through which such judgments are formed. In this paper, we introduce Place Pulse-Gaze, an urban perception dataset that augments street view images with synchronized eye-tracking recordings and individual perception labels. Based on this dataset, we propose a Gaze-Guided Urban Perception Framework to study how gaze behavior contributes to the modeling of subjective urban perception. The framework systematically investigates three complementary settings: gaze-only modeling, gaze fusion with explicit semantic scene representations, and gaze fusion with implicit richer visual representations. Experiments show that gaze alone already carries useful predictive signals for subjective urban perception, and that integrating gaze with scene representations further improves prediction under both semantic and richer visual representations. Overall, our findings highlight the importance of incorporating human perceptual processes into urban scene understanding and open a direction for gaze-guided multimodal urban computing.

Modeling Subjective Urban Perception with Human Gaze

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理