Beyond Scanpaths: Graph-Based Gaze Simulation in Dynamic Scenes

📄 arXiv: 2603.28319v1 📥 PDF

作者: Luke Palmer, Petar Palasek, Hazem Abdelkawy

分类: cs.CV

发布日期: 2026-03-30


💡 一句话要点

提出基于图的动态场景注视模拟方法,超越传统注视路径。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 注视预测 注意力建模 动态场景 图神经网络 自回归模型

📋 核心要点

  1. 现有注视建模方法通常简化注视动态,忽略了注视历史和环境变化的影响。
  2. 本文提出一种基于图的自回归动态系统,显式建模原始注视轨迹,并考虑注视历史和环境因素。
  3. 实验表明,该方法生成的注视轨迹、注视路径和显著性图比现有模型更自然,并发布了新的Focus100数据集。

📝 摘要(中文)

精确建模人类注意力对于诸多计算机视觉应用至关重要,尤其是在汽车安全领域。现有方法通常将注视简化为显著性图或注视路径,隐式地处理注视动态。本文将注视建模定义为一个自回归动态系统,并显式地展开原始注视轨迹,条件依赖于注视历史和不断变化的环境。驾驶场景被表示为以注视为中心的图,由亲和关系Transformer (ART)处理,该Transformer建模了驾驶员注视、交通对象和道路结构之间的交互。此外,本文还引入了对象密度网络 (ODN) 来预测下一步注视分布,捕捉复杂环境中注意力转移的随机性和以对象为中心的特性。同时发布了Focus100数据集,包含30名参与者观看第一视角驾驶视频的原始注视数据。该统一方法直接在原始注视数据上训练,无需注视点过滤,能够生成比现有注意力模型更自然的注视轨迹、注视路径动态和显著性图,为动态环境中人类注意力的时间建模提供了有价值的见解。

🔬 方法详解

问题定义:现有注视建模方法,如基于显著性图或注视路径的方法,通常忽略了注视行为的时序动态特性,无法充分捕捉人类在动态环境中注意力的转移模式。这些方法往往将注视行为简化为静态的表示,丢失了注视历史和环境变化对注视决策的影响。因此,如何更精确地建模人类在动态场景中的注视行为,成为一个重要的研究问题。

核心思路:本文的核心思路是将注视建模视为一个自回归动态系统,显式地建模原始注视轨迹。通过考虑注视历史和环境信息,模型能够预测下一步的注视位置,从而生成更自然的注视行为。这种方法避免了对注视行为的过度简化,能够更好地捕捉人类注意力的时序动态特性。

技术框架:该方法的技术框架主要包括以下几个模块:1) 以注视为中心的图构建:将驾驶场景表示为以驾驶员注视为中心的图,图中包含驾驶员注视、交通对象和道路结构等节点。2) 亲和关系Transformer (ART):使用异构图Transformer来建模图中各个节点之间的交互关系,从而提取环境特征。3) 对象密度网络 (ODN):用于预测下一步的注视分布,捕捉复杂环境中注意力转移的随机性和以对象为中心的特性。整个框架通过自回归的方式,逐步生成注视轨迹。

关键创新:该方法最重要的技术创新点在于将注视建模视为一个自回归动态系统,并显式地建模原始注视轨迹。与现有方法相比,该方法能够更好地捕捉人类注意力的时序动态特性,避免了对注视行为的过度简化。此外,ART异构图Transformer和ODN对象密度网络的设计,也为建模复杂环境中的注视行为提供了有效的工具。

关键设计:ART使用异构图Transformer,允许不同类型的节点(例如,注视点、车辆、道路)具有不同的特征表示和交互方式。ODN使用混合密度网络来预测下一步的注视分布,能够捕捉注视行为的随机性。损失函数包括注视位置的回归损失和注视分布的交叉熵损失。Focus100数据集的发布也为该领域的研究提供了新的数据资源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在Focus100数据集上进行了评估,实验结果表明,该方法生成的注视轨迹、注视路径和显著性图比现有注意力模型更自然。具体而言,该方法在注视轨迹的平滑度、注视路径的长度和显著性图的准确性等方面均取得了显著提升。此外,该方法还能够捕捉到人类在复杂环境中的一些特有的注视行为模式。

🎯 应用场景

该研究成果可应用于自动驾驶、驾驶员辅助系统、人机交互等领域。通过精确建模驾驶员的注视行为,可以提高自动驾驶系统的安全性,例如,预测驾驶员的潜在风险并及时采取措施。此外,该模型还可以用于评估驾驶员的注意力状态,从而提供个性化的驾驶辅助服务。在人机交互领域,该模型可以用于设计更自然、更智能的交互界面。

📄 摘要(原文)

Accurately modelling human attention is essential for numerous computer vision applications, particularly in the domain of automotive safety. Existing methods typically collapse gaze into saliency maps or scanpaths, treating gaze dynamics only implicitly. We instead formulate gaze modelling as an autoregressive dynamical system and explicitly unroll raw gaze trajectories over time, conditioned on both gaze history and the evolving environment. Driving scenes are represented as gaze-centric graphs processed by the Affinity Relation Transformer (ART), a heterogeneous graph transformer that models interactions between driver gaze, traffic objects, and road structure. We further introduce the Object Density Network (ODN) to predict next-step gaze distributions, capturing the stochastic and object-centric nature of attentional shifts in complex environments. We also release Focus100, a new dataset of raw gaze data from 30 participants viewing egocentric driving footage. Trained directly on raw gaze, without fixation filtering, our unified approach produces more natural gaze trajectories, scanpath dynamics, and saliency maps than existing attention models, offering valuable insights for the temporal modelling of human attention in dynamic environments.