Will You Be Aware? Eye Tracking-Based Modeling of Situational Awareness in Augmented Reality

📄 arXiv: 2508.05025v2 📥 PDF

作者: Zhehan Qu, Tianyi Hu, Christian Fronk, Maria Gorlatova

分类: cs.LG, cs.HC

发布日期: 2025-08-07 (更新: 2025-09-02)


💡 一句话要点

提出基于眼动追踪的FixGraphPool模型,用于增强现实中情境感知建模

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 增强现实 情境感知 眼动追踪 图神经网络 注意力建模

📋 核心要点

  1. AR应用可能导致用户过度关注虚拟内容,忽略现实环境中的潜在危险,降低情境感知能力。
  2. 论文提出FixGraphPool模型,利用眼动追踪数据构建时空图,捕捉用户动态注意力模式,预测情境感知水平。
  3. 实验结果表明,FixGraphPool模型在预测情境感知方面优于传统机器学习和时间序列模型,准确率达到83.0%。

📝 摘要(中文)

增强现实(AR)系统在通过实时指导增强任务性能的同时,也存在诱发认知隧道效应的风险,即过度关注虚拟内容,从而损害安全关键场景中的情境感知(SA)。本文研究了AR引导的心肺复苏(CPR)中的SA,其中施救者必须在有效按压和对不可预测的危险(例如,患者呕吐)保持警惕之间取得平衡。我们开发了一个基于Magic Leap 2的AR应用程序,该程序叠加了实时CPR反馈(按压深度和速率),并进行了一项用户研究,其中模拟了意外事件(例如,出血)以评估SA。SA指标通过观察和在冻结探针事件期间管理的问卷收集。眼动追踪分析表明,较高的SA水平与较大的扫视幅度和速度相关,并与虚拟内容的注视比例和频率降低相关。为了预测SA,我们提出了FixGraphPool,一种将注视事件(注视、扫视)构建为时空图的图神经网络,有效地捕获了动态注意力模式。我们的模型实现了83.0%的准确率(F1=81.0%),通过利用领域知识和编码在ET数据中的时空信息,优于基于特征的机器学习和最先进的时间序列模型。这些发现证明了眼动追踪在AR中SA建模中的潜力,并强调了其在设计确保用户安全和情境感知的AR系统中的效用。

🔬 方法详解

问题定义:论文旨在解决增强现实(AR)环境中,用户由于过度关注虚拟信息而导致情境感知(SA)下降的问题。现有方法难以有效利用眼动追踪数据中的时空信息,无法准确建模用户的动态注意力模式,从而难以准确预测SA水平。

核心思路:论文的核心思路是利用图神经网络(GNN)对眼动追踪数据进行建模,将注视事件(注视和扫视)构建成时空图,从而捕捉用户在AR环境中的动态注意力模式。通过分析图结构和节点特征,可以推断用户对现实环境的关注程度,进而预测其SA水平。

技术框架:整体框架包括以下几个阶段:1) 数据采集:使用眼动追踪设备收集用户在AR环境中的注视数据。2) 图构建:将注视事件(注视和扫视)表示为图中的节点和边,节点包含注视位置、持续时间等信息,边表示注视之间的转移关系。3) 特征提取:提取节点和边的特征,例如注视位置、持续时间、扫视幅度、速度等。4) FixGraphPool模型:使用图神经网络对图结构进行学习,提取全局特征,预测用户的SA水平。

关键创新:论文的关键创新在于提出了FixGraphPool模型,该模型是一种专门为眼动追踪数据设计的图神经网络。与传统的机器学习方法相比,FixGraphPool能够更好地利用眼动追踪数据中的时空信息,捕捉用户动态注意力模式。与现有的时间序列模型相比,FixGraphPool能够更好地处理非线性关系和长期依赖关系。

关键设计:FixGraphPool模型的关键设计包括:1) 图的构建方式:节点表示注视事件,边表示注视之间的转移关系。2) 节点和边的特征选择:选择与SA相关的特征,例如注视位置、持续时间、扫视幅度、速度等。3) 图神经网络结构:使用多层图卷积网络(GCN)和图池化层(Graph Pooling)提取全局特征。4) 损失函数:使用交叉熵损失函数训练模型,优化SA预测的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FixGraphPool模型在AR引导的CPR场景中,能够有效预测用户的情境感知水平,准确率达到83.0%(F1=81.0%)。与基于特征的机器学习方法和最先进的时间序列模型相比,FixGraphPool模型取得了显著的性能提升,验证了其在眼动追踪数据建模方面的优势。

🎯 应用场景

该研究成果可应用于各种需要高度情境感知的AR应用场景,例如:医疗急救、工业维护、军事训练等。通过实时监测用户的眼动行为,可以评估其情境感知水平,并及时发出警告或提供辅助信息,从而提高任务效率和安全性。未来,该技术还可以用于个性化AR内容推荐,根据用户的注意力模式,推荐更相关的信息。

📄 摘要(原文)

Augmented Reality (AR) systems, while enhancing task performance through real-time guidance, pose risks of inducing cognitive tunneling-a hyperfocus on virtual content that compromises situational awareness (SA) in safety-critical scenarios. This paper investigates SA in AR-guided cardiopulmonary resuscitation (CPR), where responders must balance effective compressions with vigilance to unpredictable hazards (e.g., patient vomiting). We developed an AR app on a Magic Leap 2 that overlays real-time CPR feedback (compression depth and rate) and conducted a user study with simulated unexpected incidents (e.g., bleeding) to evaluate SA, in which SA metrics were collected via observation and questionnaires administered during freeze-probe events. Eye tracking analysis revealed that higher SA levels were associated with greater saccadic amplitude and velocity, and with reduced proportion and frequency of fixations on virtual content. To predict SA, we propose FixGraphPool, a graph neural network that structures gaze events (fixations, saccades) into spatiotemporal graphs, effectively capturing dynamic attentional patterns. Our model achieved 83.0% accuracy (F1=81.0%), outperforming feature-based machine learning and state-of-the-art time-series models by leveraging domain knowledge and spatial-temporal information encoded in ET data. These findings demonstrate the potential of eye tracking for SA modeling in AR and highlight its utility in designing AR systems that ensure user safety and situational awareness.