FOVAL: Calibration-Free and Subject-Invariant Fixation Depth Estimation Across Diverse Eye-Tracking Datasets
作者: Benedikt W. Hosp
分类: cs.CV, cs.AI, cs.HC, cs.LG, eess.SP
发布日期: 2024-08-07 (更新: 2025-09-19)
💡 一句话要点
提出FOVAL,实现无需校准且主体无关的注视深度估计,适用于多种眼动追踪数据集。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 注视深度估计 眼动追踪 无需校准 主体无关 LSTM网络
📋 核心要点
- 现有注视深度估计方法依赖用户校准,限制了其在实际场景中的应用和扩展。
- FOVAL结合LSTM网络进行时空序列建模,并采用主体无关的特征工程和归一化,实现无需校准的深度估计。
- 实验表明,FOVAL在多个数据集上表现优于Transformer、TCN和CNN,MAE达到9.1厘米,具有良好的泛化能力。
📝 摘要(中文)
精确的注视深度估计对于扩展现实(XR)、机器人和人机交互等应用至关重要。然而,当前的方法严重依赖于用户特定的校准,这限制了它们的可扩展性和可用性。我们介绍了一种鲁棒的、无需校准的方法FOVAL,它结合了通过长短期记忆(LSTM)网络进行的时空序列建模,以及主体无关的特征工程和归一化。与Transformers、时间卷积网络(TCNs)和CNNs相比,FOVAL实现了卓越的性能,尤其是在有限和嘈杂的注视数据场景中。使用留一法交叉验证(LOOCV)和跨数据集验证在三个基准数据集上的评估显示,平均绝对误差(MAE)为9.1厘米,并且在没有校准的情况下具有很强的泛化能力。我们进一步分析了主体间变异性和领域偏移,从而深入了解了模型的鲁棒性和适应性。FOVAL的可扩展性和准确性使其非常适合实际部署。
🔬 方法详解
问题定义:论文旨在解决注视深度估计中对用户特定校准的依赖问题。现有方法需要针对每个用户进行校准,这使得它们难以扩展到大规模应用,并且在用户数量庞大或环境变化频繁的场景中不实用。此外,校准过程本身也可能引入误差,影响深度估计的准确性。
核心思路:FOVAL的核心思路是利用时空序列建模来学习注视数据中的深度信息,同时通过主体无关的特征工程和归一化来消除个体差异的影响。通过LSTM网络对注视数据的时序依赖性进行建模,可以更好地捕捉注视行为的动态变化,从而提高深度估计的准确性。主体无关的特征工程和归一化则可以减少个体差异对模型性能的影响,使其具有更好的泛化能力。
技术框架:FOVAL的整体框架包括以下几个主要步骤:1) 数据预处理:对原始注视数据进行清洗和格式化,提取相关特征。2) 特征工程:设计主体无关的特征,例如注视角度、速度和加速度等。3) 特征归一化:对特征进行归一化处理,消除量纲和数值范围的影响。4) 时序建模:使用LSTM网络对归一化后的特征序列进行建模,学习注视数据中的深度信息。5) 深度估计:利用LSTM网络的输出预测注视深度。
关键创新:FOVAL的关键创新在于其无需校准且主体无关的设计。通过结合时空序列建模和主体无关的特征工程,FOVAL能够有效地消除个体差异和环境变化的影响,从而实现鲁棒的深度估计。此外,FOVAL还采用了LSTM网络进行时序建模,可以更好地捕捉注视行为的动态变化。
关键设计:FOVAL的关键设计包括:1) 使用LSTM网络进行时序建模,LSTM的层数和隐藏单元数需要根据数据集的大小和复杂度进行调整。2) 设计主体无关的特征,例如注视角度、速度和加速度等,这些特征应该能够反映注视行为的本质特征,并且不受个体差异的影响。3) 使用合适的损失函数,例如平均绝对误差(MAE)或均方误差(MSE),来衡量预测深度和真实深度之间的差异。4) 采用合适的优化算法,例如Adam或SGD,来训练LSTM网络。
🖼️ 关键图片
📊 实验亮点
FOVAL在三个基准数据集上进行了评估,使用留一法交叉验证(LOOCV)和跨数据集验证。实验结果表明,FOVAL在没有校准的情况下,平均绝对误差(MAE)为9.1厘米,优于Transformer、TCN和CNN等基线方法。这表明FOVAL具有很强的泛化能力和鲁棒性,能够有效地应用于不同的数据集和用户。
🎯 应用场景
FOVAL适用于多种需要精确注视深度估计的场景,如扩展现实(XR)中的虚拟物体交互、机器人中的目标定位与抓取、人机交互中的意图识别与辅助。该研究降低了眼动追踪技术的应用门槛,促进其在医疗、教育、游戏等领域的普及,并为未来的普适计算提供更自然、便捷的交互方式。
📄 摘要(原文)
Accurate fixation depth estimation is essential for applications in extended reality (XR), robotics, and human-computer interaction. However, current methods heavily depend on user-specific calibration, which limits their scalability and usability. We introduce FOVAL, a robust calibration-free approach that combines spatiotemporal sequence modelling via Long Short-Term Memory (LSTM) networks with subject-invariant feature engineering and normalisation. Compared to Transformers, Temporal Convolutional Networks (TCNs), and CNNs, FOVAL achieves superior performance, particularly in scenarios with limited and noisy gaze data. Evaluations across three benchmark datasets using Leave-One-Out Cross-Validation (LOOCV) and cross-dataset validation show a mean absolute error (MAE) of 9.1 cm and strong generalisation without calibration. We further analyse inter-subject variability and domain shifts, providing insight into model robustness and adaptation. FOVAL's scalability and accuracy make it highly suitable for real-world deployment.