Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal Modeling
作者: Hoang M. Truong, Vinh-Thuan Ly, Huy G. Tran, Thuan-Phat Nguyen, Tram T. Doan
分类: cs.CV
发布日期: 2025-04-14
备注: Camera-ready version for CVPRW 2025. Accepted for presentation at the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW 2025)
期刊: IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, Nashville, 2025
💡 一句话要点
提出KnightPupil,增强事件相机眼动追踪的鲁棒性和自适应时序建模能力
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 眼动追踪 数据增强 时序建模 状态空间模型 神经形态视觉 鲁棒性 EfficientNet
📋 核心要点
- 现有事件相机眼动追踪方法难以应对突发眼动和环境噪声等实际场景的挑战。
- 提出KnightPupil混合架构,结合空间特征提取、上下文时序建模和动态适应模块,提升鲁棒性。
- 实验结果表明,该方法在3ET+基准测试中取得了显著的性能提升,降低了欧几里得距离误差。
📝 摘要(中文)
事件相机眼动追踪已成为增强现实和人机交互的关键技术。然而,现有方法在应对突发眼动和环境噪声等实际挑战时表现不佳。本文在轻量级时空网络(一种为边缘设备优化的因果架构)的基础上,提出了两项关键改进。首先,一个强大的数据增强流程,包含时间偏移、空间翻转和事件删除,提高了模型的鲁棒性,在具有挑战性的样本上将欧几里得距离误差降低了12%(1.61 vs. 1.70 基线)。其次,我们提出了KnightPupil,一种混合架构,结合了用于空间特征提取的EfficientNet-B3骨干网络、用于上下文时序建模的双向GRU以及线性时变状态空间模块,以动态适应稀疏输入和噪声。在3ET+基准测试中,我们的框架在CVPR 2025事件相机眼动追踪挑战赛的私有测试集上实现了1.61的欧几里得距离,证明了其在AR/VR系统中实际部署的有效性,并为神经形态视觉的未来创新奠定了基础。
🔬 方法详解
问题定义:事件相机眼动追踪旨在利用事件相机捕捉的视觉信息来估计人眼注视点。现有方法在处理真实场景中常见的突发眼动和环境噪声时,鲁棒性不足,精度有待提高。尤其是在事件数据稀疏或质量不高的情况下,性能会显著下降。
核心思路:论文的核心思路是通过数据增强和混合架构设计,提升模型对噪声和稀疏事件数据的适应能力。数据增强旨在模拟真实场景中的各种干扰因素,增加模型的泛化能力。混合架构则结合了卷积神经网络的空间特征提取能力、循环神经网络的时序建模能力以及状态空间模型的动态适应能力。
技术框架:KnightPupil框架主要包含三个模块:1) EfficientNet-B3骨干网络,用于从事件数据中提取空间特征;2) 双向GRU,用于捕捉上下文时序信息,建模眼动轨迹;3) 线性时变状态空间模块,用于动态适应稀疏输入和噪声,平滑预测结果。整个框架以端到端的方式进行训练。
关键创新:该论文的关键创新在于混合架构的设计,特别是线性时变状态空间模块的引入。该模块能够根据输入数据的稀疏程度和噪声水平,动态调整模型的参数,从而提高模型的鲁棒性和适应性。此外,数据增强流程也显著提升了模型的泛化能力。
关键设计:数据增强包括时间偏移(模拟不同步的事件流)、空间翻转(增加数据多样性)和事件删除(模拟数据丢失)。EfficientNet-B3的选择考虑了计算效率和特征提取能力的平衡。双向GRU能够捕捉过去和未来的上下文信息。线性时变状态空间模块的具体参数设置和训练方式未知,但其目标是最小化预测误差,同时保持模型的平滑性。
🖼️ 关键图片
📊 实验亮点
该方法在3ET+基准测试的私有测试集上取得了1.61的欧几里得距离误差,相较于基线方法降低了12%(1.61 vs. 1.70)。数据增强策略也显著提升了模型在具有挑战性样本上的性能。这些结果表明,该方法在实际应用中具有很强的竞争力。
🎯 应用场景
该研究成果可应用于增强现实(AR)和虚拟现实(VR)系统中的眼动追踪,提升用户交互体验。此外,还可应用于人机交互、辅助驾驶、医疗诊断等领域,通过精确的眼动追踪实现更自然、更高效的人机协作。未来,该技术有望进一步推动神经形态视觉的发展。
📄 摘要(原文)
Event-based eye tracking has become a pivotal technology for augmented reality and human-computer interaction. Yet, existing methods struggle with real-world challenges such as abrupt eye movements and environmental noise. Building on the efficiency of the Lightweight Spatiotemporal Network-a causal architecture optimized for edge devices-we introduce two key advancements. First, a robust data augmentation pipeline incorporating temporal shift, spatial flip, and event deletion improves model resilience, reducing Euclidean distance error by 12% (1.61 vs. 1.70 baseline) on challenging samples. Second, we propose KnightPupil, a hybrid architecture combining an EfficientNet-B3 backbone for spatial feature extraction, a bidirectional GRU for contextual temporal modeling, and a Linear Time-Varying State-Space Module to adapt to sparse inputs and noise dynamically. Evaluated on the 3ET+ benchmark, our framework achieved 1.61 Euclidean distance on the private test set of the Event-based Eye Tracking Challenge at CVPR 2025, demonstrating its effectiveness for practical deployment in AR/VR systems while providing a foundation for future innovations in neuromorphic vision.