Digitally Prototype Your Eye Tracker: Simulating Hardware Performance using 3D Synthetic Data

📄 arXiv: 2503.16742v1 📥 PDF

作者: Esther Y. H. Lin, Yimin Ding, Jogendra Kundu, Yatong An, Mohamed T. El-Haddad, Alexander Fix

分类: cs.CV

发布日期: 2025-03-20

备注: 14 pages, 12 figures


💡 一句话要点

提出基于3D合成数据的眼动追踪硬件性能评估方法,加速硬件原型设计。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 眼动追踪 硬件原型设计 合成数据 神经辐射场 性能评估

📋 核心要点

  1. 现有眼动追踪硬件原型设计依赖于昂贵的真实数据采集,限制了硬件迭代速度和机器学习模型的训练。
  2. 该论文提出利用NeRF重建的3D眼睛模型,生成合成数据来模拟不同硬件配置下的眼动追踪性能。
  3. 实验表明,该方法能够预测不同硬件配置下的相对性能,并与真实世界数据具有很强的相关性。

📝 摘要(中文)

眼动追踪(ET)是增强现实(AR)和虚拟现实(VR)的关键技术。新型ET硬件的原型设计需要评估硬件选择对眼动追踪性能的影响。然而,获取足够多真实硬件变体的数据成本高昂,特别是对于需要大型训练数据集的机器学习方法。本文提出了一种仅使用合成数据,对硬件变化如何影响基于机器学习的ET性能进行端到端评估的方法。我们利用从神经辐射场(NeRF)重建的真实3D眼睛数据集,从新的视角和相机参数合成捕获的眼睛图像。通过该框架,我们证明了可以预测各种硬件配置下的相对性能,包括传感器噪声、光照亮度和光学模糊的变化。我们还将模拟器与Project Aria眼镜的公开眼动追踪数据集进行了比较,表明与真实世界性能具有很强的相关性。最后,我们首次分析了ET相机位置变化对性能的影响,评估了从眼睛的轴上直接视图到框架上的周边视图的ET性能。这种分析以前需要制造物理设备来捕获评估数据。简而言之,我们的方法能够更快地进行ET硬件原型设计。

🔬 方法详解

问题定义:眼动追踪硬件原型设计需要评估不同硬件参数(如传感器噪声、光照、相机位置等)对眼动追踪性能的影响。传统方法依赖于构建和测试大量的物理原型,成本高昂且耗时,难以快速迭代。特别是对于依赖机器学习的眼动追踪算法,需要大量标注数据,而真实数据的采集和标注成本很高。

核心思路:利用神经辐射场(NeRF)技术重建真实3D眼睛模型,并基于此生成合成的眼动追踪数据。通过控制合成数据的生成过程,可以模拟不同硬件参数下的图像,从而在虚拟环境中评估硬件性能,无需实际制造硬件原型。这种方法降低了原型设计的成本和时间,并为机器学习模型的训练提供了充足的数据。

技术框架:该方法的核心是构建一个眼动追踪硬件模拟器,其主要流程包括:1) 使用NeRF重建真实3D眼睛模型;2) 基于3D模型,通过改变相机参数(位置、角度、焦距等)和光照条件,生成不同视角的眼睛图像;3) 在生成的图像上模拟传感器噪声和光学模糊等硬件效应;4) 使用生成的合成数据训练或评估眼动追踪算法;5) 分析不同硬件配置下的眼动追踪性能。

关键创新:该方法的主要创新在于利用合成数据进行眼动追踪硬件的端到端评估。与传统方法相比,无需实际制造硬件原型,大大降低了原型设计的成本和时间。此外,该方法可以灵活地控制合成数据的生成过程,模拟各种硬件参数下的图像,从而全面评估硬件性能。首次实现了在虚拟环境中评估眼动追踪相机位置对性能的影响。

关键设计:NeRF模型的训练使用真实眼睛的图像数据。合成图像的生成过程中,需要仔细调整相机参数和光照条件,以模拟真实场景。传感器噪声和光学模糊的模拟需要选择合适的模型和参数,以保证合成数据的真实性。眼动追踪算法的训练和评估需要选择合适的指标,以全面评估硬件性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过实验验证了合成数据与真实数据的相关性,表明该方法能够有效预测不同硬件配置下的眼动追踪性能。与Project Aria眼镜的公开数据集对比,验证了模拟器的有效性。此外,论文还首次分析了眼动追踪相机位置对性能的影响,为硬件设计提供了重要的参考依据。实验结果表明,即使在周边视角下,该方法也能有效评估眼动追踪性能。

🎯 应用场景

该研究成果可应用于AR/VR设备的眼动追踪硬件设计,加速硬件原型迭代,降低研发成本。同时,该方法也可用于评估不同眼动追踪算法在不同硬件平台上的性能,为算法选择提供依据。此外,该技术还可扩展到其他生物特征识别领域,如人脸识别、虹膜识别等,用于评估硬件参数对识别性能的影响。

📄 摘要(原文)

Eye tracking (ET) is a key enabler for Augmented and Virtual Reality (AR/VR). Prototyping new ET hardware requires assessing the impact of hardware choices on eye tracking performance. This task is compounded by the high cost of obtaining data from sufficiently many variations of real hardware, especially for machine learning, which requires large training datasets. We propose a method for end-to-end evaluation of how hardware changes impact machine learning-based ET performance using only synthetic data. We utilize a dataset of real 3D eyes, reconstructed from light dome data using neural radiance fields (NeRF), to synthesize captured eyes from novel viewpoints and camera parameters. Using this framework, we demonstrate that we can predict the relative performance across various hardware configurations, accounting for variations in sensor noise, illumination brightness, and optical blur. We also compare our simulator with the publicly available eye tracking dataset from the Project Aria glasses, demonstrating a strong correlation with real-world performance. Finally, we present a first-of-its-kind analysis in which we vary ET camera positions, evaluating ET performance ranging from on-axis direct views of the eye to peripheral views on the frame. Such an analysis would have previously required manufacturing physical devices to capture evaluation data. In short, our method enables faster prototyping of ET hardware.