GazePrior: Zero-Shot AR/VR Eye Tracking via Learned 3D Gaze Reconstruction
作者: Corentin Dumery, David Colmenares, Alexander Fix, Pascal Fua, Ali Behrooz, Jogendra Kundu
分类: cs.CV
发布日期: 2026-05-21
备注: Project page: https://corentindumery.github.io/projects/gazeprior.html
💡 一句话要点
GazePrior:通过学习3D注视重建实现零样本AR/VR眼动追踪
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 眼动追踪 AR/VR 零样本学习 3D重建 合成数据
📋 核心要点
- 现有眼动追踪模型训练依赖大量真实数据,成本高昂,而合成数据真实性不足,限制了新设备的应用。
- 论文提出GazePrior,通过学习人眼3D分布先验,实现从少量旧设备数据到新设备数据的合成。
- 实验表明,使用GazePrior合成数据训练的眼动追踪模型,在零样本场景下,精度和鲁棒性均优于现有方法。
📝 摘要(中文)
眼动追踪(ET)是高级AR/VR应用的基础技术。然而,为每个新的ET设备训练ET模型具有挑战性:真实数据收集成本高且耗时,而现有的合成数据生成方法缺乏真实感。为了消除额外数据收集的需要,同时保持数据质量,我们引入了一种数据驱动的3D先验,该先验对不同身份、注视方向和光照设置下的人眼分布进行建模。这个模型,我们称之为GazePrior,能够对先前ET设备收集的带注释数据进行稀疏输入3D重建,进而可以从任何目标ET设备的相机中渲染这些数据。我们的方法合成了具有真实性、多样性和真实数据ground-truth准确性的数据,而无需付出高昂的成本。实验表明,使用我们合成的数据训练的ET模型优于以前的零样本方法,实现了更高的准确性和鲁棒性。
🔬 方法详解
问题定义:论文旨在解决为新的AR/VR眼动追踪设备训练模型时,需要大量真实数据或面临合成数据真实性不足的问题。现有方法要么依赖昂贵的真实数据采集,要么生成的合成数据与真实数据存在较大差距,导致模型在新设备上的泛化能力差。
核心思路:论文的核心思路是学习一个能够捕捉人眼3D结构和外观变化的先验模型(GazePrior)。该先验模型可以用于从少量已有的眼动追踪数据中重建出高质量的3D人眼模型,并将其渲染到新的设备视角下,从而生成逼真的合成训练数据。
技术框架:整体框架包含以下几个主要步骤:1) 使用已有的眼动追踪数据(来自旧设备)训练GazePrior模型。2) 使用GazePrior模型对旧设备数据进行3D人眼重建。3) 将重建的3D人眼模型渲染到新设备的视角下,生成合成训练数据。4) 使用合成数据训练眼动追踪模型,使其能够在新的设备上进行眼动追踪。
关键创新:论文的关键创新在于提出了GazePrior,这是一个数据驱动的3D人眼先验模型,能够捕捉人眼在不同身份、注视方向和光照条件下的变化。与传统的基于几何模型或简单纹理映射的合成方法相比,GazePrior能够生成更逼真、更多样化的合成数据。
关键设计:GazePrior的具体实现细节未知,但可以推测其可能采用了深度学习技术,例如变分自编码器(VAE)或生成对抗网络(GAN),来学习人眼3D结构和外观的潜在空间表示。损失函数可能包括重建损失、对抗损失等,以保证生成数据的真实性和多样性。此外,渲染过程可能需要考虑光照、纹理等因素,以进一步提高合成数据的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用GazePrior合成数据训练的眼动追踪模型在零样本场景下,相比于其他零样本方法,取得了显著的性能提升。具体的性能数据和对比基线未知,但论文强调了更高的准确性和鲁棒性,表明GazePrior在解决数据稀缺问题上具有明显优势。
🎯 应用场景
该研究成果可广泛应用于AR/VR眼动追踪领域,尤其是在新设备快速迭代的背景下,能够显著降低数据采集成本,加速眼动追踪技术的普及。此外,该方法还可以应用于眼部疾病诊断、人机交互等领域,具有重要的实际价值和广阔的应用前景。
📄 摘要(原文)
Eye tracking (ET) is a foundational technology for advanced AR/VR applications. However, training ET models for every new ET device is challenging: real data collection is costly and time-consuming, while existing synthetic data generation methods lack realism. To remove the need for additional data collection while maintaining data quality, we introduce a data-driven 3D prior that models the distribution of human eyes across diverse identities, gaze directions, and light settings. This model, which we coin GazePrior, then enables sparse-input 3D reconstruction of annotated data collected with previous ET devices, which can in turn be rendered from the cameras of any target ET device. Our approach synthesizes data with the realism, diversity and ground-truth accuracy of real data collection without its prohibitive costs. Our experiments demonstrate that ET models trained with our synthesized data outperform previous zero-shot methods, achieving higher accuracy and robustness.