Rapidly deploying on-device eye tracking by distilling visual foundation models

📄 arXiv: 2604.02509 📥 PDF

作者: Cheng Jiang, Jogendra Kundu, David Colmenares, Fengting Yang, Joseph Robinson, Yatong An, Ali Behrooz

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

DistillGaze:通过蒸馏视觉基础模型实现快速部署的设备端眼动追踪

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼动追踪 视觉基础模型 知识蒸馏 合成数据 自监督学习 设备端部署 增强现实 虚拟现实

📋 核心要点

  1. 现有眼动追踪模型难以快速适应不同硬件配置(相机位置、姿态、光照等)带来的变化,限制了其在新产品中的快速部署。
  2. DistillGaze框架通过蒸馏视觉基础模型,结合合成数据和无标签真实数据,训练轻量级、高性能的设备端眼动追踪模型。
  3. 实验表明,DistillGaze在大型数据集上显著降低了注视误差(58.62%),同时保持了模型的小尺寸,适合设备端实时部署。

📝 摘要(中文)

眼动追踪(ET)在增强现实和虚拟现实应用中至关重要。然而,为新产品快速部署高精度、设备端的注视估计仍然具有挑战性,因为硬件配置(例如,相机位置、相机姿态和照明)通常随设备世代而变化。视觉基础模型(VFMs)是快速训练和部署的一个有希望的方向,并且它们在自然图像基准测试中表现出色;然而,我们发现现成的VFMs仍然难以在专门的近眼红外图像上实现高精度。为了解决这个差距,我们引入了DistillGaze,这是一个通过利用标记的合成数据和未标记的真实数据来蒸馏基础模型,从而实现快速和高性能的设备端注视估计的框架。DistillGaze分两个阶段进行。首先,我们使用在标记的合成图像和未标记的真实图像上的自监督学习将VFM适配成领域特定的教师模型。合成数据提供可扩展的、高质量的注视监督,而未标记的真实数据有助于弥合合成到真实的领域差距。其次,我们使用教师指导和自训练来训练设备端的学生模型。在一个跨越2000多名参与者的大规模众包数据集上进行评估,DistillGaze相对于仅使用合成数据的基线,将中值注视误差降低了58.62%,同时保持了一个轻量级的256K参数模型,适用于实时设备端部署。总的来说,DistillGaze为训练和部署适应硬件变化的ET模型提供了一条有效的途径,并为在设备端回归任务中结合合成监督和未标记的真实数据提供了一个方案。

🔬 方法详解

问题定义:论文旨在解决眼动追踪模型在不同硬件配置下泛化能力差的问题。现有方法通常需要大量标注的真实数据,成本高昂且难以快速适应新的设备。直接使用视觉基础模型(VFMs)在近眼红外图像上表现不佳,无法满足精度要求。

核心思路:论文的核心思路是利用知识蒸馏,将一个在合成数据和无标签真实数据上预训练的教师模型(基于VFM)的知识迁移到一个轻量级的学生模型。合成数据提供高质量的标注,无标签真实数据弥合合成数据和真实数据之间的领域差异,从而提高模型在真实场景下的泛化能力。

技术框架:DistillGaze框架包含两个主要阶段:教师模型训练和学生模型训练。 1. 教师模型训练:首先,选择一个视觉基础模型(VFM)作为骨干网络。然后,使用合成眼动追踪数据和无标签的真实眼动追踪数据进行自监督学习,以适应眼动追踪任务的特定领域。合成数据提供精确的注视标签,而无标签真实数据帮助模型学习真实图像的特征分布。 2. 学生模型训练:使用教师模型的预测作为软标签,并结合真实标签(如果可用),训练一个轻量级的学生模型。此外,还采用了自训练策略,利用学生模型对无标签数据进行预测,并将其作为额外的训练数据。

关键创新:该方法最重要的创新点在于结合了合成数据、无标签真实数据和知识蒸馏,有效地利用了各种数据源的优势。与传统的仅使用合成数据或仅使用真实数据的方法相比,DistillGaze能够以更低的成本和更高的效率训练出高性能的眼动追踪模型。

关键设计: * 教师模型:使用预训练的视觉基础模型(例如,ViT)作为骨干网络,并使用自监督学习方法(例如,对比学习)在合成数据和无标签真实数据上进行微调。 * 学生模型:选择一个轻量级的网络结构(例如,MobileNet)作为学生模型,以满足设备端部署的要求。 * 损失函数:使用教师模型的预测作为软标签,并结合真实标签(如果可用),设计一个混合损失函数。该损失函数包括交叉熵损失(用于分类任务)和均方误差损失(用于回归任务)。 * 自训练:使用学生模型对无标签数据进行预测,并选择置信度高的预测作为额外的训练数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DistillGaze在大型众包数据集上进行了评估,结果表明,相对于仅使用合成数据的基线方法,DistillGaze将中值注视误差降低了58.62%。同时,该模型仅包含256K个参数,非常适合在设备端实时部署。这些结果表明,DistillGaze是一种高效且实用的眼动追踪解决方案。

🎯 应用场景

DistillGaze在增强现实(AR)和虚拟现实(VR)领域具有广泛的应用前景。它可以用于改善用户交互体验,例如通过注视点渲染来提高渲染效率,或者通过眼动追踪来实现更自然的交互方式。此外,该技术还可以应用于眼科疾病诊断、用户行为分析等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Eye tracking (ET) plays a critical role in augmented and virtual reality applications. However, rapidly deploying high-accuracy, on-device gaze estimation for new products remains challenging because hardware configurations (e.g., camera placement, camera pose, and illumination) often change across device generations. Visual foundation models (VFMs) are a promising direction for rapid training and deployment, and they excel on natural-image benchmarks; yet we find that off-the-shelf VFMs still struggle to achieve high accuracy on specialized near-eye infrared imagery. To address this gap, we introduce DistillGaze, a framework that distills a foundation model by leveraging labeled synthetic data and unlabeled real data for rapid and high-performance on-device gaze estimation. DistillGaze proceeds in two stages. First, we adapt a VFM into a domain-specialized teacher using self-supervised learning on labeled synthetic and unlabeled real images. Synthetic data provides scalable, high-quality gaze supervision, while unlabeled real data helps bridge the synthetic-to-real domain gap. Second, we train an on-device student using both teacher guidance and self-training. Evaluated on a large-scale, crowd-sourced dataset spanning over 2,000 participants, DistillGaze reduces median gaze error by 58.62% relative to synthetic-only baselines while maintaining a lightweight 256K-parameter model suitable for real-time on-device deployment. Overall, DistillGaze provides an efficient pathway for training and deploying ET models that adapt to hardware changes, and offers a recipe for combining synthetic supervision with unlabeled real data in on-device regression tasks.