MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking

📄 arXiv: 2505.22769v3 📥 PDF

作者: Yaxiong Lei, Mingyue Zhao, Yuheng Wang, Shijing He, Yusuke Sugano, Mohamed Khamis, Juan Ye

分类: cs.HC, cs.CV

发布日期: 2025-05-28 (更新: 2025-06-05)

备注: 24 pages, 7 figures


💡 一句话要点

MAC-Gaze:针对移动端注视追踪的运动感知持续校准方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动端注视追踪 持续校准 运动感知 惯性测量单元 持续学习

📋 核心要点

  1. 现有移动端注视追踪方法难以适应用户姿势和设备方向的动态变化,导致校准后精度快速下降。
  2. MAC-Gaze利用IMU数据感知用户运动状态,并结合持续学习技术,在运动状态变化时自动触发模型重校准。
  3. 实验表明,MAC-Gaze在RGBDGaze和MotionGaze数据集上分别将注视估计误差降低了19.9%和31.7%。

📝 摘要(中文)

移动端注视追踪面临一个根本性挑战:当用户自然地改变姿势和设备方向时,如何保持准确性。传统的校准方法,如一次性校准,无法适应这些动态条件,导致性能随时间下降。我们提出了MAC-Gaze,一种运动感知的持续校准方法,它利用智能手机的惯性测量单元(IMU)传感器和持续学习技术,自动检测用户运动状态的变化,并相应地更新注视追踪模型。我们的系统集成了预训练的视觉注视估计器和基于IMU的活动识别模型,以及基于聚类的混合决策机制,当运动模式与先前遇到的状态显著偏离时,触发重新校准。为了在减轻灾难性遗忘的同时,实现对新运动条件的累积学习,我们采用了基于回放的持续学习,使模型能够在先前遇到的运动条件下保持性能。我们在公开的RGBDGaze数据集和我们自己的10小时多模态MotionGaze数据集(481K+图像,800K+ IMU读数)上进行了广泛的实验,涵盖了各种运动条件下的各种姿势,包括坐、站、躺和走。结果表明,与传统的校准方法相比,我们的方法在RGBDGaze上将注视估计误差降低了19.9%(从1.73厘米降至1.41厘米),在MotionGaze上降低了31.7%(从2.81厘米降至1.92厘米)。我们的框架为在移动场景中保持注视估计的准确性提供了一个强大的解决方案。

🔬 方法详解

问题定义:移动端注视追踪的精度会受到用户姿势和设备方向变化的影响,传统的一次性校准方法无法适应这些动态变化,导致注视估计精度随时间推移而显著下降。因此,需要一种能够自动适应用户运动状态变化的持续校准方法。

核心思路:利用智能手机内置的IMU传感器来感知用户的运动状态,并根据运动状态的变化自适应地触发注视追踪模型的重新校准。通过持续学习,模型可以不断学习新的运动状态下的注视估计,同时避免遗忘先前学习到的知识。

技术框架:MAC-Gaze系统包含三个主要模块:预训练的视觉注视估计器、基于IMU的活动识别模型和基于聚类的混合决策机制。首先,视觉注视估计器负责初始的注视估计。然后,IMU数据被输入到活动识别模型中,以识别用户的运动状态。混合决策机制根据运动状态的变化情况,决定是否需要触发重新校准。如果需要重新校准,则使用持续学习方法更新注视估计模型。

关键创新:MAC-Gaze的关键创新在于其运动感知的持续校准机制。与传统方法不同,MAC-Gaze能够根据用户的运动状态自适应地调整注视追踪模型,从而保持较高的精度。此外,该方法还采用了基于回放的持续学习策略,有效地缓解了灾难性遗忘问题。

关键设计:混合决策机制采用基于聚类的策略,将IMU数据聚类成不同的运动状态。当新的IMU数据与现有聚类的距离超过一定阈值时,则认为用户的运动状态发生了显著变化,需要触发重新校准。持续学习采用iCaRL算法,通过保留少量历史数据进行回放,防止模型遗忘先前学习到的知识。损失函数包括注视估计损失和知识蒸馏损失,以保证模型在学习新知识的同时,保持对旧知识的记忆。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAC-Gaze在RGBDGaze数据集上将注视估计误差从1.73厘米降低到1.41厘米,降低了19.9%;在MotionGaze数据集上将注视估计误差从2.81厘米降低到1.92厘米,降低了31.7%。与传统校准方法相比,MAC-Gaze在动态移动场景下显著提高了注视追踪的精度。

🎯 应用场景

该研究成果可广泛应用于需要精确注视追踪的移动应用中,例如辅助驾驶、人机交互、虚拟现实/增强现实、眼动控制设备等。通过提高移动场景下的注视追踪精度,可以改善用户体验,并为相关应用提供更可靠的数据支持。未来,该技术有望进一步扩展到其他可穿戴设备和物联网设备中。

📄 摘要(原文)

Mobile gaze tracking faces a fundamental challenge: maintaining accuracy as users naturally change their postures and device orientations. Traditional calibration approaches, like one-off, fail to adapt to these dynamic conditions, leading to degraded performance over time. We present MAC-Gaze, a Motion-Aware continual Calibration approach that leverages smartphone Inertial measurement unit (IMU) sensors and continual learning techniques to automatically detect changes in user motion states and update the gaze tracking model accordingly. Our system integrates a pre-trained visual gaze estimator and an IMU-based activity recognition model with a clustering-based hybrid decision-making mechanism that triggers recalibration when motion patterns deviate significantly from previously encountered states. To enable accumulative learning of new motion conditions while mitigating catastrophic forgetting, we employ replay-based continual learning, allowing the model to maintain performance across previously encountered motion conditions. We evaluate our system through extensive experiments on the publicly available RGBDGaze dataset and our own 10-hour multimodal MotionGaze dataset (481K+ images, 800K+ IMU readings), encompassing a wide range of postures under various motion conditions including sitting, standing, lying, and walking. Results demonstrate that our method reduces gaze estimation error by 19.9% on RGBDGaze (from 1.73 cm to 1.41 cm) and by 31.7% on MotionGaze (from 2.81 cm to 1.92 cm) compared to traditional calibration approaches. Our framework provides a robust solution for maintaining gaze estimation accuracy in mobile scenarios.