Quantifying the Impact of Motion on 2D Gaze Estimation in Real-World Mobile Interactions

📄 arXiv: 2502.10570v2 📥 PDF

作者: Yaxiong Lei, Yuheng Wang, Fergus Buchanan, Mingyue Zhao, Yusuke Sugano, Shijing He, Mohamed Khamis, Juan Ye

分类: cs.HC, cs.CV

发布日期: 2025-02-14 (更新: 2025-05-28)

备注: 27 pages, 14 figures


💡 一句话要点

量化移动交互中运动对2D注视估计的影响,揭示动态场景下的精度下降

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 移动注视追踪 眼动追踪 用户研究 运动影响 精度分析

📋 核心要点

  1. 移动注视追踪在动态场景下精度不足,用户与设备的空间关系变化和运动干扰是主要挑战。
  2. 通过用户研究,量化分析了头部距离、姿态和设备方向等因素对注视追踪精度的影响。
  3. 实验表明,动态条件下注视追踪误差显著增加,突出了开发更鲁棒系统的必要性。

📝 摘要(中文)

移动端注视追踪旨在通过设备前置摄像头捕获的面部图像,推断用户在移动设备屏幕上的注视点或方向。尽管这项技术激发了越来越多的注视交互应用,但由于移动环境中固有的动态用户-设备空间关系和各种运动条件,实现一致的精度仍然具有挑战性。本文提供了关于用户移动性和行为如何影响移动端注视追踪精度的经验证据。我们进行了两项用户研究,收集了各种运动条件(从躺卧到迷宫导航)和不同交互任务下的行为和注视数据。定量分析揭示了日常任务中的行为规律,并确定了头部距离、头部姿势和设备方向是影响精度的关键因素,与静态条件相比,动态条件下的误差增加了高达48.91%。这些发现强调了对更鲁棒、自适应的眼动追踪系统的需求,该系统需要考虑头部运动和设备偏转,以在不同的移动环境中保持精度。

🔬 方法详解

问题定义:论文旨在解决移动场景下,由于用户运动和设备姿态变化导致的2D注视估计精度下降问题。现有的注视估计方法在静态或受控环境下表现良好,但在实际移动应用中,用户头部运动、设备抖动等因素会显著降低估计精度,限制了移动注视交互的应用范围。

核心思路:论文的核心思路是通过大规模用户研究,量化分析不同运动状态和交互任务下,头部姿态、头部距离、设备方向等因素对注视估计精度的影响。通过识别影响精度的关键因素,为后续开发更鲁棒的注视估计模型提供指导。

技术框架:论文采用用户研究的方法,收集不同运动状态(如静止、行走、跑步、导航等)和交互任务(如阅读、游戏、浏览网页等)下的眼动数据和行为数据。使用前置摄像头采集面部图像,结合设备内置传感器(如加速度计、陀螺仪)数据,构建包含头部姿态、头部距离、设备方向等信息的特征向量。然后,分析这些特征与注视估计误差之间的关系,建立量化模型。

关键创新:论文的关键创新在于首次系统性地量化了运动对移动端2D注视估计精度的影响。以往的研究主要集中在算法层面,而忽略了实际应用场景中运动带来的挑战。通过大规模用户研究,论文揭示了影响精度的关键因素,为后续研究提供了重要的经验依据。

关键设计:论文设计了两个用户研究。研究一侧重于不同运动状态下的注视数据采集,研究二侧重于不同交互任务下的注视数据采集。在数据采集过程中,使用了校准程序来减少个体差异。数据分析方面,采用了回归分析等统计方法,量化了头部姿态、头部距离、设备方向等因素与注视估计误差之间的关系。具体参数设置和损失函数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,在动态条件下,注视估计误差相比静态条件增加了高达48.91%。头部距离、头部姿势和设备方向被确定为影响精度的关键因素。这些量化结果为后续研究提供了明确的目标,即需要开发能够有效应对头部运动和设备偏转的鲁棒性眼动追踪系统。

🎯 应用场景

该研究成果可应用于多种移动交互场景,例如辅助驾驶、虚拟现实/增强现实、移动游戏、无障碍辅助等。通过提升移动端注视追踪的精度和鲁棒性,可以实现更自然、更高效的人机交互方式,为用户提供更优质的移动体验。未来的研究可以基于这些发现,开发自适应的注视追踪算法,根据用户的运动状态和交互任务动态调整模型参数,从而进一步提升精度。

📄 摘要(原文)

Mobile gaze tracking involves inferring a user's gaze point or direction on a mobile device's screen from facial images captured by the device's front camera. While this technology inspires an increasing number of gaze-interaction applications, achieving consistent accuracy remains challenging due to dynamic user-device spatial relationships and varied motion conditions inherent in mobile contexts. This paper provides empirical evidence on how user mobility and behaviour affect mobile gaze tracking accuracy. We conduct two user studies collecting behaviour and gaze data under various motion conditions - from lying to maze navigation - and during different interaction tasks. Quantitative analysis has revealed behavioural regularities among daily tasks and identified head distance, head pose, and device orientation as key factors affecting accuracy, with errors increasing by up to 48.91% in dynamic conditions compared to static ones. These findings highlight the need for more robust, adaptive eye-tracking systems that account for head movements and device deflection to maintain accuracy across diverse mobile contexts.