HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination

📄 arXiv: 2504.19828v1 📥 PDF

作者: Zhiming Hu, Daniel Haeufle, Syn Schmitt, Andreas Bulling

分类: cs.CV

发布日期: 2025-04-28

备注: Accepted at SIGGRAPH 2025, link: https://zhiminghu.net/hu25_hoigaze.html


💡 一句话要点

HOIGaze:利用眼-手-头协同,提升扩展现实中手-物交互的注视点估计精度

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 注视点估计 手-物交互 扩展现实 眼-手-头协同 跨模态Transformer

📋 核心要点

  1. 现有注视点估计方法在处理手-物交互场景时,忽略了眼、手、头之间的协同关系,导致训练数据质量不高。
  2. HOIGaze利用眼-手-头运动的协同性,通过分层框架和眼-头协调损失,筛选并优化训练数据,提升模型性能。
  3. 实验结果表明,HOIGaze在HOT3D和ADT数据集上显著优于现有方法,并在下游任务中取得了性能提升。

📝 摘要(中文)

本文提出HOIGaze,一种新的基于学习的方法,用于扩展现实(XR)中手-物交互(HOI)期间的注视点估计。HOIGaze的关键在于,眼、手和头部运动在HOI期间密切协调,这种协调可用于识别最适合注视点估计器训练的样本,从而有效地对训练数据进行去噪。这种去噪方法与以往将所有训练样本视为相同的方法形成鲜明对比。具体来说,我们提出:1)一种新的分层框架,首先识别当前视觉关注的手,然后基于关注的手估计注视方向;2)一种新的注视点估计器,使用跨模态Transformer融合使用卷积神经网络和时空图卷积网络提取的头部和手-物特征;3)一种新的眼-头协调损失,用于提升属于协调的眼-头运动的训练样本。在HOT3D和Aria数字孪生(ADT)数据集上的评估表明,HOIGaze显著优于现有方法,在平均角度误差方面,HOT3D数据集上平均提升15.6%,ADT数据集上平均提升6.0%。为了展示该方法的潜力,我们进一步报告了在ADT数据集上基于眼睛的活动识别这一下游任务的显著性能提升。总而言之,我们的结果强调了眼-手-头协调中可用的重要信息内容,并为基于学习的注视点估计开辟了一个令人兴奋的新方向。

🔬 方法详解

问题定义:论文旨在解决扩展现实(XR)环境中,手-物交互(HOI)场景下的精确注视点估计问题。现有方法通常将所有训练样本同等对待,忽略了眼、手、头之间的协同关系,导致训练数据中存在噪声,限制了模型的性能提升。尤其是在HOI场景下,由于手部动作的复杂性和遮挡,注视点估计更具挑战性。

核心思路:论文的核心思路是利用眼、手、头运动在HOI场景下的协同性,对训练数据进行选择性加权,从而提升训练数据的质量。具体来说,当眼、手、头运动协调一致时,认为该样本包含的信息量更大,更适合用于训练注视点估计器。通过这种方式,可以有效地降低噪声数据的影响,提高模型的泛化能力。

技术框架:HOIGaze采用一种分层框架。首先,模型识别当前视觉关注的手部。然后,基于关注的手部,估计注视方向。该框架包含三个主要模块:1)手部注意力识别模块,用于确定用户正在关注的手部;2)注视点估计模块,使用跨模态Transformer融合头部和手-物特征,估计注视方向;3)眼-头协调损失模块,用于提升协调的眼-头运动的训练样本的权重。

关键创新:论文的关键创新在于提出了利用眼-手-头协同性进行训练数据去噪的方法。与以往将所有训练样本视为相同的方法不同,HOIGaze通过眼-头协调损失,对训练样本进行选择性加权,从而提升训练数据的质量。此外,论文还提出了一个新的分层框架,首先识别关注的手部,然后基于关注的手部估计注视方向,从而更好地利用了手部信息。

关键设计:在注视点估计模块中,论文使用卷积神经网络(CNN)提取头部特征,使用时空图卷积网络(ST-GCN)提取手-物特征。然后,使用跨模态Transformer融合这些特征,估计注视方向。眼-头协调损失的设计基于眼、头运动速度之间的关系。当眼、头运动速度相似时,认为眼-头运动是协调的,该样本的权重会增加。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HOIGaze在HOT3D和Aria数字孪生(ADT)数据集上进行了评估,结果表明其显著优于现有方法。在HOT3D数据集上,HOIGaze的平均角度误差降低了15.6%。在ADT数据集上,平均角度误差降低了6.0%。此外,在ADT数据集上,HOIGaze在基于眼睛的活动识别这一下游任务中也取得了显著的性能提升,验证了该方法的有效性。

🎯 应用场景

HOIGaze在扩展现实(XR)和增强现实(AR)领域具有广泛的应用前景。例如,它可以用于改善人机交互体验,实现更自然的交互方式。此外,HOIGaze还可以应用于眼动追踪辅助的活动识别、虚拟现实游戏、远程协作等领域,提升用户体验和工作效率。该研究有望推动基于眼动追踪技术的应用发展。

📄 摘要(原文)

We present HOIGaze - a novel learning-based approach for gaze estimation during hand-object interactions (HOI) in extended reality (XR). HOIGaze addresses the challenging HOI setting by building on one key insight: The eye, hand, and head movements are closely coordinated during HOIs and this coordination can be exploited to identify samples that are most useful for gaze estimator training - as such, effectively denoising the training data. This denoising approach is in stark contrast to previous gaze estimation methods that treated all training samples as equal. Specifically, we propose: 1) a novel hierarchical framework that first recognises the hand currently visually attended to and then estimates gaze direction based on the attended hand; 2) a new gaze estimator that uses cross-modal Transformers to fuse head and hand-object features extracted using a convolutional neural network and a spatio-temporal graph convolutional network; and 3) a novel eye-head coordination loss that upgrades training samples belonging to the coordinated eye-head movements. We evaluate HOIGaze on the HOT3D and Aria digital twin (ADT) datasets and show that it significantly outperforms state-of-the-art methods, achieving an average improvement of 15.6% on HOT3D and 6.0% on ADT in mean angular error. To demonstrate the potential of our method, we further report significant performance improvements for the sample downstream task of eye-based activity recognition on ADT. Taken together, our results underline the significant information content available in eye-hand-head coordination and, as such, open up an exciting new direction for learning-based gaze estimation.