HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination

作者: Zhiming Hu, Daniel Haeufle, Syn Schmitt, Andreas Bulling

分类: cs.CV

发布日期: 2025-04-28

备注: Accepted at SIGGRAPH 2025, link: https://zhiminghu.net/hu25_hoigaze.html

💡 一句话要点

HOIGaze：利用眼-手-头协同，提升扩展现实中手-物交互的注视点估计精度

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 注视点估计 手-物交互 扩展现实 眼-手-头协同 跨模态Transformer

📋 核心要点

现有注视点估计方法在处理手-物交互场景时，忽略了眼、手、头之间的协同关系，导致训练数据质量不高。
HOIGaze利用眼-手-头运动的协同性，通过分层框架和眼-头协调损失，筛选并优化训练数据，提升模型性能。
实验结果表明，HOIGaze在HOT3D和ADT数据集上显著优于现有方法，并在下游任务中取得了性能提升。

📝 摘要（中文）

本文提出HOIGaze，一种新的基于学习的方法，用于扩展现实(XR)中手-物交互(HOI)期间的注视点估计。HOIGaze的关键在于，眼、手和头部运动在HOI期间密切协调，这种协调可用于识别最适合注视点估计器训练的样本，从而有效地对训练数据进行去噪。这种去噪方法与以往将所有训练样本视为相同的方法形成鲜明对比。具体来说，我们提出：1)一种新的分层框架，首先识别当前视觉关注的手，然后基于关注的手估计注视方向；2)一种新的注视点估计器，使用跨模态Transformer融合使用卷积神经网络和时空图卷积网络提取的头部和手-物特征；3)一种新的眼-头协调损失，用于提升属于协调的眼-头运动的训练样本。在HOT3D和Aria数字孪生(ADT)数据集上的评估表明，HOIGaze显著优于现有方法，在平均角度误差方面，HOT3D数据集上平均提升15.6%，ADT数据集上平均提升6.0%。为了展示该方法的潜力，我们进一步报告了在ADT数据集上基于眼睛的活动识别这一下游任务的显著性能提升。总而言之，我们的结果强调了眼-手-头协调中可用的重要信息内容，并为基于学习的注视点估计开辟了一个令人兴奋的新方向。

🔬 方法详解

问题定义：论文旨在解决扩展现实(XR)环境中，手-物交互(HOI)场景下的精确注视点估计问题。现有方法通常将所有训练样本同等对待，忽略了眼、手、头之间的协同关系，导致训练数据中存在噪声，限制了模型的性能提升。尤其是在HOI场景下，由于手部动作的复杂性和遮挡，注视点估计更具挑战性。

核心思路：论文的核心思路是利用眼、手、头运动在HOI场景下的协同性，对训练数据进行选择性加权，从而提升训练数据的质量。具体来说，当眼、手、头运动协调一致时，认为该样本包含的信息量更大，更适合用于训练注视点估计器。通过这种方式，可以有效地降低噪声数据的影响，提高模型的泛化能力。

技术框架：HOIGaze采用一种分层框架。首先，模型识别当前视觉关注的手部。然后，基于关注的手部，估计注视方向。该框架包含三个主要模块：1)手部注意力识别模块，用于确定用户正在关注的手部；2)注视点估计模块，使用跨模态Transformer融合头部和手-物特征，估计注视方向；3)眼-头协调损失模块，用于提升协调的眼-头运动的训练样本的权重。

关键创新：论文的关键创新在于提出了利用眼-手-头协同性进行训练数据去噪的方法。与以往将所有训练样本视为相同的方法不同，HOIGaze通过眼-头协调损失，对训练样本进行选择性加权，从而提升训练数据的质量。此外，论文还提出了一个新的分层框架，首先识别关注的手部，然后基于关注的手部估计注视方向，从而更好地利用了手部信息。

关键设计：在注视点估计模块中，论文使用卷积神经网络(CNN)提取头部特征，使用时空图卷积网络(ST-GCN)提取手-物特征。然后，使用跨模态Transformer融合这些特征，估计注视方向。眼-头协调损失的设计基于眼、头运动速度之间的关系。当眼、头运动速度相似时，认为眼-头运动是协调的，该样本的权重会增加。

🖼️ 关键图片

📊 实验亮点

HOIGaze在HOT3D和Aria数字孪生(ADT)数据集上进行了评估，结果表明其显著优于现有方法。在HOT3D数据集上，HOIGaze的平均角度误差降低了15.6%。在ADT数据集上，平均角度误差降低了6.0%。此外，在ADT数据集上，HOIGaze在基于眼睛的活动识别这一下游任务中也取得了显著的性能提升，验证了该方法的有效性。

🎯 应用场景

HOIGaze在扩展现实(XR)和增强现实(AR)领域具有广泛的应用前景。例如，它可以用于改善人机交互体验，实现更自然的交互方式。此外，HOIGaze还可以应用于眼动追踪辅助的活动识别、虚拟现实游戏、远程协作等领域，提升用户体验和工作效率。该研究有望推动基于眼动追踪技术的应用发展。

📄 摘要（原文）

We present HOIGaze - a novel learning-based approach for gaze estimation during hand-object interactions (HOI) in extended reality (XR). HOIGaze addresses the challenging HOI setting by building on one key insight: The eye, hand, and head movements are closely coordinated during HOIs and this coordination can be exploited to identify samples that are most useful for gaze estimator training - as such, effectively denoising the training data. This denoising approach is in stark contrast to previous gaze estimation methods that treated all training samples as equal. Specifically, we propose: 1) a novel hierarchical framework that first recognises the hand currently visually attended to and then estimates gaze direction based on the attended hand; 2) a new gaze estimator that uses cross-modal Transformers to fuse head and hand-object features extracted using a convolutional neural network and a spatio-temporal graph convolutional network; and 3) a novel eye-head coordination loss that upgrades training samples belonging to the coordinated eye-head movements. We evaluate HOIGaze on the HOT3D and Aria digital twin (ADT) datasets and show that it significantly outperforms state-of-the-art methods, achieving an average improvement of 15.6% on HOT3D and 6.0% on ADT in mean angular error. To demonstrate the potential of our method, we further report significant performance improvements for the sample downstream task of eye-based activity recognition on ADT. Taken together, our results underline the significant information content available in eye-hand-head coordination and, as such, open up an exciting new direction for learning-based gaze estimation.

HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理