Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities
作者: Michele Mazzamuto, Antonino Furnari, Yoichi Sato, Giovanni Maria Farinella
分类: cs.CV
发布日期: 2024-06-12 (更新: 2025-07-16)
💡 一句话要点
利用眼动追踪进行熟练技能活动中第一人称视频的无监督错误检测
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 眼动追踪 无监督学习 错误检测 第一人称视频 技能活动
📋 核心要点
- 现有方法依赖于手动标注的错误数据,限制了其在缺乏标注数据的场景下的应用。
- 该方法通过预测眼动轨迹,并比较预测轨迹与实际轨迹的偏差来检测错误,无需人工标注。
- 实验表明,该方法在多个数据集上取得了显著的性能提升,甚至可以媲美有监督方法。
📝 摘要(中文)
本文提出了一种通过分析眼动信号,在第一人称视角视频中进行无监督错误检测的方法。与依赖手动标注错误的方法不同,该方法无需错误标注,从而克服了对特定领域标注数据的需求。基于眼动与物体操作活动密切相关的观察,本文评估了眼动信号在多大程度上可以支持错误检测,并提出通过识别由眼动追踪器测量的注意力模式与眼动预测模型估计的注意力模式之间的偏差来检测错误。由于视频中的眼动预测具有高度不确定性,因此本文提出了一种新颖的眼动补全任务,即从视觉观察和部分眼动轨迹预测眼动注视点,并提出了一种显式建模眼动信息和局部视觉tokens之间相关性的眼动补全方法。预测的和观察到的眼动轨迹之间的不一致性可以作为识别错误的指标。实验结果表明,该方法在不同设置下均有效,在EPIC-Tent、HoloAssist和IndustReal中分别获得了高达+14%、+11%和+5%的相对收益,显著匹配了监督方法的结果,且无需任何标签。进一步表明,基于眼动的分析在熟练动作、低动作执行置信度以及需要手眼协调和物体操作技能的动作中特别有用。该方法在HoloAssist错误检测挑战赛中排名第一。
🔬 方法详解
问题定义:论文旨在解决在第一人称视角视频中,如何无监督地检测熟练技能活动中的错误。现有方法依赖于大量人工标注的错误数据,这在实际应用中成本高昂且难以获取,尤其是在特定领域。
核心思路:论文的核心思路是利用眼动追踪数据,通过观察执行者在操作过程中的视线模式来判断是否存在错误。作者假设,在执行熟练技能活动时,人的视线会自然地跟随操作对象,如果实际的视线轨迹与预期轨迹存在显著偏差,则可能表明出现了错误。
技术框架:整体框架包含两个主要阶段:1) 眼动预测阶段:利用视觉信息和部分眼动轨迹预测完整的眼动轨迹。作者提出了一个新颖的眼动补全任务,并设计了一个模型来学习眼动信息和局部视觉tokens之间的相关性。2) 错误检测阶段:比较预测的眼动轨迹和实际的眼动轨迹,计算两者之间的差异。如果差异超过预设的阈值,则认为该时刻存在错误。
关键创新:论文的关键创新在于提出了一个无监督的错误检测框架,该框架不需要任何人工标注的错误数据。此外,作者还提出了一个新颖的眼动补全任务,并设计了一个模型来学习眼动信息和局部视觉tokens之间的相关性,从而提高了眼动预测的准确性。
关键设计:在眼动补全任务中,作者设计了一个基于Transformer的模型,该模型将视觉信息和部分眼动轨迹作为输入,并预测完整的眼动轨迹。损失函数包括预测眼动位置的均方误差损失和鼓励预测轨迹平滑性的正则化项。在错误检测阶段,作者使用动态时间规整(DTW)来计算预测轨迹和实际轨迹之间的差异,并使用一个阈值来判断是否存在错误。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在EPIC-Tent、HoloAssist和IndustReal数据集上分别取得了高达+14%、+11%和+5%的相对收益,显著匹配了监督方法的结果,且无需任何标签。此外,该方法在HoloAssist错误检测挑战赛中排名第一,证明了其有效性和竞争力。
🎯 应用场景
该研究成果可应用于多种场景,例如:工业培训、远程协助、手术模拟等。通过自动检测操作过程中的错误,可以帮助学习者及时纠正错误,提高学习效率。此外,该技术还可以用于评估操作者的技能水平,为个性化培训提供依据。未来,该技术有望与增强现实(AR)技术结合,为操作者提供实时的错误提示和指导。
📄 摘要(原文)
We address the challenge of unsupervised mistake detection in egocentric video of skilled human activities through the analysis of gaze signals. While traditional methods rely on manually labeled mistakes, our approach does not require mistake annotations, hence overcoming the need of domain-specific labeled data. Based on the observation that eye movements closely follow object manipulation activities, we assess to what extent eye-gaze signals can support mistake detection, proposing to identify deviations in attention patterns measured through a gaze tracker with respect to those estimated by a gaze prediction model. Since predicting gaze in video is characterized by high uncertainty, we propose a novel gaze completion task, where eye fixations are predicted from visual observations and partial gaze trajectories, and contribute a novel gaze completion approach which explicitly models correlations between gaze information and local visual tokens. Inconsistencies between predicted and observed gaze trajectories act as an indicator to identify mistakes. Experiments highlight the effectiveness of the proposed approach in different settings, with relative gains up to +14%, +11%, and +5% in EPIC-Tent, HoloAssist and IndustReal respectively, remarkably matching results of supervised approaches without seeing any labels. We further show that gaze-based analysis is particularly useful in the presence of skilled actions, low action execution confidence, and actions requiring hand-eye coordination and object manipulation skills. Our method is ranked first on the HoloAssist Mistake Detection challenge.