Eyes on Target: Gaze-Aware Object Detection in Egocentric Video
作者: Vishakha Lall, Yisi Liu
分类: cs.CV, cs.AI
发布日期: 2025-11-03
备注: Accepted at RAAI 2025
💡 一句话要点
Eyes on Target:提出深度感知和注视引导的目标检测框架,用于以自我为中心的视频分析。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 注视预测 目标检测 以自我为中心视频 视觉注意力 Vision Transformer 深度学习 人机交互
📋 核心要点
- 现有目标检测方法忽略了人眼注视信息,在以自我为中心的视频中表现不佳。
- Eyes on Target框架将注视信息融入ViT的注意力机制,使模型关注人眼注视区域。
- 实验表明,该方法在多个数据集上均优于传统方法,尤其是在模拟环境中。
📝 摘要(中文)
本文提出了一种名为“Eyes on Target”的新型深度感知和注视引导的目标检测框架,专为以自我为中心的视频设计。该方法将注视衍生的特征注入到Vision Transformer (ViT)的注意力机制中,有效地将空间特征选择偏向于人眼关注的区域。与传统的目标检测器平等对待所有区域不同,我们的方法强调观察者优先考虑的区域,以增强目标检测效果。我们在一个以自我为中心的模拟器数据集上验证了该方法,其中人类视觉注意力对于任务评估至关重要,展示了其在评估模拟场景中人类表现方面的潜力。通过大量的实验和消融研究,我们评估了集成注视信息的模型的有效性,证明了在自定义模拟器数据集和公共基准(包括Ego4D Ego-Motion和Ego-CH-Gaze数据集)上,检测精度相对于与注视无关的基线始终有所提高。为了解释模型的行为,我们还引入了一种注视感知的注意力头重要性度量,揭示了注视线索如何调节Transformer的注意力动态。
🔬 方法详解
问题定义:现有的目标检测方法通常平等地对待图像或视频中的所有区域,而忽略了人类视觉注意力的重要性。在以自我为中心的视频中,人类的注视点往往集中在与当前任务相关的对象或区域上。因此,如何有效地利用人类的注视信息来提高目标检测的准确性和效率是一个关键问题。
核心思路:Eyes on Target的核心思路是将人类的注视信息作为一种先验知识,引导目标检测模型更加关注人眼注视的区域。通过将注视衍生的特征融入到Vision Transformer (ViT)的注意力机制中,模型可以更好地选择与任务相关的空间特征,从而提高目标检测的性能。
技术框架:Eyes on Target框架主要包含以下几个模块:1) 注视特征提取模块:从注视数据中提取有用的特征,例如注视位置、注视持续时间等。2) 深度感知模块:利用深度信息来增强对场景的理解,并帮助模型更好地定位目标。3) 注视引导的注意力机制:将注视特征和深度信息注入到ViT的注意力机制中,引导模型关注人眼注视的区域。4) 目标检测模块:利用ViT提取的特征进行目标检测。
关键创新:该方法最重要的技术创新点在于将注视信息有效地融入到Vision Transformer的注意力机制中。与传统的注意力机制不同,该方法不仅仅关注图像或视频本身的内容,还考虑了人类的视觉注意力,从而使模型能够更好地理解场景并提高目标检测的准确性。此外,引入了深度感知模块,进一步提升了模型对三维场景的理解能力。
关键设计:论文中关键的设计包括:1) 如何有效地提取和表示注视特征;2) 如何将注视特征和深度信息融入到ViT的注意力机制中;3) 如何设计损失函数来优化模型的性能。具体的技术细节包括注视特征的编码方式、注意力机制的融合策略以及损失函数的选择等。论文还提出了一种注视感知的注意力头重要性度量,用于解释模型行为。
📊 实验亮点
实验结果表明,Eyes on Target框架在自定义模拟器数据集和公共基准(包括Ego4D Ego-Motion和Ego-CH-Gaze数据集)上,检测精度相对于与注视无关的基线始终有所提高。具体而言,在Ego4D数据集上,该方法在目标检测任务上取得了显著的性能提升,证明了其有效性。
🎯 应用场景
该研究成果可应用于人机交互、机器人导航、智能辅助驾驶等领域。通过理解人类的视觉注意力,机器可以更好地与人类进行协作,提高工作效率和安全性。例如,在智能辅助驾驶中,系统可以根据驾驶员的注视点来预测其行为,并及时发出警告或采取措施,从而避免交通事故的发生。
📄 摘要(原文)
Human gaze offers rich supervisory signals for understanding visual attention in complex visual environments. In this paper, we propose Eyes on Target, a novel depth-aware and gaze-guided object detection framework designed for egocentric videos. Our approach injects gaze-derived features into the attention mechanism of a Vision Transformer (ViT), effectively biasing spatial feature selection toward human-attended regions. Unlike traditional object detectors that treat all regions equally, our method emphasises viewer-prioritised areas to enhance object detection. We validate our method on an egocentric simulator dataset where human visual attention is critical for task assessment, illustrating its potential in evaluating human performance in simulation scenarios. We evaluate the effectiveness of our gaze-integrated model through extensive experiments and ablation studies, demonstrating consistent gains in detection accuracy over gaze-agnostic baselines on both the custom simulator dataset and public benchmarks, including Ego4D Ego-Motion and Ego-CH-Gaze datasets. To interpret model behaviour, we also introduce a gaze-aware attention head importance metric, revealing how gaze cues modulate transformer attention dynamics.