Eye Gaze as a Signal for Conveying User Attention in Contextual AI Systems

📄 arXiv: 2501.13878v3 📥 PDF

作者: Ethan Wilson, Naveen Sendhilnathan, Charlie S. Burlingham, Yusuf Mansour, Robert Cavin, Sai Deep Tetali, Ajoy Savio Fernandes, Michael J. Proulx

分类: cs.HC, cs.CV

发布日期: 2025-01-23 (更新: 2025-04-12)

备注: To appear in ETRA '25: Proceedings of the 2025 Symposium on Eye Tracking Research and Applications

DOI: 10.1145/3715669.3727349


💡 一句话要点

利用眼动追踪作为上下文AI系统中用户注意力的信号

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼动追踪 上下文AI 用户注意力 视觉语言模型 人机交互

📋 核心要点

  1. 现有的上下文AI系统依赖显式沟通,用户交互摩擦大,体验有待提升。
  2. 利用可穿戴眼动追踪技术,隐式传递用户兴趣和意图,减少沟通成本。
  3. 实验表明,眼动追踪能有效传递用户注意力,提升上下文AI智能体的理解能力。

📝 摘要(中文)

先进的多模态AI智能体现在可以与用户协作解决现实世界的挑战。然而,这些新兴的上下文AI系统依赖于用户和系统之间显式的沟通渠道。我们假设,用户兴趣和意图的隐式沟通将减少摩擦,并改善与AI智能体协作时的用户体验。在这项工作中,我们探索了可穿戴眼动追踪技术在传递用户注意力信号方面的潜力。我们测量了眼动追踪信号质量的要求,以有效地将注视轨迹映射到物理对象,然后进行实验,在查询视觉语言模型时提供视觉扫描路径历史作为额外的上下文。我们的结果表明,眼动追踪作为用户注意力信号具有很高的价值,并且可以传递关于用户当前任务和兴趣的重要上下文,从而提高上下文AI智能体的理解能力。

🔬 方法详解

问题定义:论文旨在解决上下文AI系统中用户与AI智能体交互效率低下的问题。现有方法依赖于显式的沟通方式,例如语音或文本输入,这增加了用户的交互负担,并且可能无法准确捕捉用户的真实意图和兴趣。因此,如何利用隐式信号来提升AI智能体对用户意图的理解是关键挑战。

核心思路:论文的核心思路是利用眼动追踪技术来捕捉用户的注意力焦点,并将眼动追踪数据作为上下文信息提供给AI智能体。通过分析用户的注视轨迹,可以推断出用户感兴趣的对象、正在执行的任务以及潜在的意图。这种隐式的沟通方式可以减少用户的交互负担,并提高AI智能体的理解能力。

技术框架:论文的技术框架主要包含以下几个阶段:1) 数据采集:使用可穿戴眼动追踪设备收集用户的眼动数据。2) 数据处理:对原始眼动数据进行清洗、校准和特征提取,例如注视点位置、注视时长、扫视速度等。3) 对象映射:将注视点位置映射到物理对象,确定用户正在关注的对象。4) 上下文融合:将眼动追踪数据作为上下文信息,与视觉语言模型进行融合。5) 模型推理:视觉语言模型根据融合后的上下文信息进行推理,例如回答用户的问题、生成图像描述等。

关键创新:论文的关键创新在于将眼动追踪技术与视觉语言模型相结合,实现了一种隐式的用户意图传递方式。与传统的显式沟通方式相比,这种方法可以减少用户的交互负担,并提高AI智能体的理解能力。此外,论文还研究了眼动追踪信号质量的要求,为实际应用提供了指导。

关键设计:论文的关键设计包括:1) 眼动追踪设备的选取和校准方法。2) 注视点位置到物理对象的映射算法。3) 眼动追踪数据与视觉语言模型的融合方式,例如将眼动追踪数据作为额外的输入特征或注意力权重。4) 视觉语言模型的选择和训练,例如使用预训练的Transformer模型,并在特定任务上进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,将眼动追踪数据作为上下文信息提供给视觉语言模型,可以显著提高模型的理解能力。例如,在图像描述任务中,使用眼动追踪数据可以使模型生成更准确、更详细的描述。此外,实验还表明,眼动追踪信号质量对模型性能有重要影响,需要选择合适的眼动追踪设备和校准方法。

🎯 应用场景

该研究成果可应用于人机协作机器人、智能助手、增强现实/虚拟现实等领域。例如,在人机协作机器人中,机器人可以通过分析用户的眼动轨迹来理解用户的意图,并自动执行相应的任务。在智能助手中,助手可以根据用户的注视焦点来提供更相关的建议和信息。在AR/VR环境中,系统可以根据用户的眼动数据来调整渲染质量,提高用户体验。

📄 摘要(原文)

Advanced multimodal AI agents can now collaborate with users to solve challenges in the world. Yet, these emerging contextual AI systems rely on explicit communication channels between the user and system. We hypothesize that implicit communication of the user's interests and intent would reduce friction and improve user experience when collaborating with AI agents. In this work, we explore the potential of wearable eye tracking to convey signals about user attention. We measure the eye tracking signal quality requirements to effectively map gaze traces to physical objects, then conduct experiments that provide visual scanpath history as additional context when querying vision language models. Our results show that eye tracking provides high value as a user attention signal and can convey important context about the user's current task and interests, improving understanding of contextual AI agents.