G-VOILA: Gaze-Facilitated Information Querying in Daily Scenarios

📄 arXiv: 2405.07652v1 📥 PDF

作者: Zeyu Wang, Yuanchun Shi, Yuntao Wang, Yuchen Yao, Kun Yan, Yuhan Wang, Lei Ji, Xuhai Xu, Chun Yu

分类: cs.HC, cs.AI

发布日期: 2024-05-13

备注: 25 pages, 12 figures


💡 一句话要点

提出G-VOILA,利用眼动追踪辅助日常场景下的信息查询,提升交互直观性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼动追踪 信息查询 人机交互 多模态融合 自然语言处理

📋 核心要点

  1. 现有信息查询系统缺乏对眼动这一与用户意图紧密相关的模态的有效利用,限制了交互的自然性和效率。
  2. G-VOILA通过融合用户的眼动、视觉场景和语音查询,构建更直观的信息查询流程,提升用户体验。
  3. 实验结果表明,G-VOILA在客观和主观评分上均优于无眼动数据的基线系统,验证了其有效性。

📝 摘要(中文)

本文提出了一种新颖的眼动追踪辅助信息查询范式G-VOILA,它协同用户的眼动、视觉场景和基于语音的自然语言查询,以促进更直观的查询过程。通过一项包含21名参与者在3个日常场景中的用户行为研究,揭示了用户查询语言的模糊性以及在使用G-VOILA时用户自然查询行为中的眼动-语音协调模式。基于定量和定性研究结果,我们为G-VOILA范式开发了一个设计框架,该框架有效地将眼动数据与现场查询上下文集成。然后,我们使用前沿的深度学习技术实现了G-VOILA的概念验证。与没有眼动数据的基线相比,一项后续用户研究(16名参与者,2个场景)证明了其有效性,实现了更高的客观和主观评分。我们进一步进行了访谈,并为未来的眼动追踪辅助信息查询系统提供了见解。

🔬 方法详解

问题定义:现有信息查询系统逐渐融合视觉和听觉等多模态输入,但缺乏对眼动信息的有效利用。眼动数据能够反映用户的意图和关注点,将其融入信息查询过程可以提升交互的自然性和效率。然而,如何有效地整合眼动数据,并解决自然语言查询中的歧义性,是当前面临的挑战。

核心思路:G-VOILA的核心思路是利用眼动追踪技术获取用户在视觉场景中的关注区域,并将其与用户的语音查询相结合,从而更准确地理解用户的意图。通过分析眼动数据和语音查询之间的关联,可以消除查询中的歧义,并提供更精确的信息检索结果。这种设计旨在模拟人类在日常交流中利用眼神和语言进行信息传递的方式。

技术框架:G-VOILA系统主要包含以下几个模块:1) 眼动追踪模块:负责获取用户的眼动数据,包括注视点的位置和持续时间。2) 视觉场景理解模块:负责分析用户所处的视觉场景,识别场景中的物体和关系。3) 语音识别和自然语言理解模块:负责将用户的语音查询转换为文本,并理解查询的语义。4) 信息检索模块:根据用户的眼动数据、视觉场景信息和语音查询,从知识库或互联网中检索相关信息。5) 结果呈现模块:将检索到的信息以合适的方式呈现给用户。

关键创新:G-VOILA的关键创新在于将眼动追踪技术与自然语言查询相结合,构建了一种更直观、更高效的信息查询范式。与传统的基于文本或语音的查询方式相比,G-VOILA能够更准确地理解用户的意图,并提供更精确的信息检索结果。此外,该研究还揭示了用户在使用G-VOILA时眼动-语音协调模式,为未来的眼动追踪辅助信息查询系统提供了设计指导。

关键设计:在G-VOILA的实现中,关键的设计包括:1) 眼动数据的校准和过滤,以提高眼动追踪的准确性。2) 视觉场景理解模块中使用的深度学习模型,例如目标检测和场景图生成模型。3) 自然语言理解模块中使用的语义解析和意图识别技术。4) 信息检索模块中使用的相关性排序算法,例如基于Transformer的模型。5) 结果呈现模块中使用的可视化技术,例如将检索到的信息叠加在视觉场景中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户研究表明,G-VOILA在客观评分和主观评分上均优于没有眼动数据的基线系统。具体而言,G-VOILA在信息检索的准确性和效率方面有显著提升,用户也更倾向于使用G-VOILA进行信息查询。这些结果验证了G-VOILA的有效性,并为未来的眼动追踪辅助信息查询系统提供了有力的支持。

🎯 应用场景

G-VOILA具有广泛的应用前景,例如智能家居控制、增强现实导航、远程协作、辅助残疾人交流等。通过眼动追踪辅助,用户可以更自然地与设备进行交互,提升操作效率和用户体验。未来,G-VOILA有望成为人机交互的重要组成部分,推动智能化应用的发展。

📄 摘要(原文)

Modern information querying systems are progressively incorporating multimodal inputs like vision and audio. However, the integration of gaze -- a modality deeply linked to user intent and increasingly accessible via gaze-tracking wearables -- remains underexplored. This paper introduces a novel gaze-facilitated information querying paradigm, named G-VOILA, which synergizes users' gaze, visual field, and voice-based natural language queries to facilitate a more intuitive querying process. In a user-enactment study involving 21 participants in 3 daily scenarios (p = 21, scene = 3), we revealed the ambiguity in users' query language and a gaze-voice coordination pattern in users' natural query behaviors with G-VOILA. Based on the quantitative and qualitative findings, we developed a design framework for the G-VOILA paradigm, which effectively integrates the gaze data with the in-situ querying context. Then we implemented a G-VOILA proof-of-concept using cutting-edge deep learning techniques. A follow-up user study (p = 16, scene = 2) demonstrates its effectiveness by achieving both higher objective score and subjective score, compared to a baseline without gaze data. We further conducted interviews and provided insights for future gaze-facilitated information querying systems.