From Gaze to Guidance: Interpreting and Adapting to Users' Cognitive Needs with Multimodal Gaze-Aware AI Assistants

作者: Valdemar Danry, Javier Hernandez, Andrew Wilson, Pattie Maes, Judith Amores

分类: cs.HC, cs.AI

发布日期: 2026-04-09

💡 一句话要点

提出基于眼动追踪的多模态AI助手，提升用户认知能力。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 眼动追踪 多模态学习 大型语言模型 人机交互 认知辅助

📋 核心要点

现有LLM助手缺乏对用户行为上下文的感知，难以识别用户遇到的困难。
论文提出一种基于眼动追踪的多模态LLM助手，通过分析用户视线来理解其认知状态。
实验表明，该助手能更准确地评估用户阅读行为，提高信息回忆能力，并提升交互效率。

📝 摘要（中文）

本文提出了一种基于眼动追踪的多模态大型语言模型（LLM）助手，该助手利用以自我为中心的视频和眼动叠加来识别用户可能遇到的困难点，并有针对性地提供回顾性帮助。在一项对照研究（n=36）中，我们将这种具备眼动感知能力的AI助手与纯文本LLM助手进行了比较。结果表明，与传统LLM助手相比，眼动感知助手在评估用户阅读行为方面的准确性和个性化程度更高，并显著提高了人们的信息回忆能力。用户在使用眼动感知助手时说话更少，表明交互效率更高。定性结果强调了理解方面的益处，但也指出了眼动行为解读不准确时带来的挑战。研究结果表明，具备眼动感知能力的LLM助手可以推理认知需求，从而改善用户的认知结果。

🔬 方法详解

问题定义：现有的大型语言模型助手虽然在回答问题方面表现出色，但它们通常无法访问用户行为的上下文信息，特别是当用户在阅读、学习或执行任务时遇到困难时。传统的LLM助手无法感知用户正在关注什么，以及他们在哪里遇到了认知瓶颈。这导致助手提供的帮助可能不够及时、个性化或有效。

核心思路：本文的核心思路是利用眼动追踪技术来增强LLM助手对用户认知状态的感知能力。通过分析用户的视线，助手可以推断出用户正在关注的内容、遇到的困难以及潜在的认知需求。这种方法旨在使助手能够更准确地识别用户何时需要帮助，并提供更具针对性和个性化的支持。

技术框架：该研究构建了一个多模态的AI助手系统，其核心流程如下：1) 用户佩戴眼动追踪设备，进行阅读或学习等任务。2) 系统记录以自我为中心的视频，并叠加眼动追踪数据，生成包含视线信息的视频流。3) 多模态LLM助手接收视频流作为输入。4) LLM助手分析视频内容和眼动数据，识别用户可能遇到的困难点。5) 助手根据分析结果，提供回顾性的帮助和指导。

关键创新：该研究的关键创新在于将眼动追踪技术与大型语言模型相结合，构建了一个能够感知用户认知状态的AI助手。与传统的LLM助手相比，该助手能够更准确地理解用户的需求，并提供更具针对性和个性化的帮助。这种方法为开发更智能、更人性化的AI助手开辟了新的途径。

关键设计：论文中未明确给出关键参数设置、损失函数或网络结构的具体技术细节。但可以推断，该系统可能使用了预训练的视觉模型（例如，用于目标检测和场景理解）和语言模型（例如，用于问题回答和文本生成）。眼动数据可能被用作注意力机制的引导，或者作为额外的输入特征来增强模型的理解能力。具体的损失函数可能包括用于预测用户困难点的分类损失，以及用于评估助手回答质量的语言模型损失。这些细节需要参考相关文献或进一步的研究才能确定。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与传统的纯文本LLM助手相比，基于眼动追踪的多模态AI助手在评估用户阅读行为方面的准确性和个性化程度更高，并显著提高了人们的信息回忆能力。用户在使用眼动感知助手时说话更少，表明交互效率更高。这些结果表明，眼动追踪技术可以有效地增强LLM助手对用户认知状态的感知能力，从而改善用户的认知结果。

🎯 应用场景

该研究成果可应用于教育、培训、人机交互等领域。例如，可以开发个性化的学习辅导系统，根据学生的阅读行为提供定制化的指导；也可以应用于远程协作，帮助团队成员更好地理解彼此的意图和需求；此外，还可以用于辅助残疾人士，例如帮助视力障碍者阅读和理解文本。

📄 摘要（原文）

Current LLM assistants are powerful at answering questions, but they have limited access to the behavioral context that reveals when and where a user is struggling. We present a gaze-grounded multimodal LLM assistant that uses egocentric video with gaze overlays to identify likely points of difficulty and target follow-up retrospective assistance. We instantiate this vision in a controlled study (n=36) comparing the gaze-aware AI assistant to a text-only LLM assistant. Compared to a conventional LLM assistant, the gaze-aware assistant was rated as significantly more accurate and personalized in its assessments of users' reading behavior and significantly improved people's ability to recall information. Users spoke significantly fewer words with the gaze-aware assistant, indicating more efficient interactions. Qualitative results underscored both perceived benefits in comprehension and challenges when interpretations of gaze behaviors were inaccurate. Our findings suggest that gaze-aware LLM assistants can reason about cognitive needs to improve cognitive outcomes of users.

From Gaze to Guidance: Interpreting and Adapting to Users' Cognitive Needs with Multimodal Gaze-Aware AI Assistants

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理