Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning

作者: Dongyang Guo, Yasmeen Abdrabou, Enkeleda Thaqi, Enkelejda Kasneci

分类: cs.HC, cs.AI, cs.CL, cs.LG

发布日期: 2025-07-24

💡 一句话要点

提出基于眼动追踪和LLM推理的多模态行为模式分析框架，提升认知模式提取效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 眼动追踪 大型语言模型 多模态融合 认知模式提取 人机协作 行为分析 异常检测

📋 核心要点

眼动追踪数据蕴含丰富的认知状态信息，但其结构化和非语言特性使其难以分析。
该论文提出一个多模态框架，结合眼动追踪数据和LLM推理，以提取潜在的认知模式。
实验结果表明，该框架在一致性、可解释性和性能方面均有所提升，难度预测准确率提升显著。

📝 摘要（中文）

本文提出了一种多模态人机协作框架，旨在增强从眼动追踪信号中提取认知模式的能力。该框架包含：(1) 一个多阶段流程，利用水平和垂直分割以及LLM推理来发现潜在的注视模式；(2) 一个专家模型协同评分模块，将专家判断与LLM输出相结合，为行为解释生成信任分数；(3) 一个混合异常检测模块，结合了基于LSTM的时间建模和LLM驱动的语义分析。在多个LLM和提示策略上的结果表明，该框架在一致性、可解释性和性能方面均有所提高，在难度预测任务中准确率高达50%。该方法为认知建模提供了一个可扩展、可解释的解决方案，并在自适应学习、人机交互和教育分析方面具有广阔的潜力。

🔬 方法详解

问题定义：眼动追踪数据虽然包含丰富的认知信息，但由于其结构化、非语言化的特性，难以直接分析和理解。现有方法缺乏有效利用眼动数据中蕴含的认知模式的能力，难以进行深入的认知建模和行为分析。此外，大型语言模型（LLM）虽然擅长处理文本数据，但在处理时间序列和数值数据方面存在局限性。

核心思路：该论文的核心思路是将眼动追踪数据与LLM的推理能力相结合，构建一个多模态的人机协作框架。通过对眼动数据进行预处理和特征提取，然后利用LLM进行语义理解和推理，从而挖掘出潜在的认知模式。同时，引入专家知识和协同评分机制，提高结果的可信度和可解释性。

技术框架：该框架主要包含三个模块：(1) 多阶段流水线：首先对眼动数据进行水平和垂直分割，提取注视点、注视时长等特征。然后，利用LLM对这些特征进行推理，发现潜在的注视模式。(2) 专家模型协同评分模块：该模块将专家判断与LLM的输出相结合，为行为解释生成信任分数，从而提高结果的可信度。(3) 混合异常检测模块：该模块结合了基于LSTM的时间建模和LLM驱动的语义分析，用于检测异常的眼动行为。

关键创新：该论文的关键创新在于将眼动追踪数据与LLM的推理能力相结合，构建了一个多模态的认知模式提取框架。该框架能够有效地利用眼动数据中蕴含的认知信息，并提高结果的可解释性和可信度。此外，该框架还引入了专家知识和协同评分机制，进一步提升了结果的质量。

关键设计：在多阶段流水线中，水平和垂直分割的具体方法未知，LLM推理的具体prompt策略未知。在专家模型协同评分模块中，专家知识如何编码，协同评分的具体计算方式未知。在混合异常检测模块中，LSTM的具体网络结构和训练方式未知，LLM驱动的语义分析的具体方法未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架在一致性、可解释性和性能方面均有所提高。在难度预测任务中，该框架的准确率高达50%，相较于传统方法有显著提升。此外，该框架在多个LLM和prompt策略上均表现出良好的性能，表明其具有较强的泛化能力。

🎯 应用场景

该研究成果可广泛应用于自适应学习、人机交互和教育分析等领域。例如，在自适应学习中，可以根据学生的眼动行为动态调整学习内容和难度。在人机交互中，可以利用眼动追踪技术实现更自然、更高效的交互方式。在教育分析中，可以分析学生的眼动行为，评估其学习效果和认知状态，从而为教学提供更有针对性的指导。

📄 摘要（原文）

Eye-tracking data reveals valuable insights into users' cognitive states but is difficult to analyze due to its structured, non-linguistic nature. While large language models (LLMs) excel at reasoning over text, they struggle with temporal and numerical data. This paper presents a multimodal human-AI collaborative framework designed to enhance cognitive pattern extraction from eye-tracking signals. The framework includes: (1) a multi-stage pipeline using horizontal and vertical segmentation alongside LLM reasoning to uncover latent gaze patterns; (2) an Expert-Model Co-Scoring Module that integrates expert judgment with LLM output to generate trust scores for behavioral interpretations; and (3) a hybrid anomaly detection module combining LSTM-based temporal modeling with LLM-driven semantic analysis. Our results across several LLMs and prompt strategies show improvements in consistency, interpretability, and performance, with up to 50% accuracy in difficulty prediction tasks. This approach offers a scalable, interpretable solution for cognitive modeling and has broad potential in adaptive learning, human-computer interaction, and educational analytics.

Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理