MambaGaze: Bidirectional Mamba with Explicit Missing Data Modeling for Cognitive Load Assessment from Eye-Gaze Tracking Data

作者: Amir Mousavi, Mohammad Sadegh Sirjani, Erfan Nourbakhsh, Mimi Xie, Rocky Slavin, Leslie Neely, John Davis, John Quarles

分类: cs.LG, cs.AI, cs.HC

发布日期: 2026-05-21

备注: Submitted to IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI 2026)

💡 一句话要点

MambaGaze：利用双向Mamba和显式缺失数据建模进行认知负荷评估

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 认知负荷评估 眼动追踪 缺失数据建模 Mamba 双向模型

📋 核心要点

眼动追踪数据中的缺失值和长程依赖关系是认知负荷评估的关键挑战。
MambaGaze通过XMD编码显式建模数据缺失，并利用双向Mamba-2高效捕获时间依赖。
实验表明，MambaGaze在准确率上显著优于现有方法，并在边缘设备上实现了实时推理。

📝 摘要（中文）

本文提出MambaGaze框架，旨在解决从眼动追踪信号实时评估认知负荷时面临的两个挑战：频繁的眨眼和追踪失败导致的数据缺失，以及高效建模长程时间依赖。MambaGaze通过以下方式应对这些挑战：1) XMD编码，利用观测掩码和时间差增广原始特征，显式建模数据不确定性；2) 双向Mamba-2，以线性计算复杂度捕获时间依赖关系。在CLARE和CL-Drive数据集上进行的留一法交叉验证实验表明，MambaGaze分别实现了76.8%和73.1%的准确率，优于CNN、Transformer、ResNet和VGG等基线方法4-12个百分点。在NVIDIA Jetson平台上的边缘部署基准测试表明，该方法能够以43-68 FPS的帧率进行实时推理，功耗低于7.5W，证实了其在可穿戴认知负荷监测中的可行性。

🔬 方法详解

问题定义：论文旨在解决从眼动追踪数据中实时准确地评估认知负荷的问题。现有的方法难以有效处理眼动数据中频繁出现的缺失值（如眨眼、追踪失败），并且在建模长程时间依赖关系时计算复杂度较高，难以满足实时性要求。

核心思路：论文的核心思路是通过显式地建模缺失数据的不确定性，并利用Mamba架构高效地捕获长程时间依赖关系。通过XMD编码，将缺失信息融入到模型输入中，使模型能够更好地处理不完整的数据。同时，采用双向Mamba-2结构，在保证建模能力的同时，降低计算复杂度，提高推理速度。

技术框架：MambaGaze框架主要包含两个核心模块：XMD编码模块和双向Mamba-2模块。首先，XMD编码模块将原始眼动数据进行处理，生成包含观测掩码和时间差的增强特征。然后，这些增强特征被输入到双向Mamba-2模块中，该模块利用双向扫描的方式捕获时间序列中的依赖关系，最终输出认知负荷的评估结果。

关键创新：MambaGaze的关键创新在于以下两点：一是XMD编码，通过显式地建模缺失数据，提高了模型对不完整数据的鲁棒性；二是双向Mamba-2结构，在保证建模能力的同时，实现了线性计算复杂度，提高了推理速度。与现有方法相比，MambaGaze能够更有效地处理眼动数据中的缺失值和长程时间依赖关系。

关键设计：XMD编码的关键设计在于如何有效地表示缺失数据的信息。论文采用观测掩码和时间差两种方式来表示缺失数据。观测掩码表示某个数据点是否缺失，时间差表示该数据点与上一个有效数据点之间的时间间隔。双向Mamba-2结构的关键设计在于如何有效地利用Mamba架构捕获时间序列中的依赖关系。论文采用双向扫描的方式，从两个方向分别捕获时间序列中的依赖关系，并将两个方向的输出进行融合，从而提高建模能力。

🖼️ 关键图片

📊 实验亮点

MambaGaze在CLARE和CL-Drive数据集上分别实现了76.8%和73.1%的准确率，相比CNN、Transformer、ResNet和VGG等基线方法，性能提升了4-12个百分点。此外，在NVIDIA Jetson平台上，MambaGaze能够以43-68 FPS的帧率进行实时推理，功耗低于7.5W，验证了其在边缘设备上的可行性。

🎯 应用场景

MambaGaze具有广泛的应用前景，例如驾驶员疲劳监测、飞行员辅助系统、医疗诊断等。通过实时评估认知负荷，可以为用户提供个性化的反馈和支持，提高工作效率和安全性。该研究成果有望推动人机交互和人工智能在安全关键领域的应用。

📄 摘要（原文）

Real-time cognitive load assessment from eye-tracking signals could potentially enable adaptive human-centered-AI such as safety-critical applications such as driver vigilance monitoring or automated flight deck assistance, yet two challenges persist: handling frequent data missingness from blinks and tracking failures, and efficiently modeling long-range temporal dependencies. We propose MambaGaze, a framework that addresses these challenges through 1) XMD encoding, which augments raw features with observation masks and time-deltas to explicitly model data uncertainty, and 2) bidirectional Mamba-2, which captures temporal dependencies with linear computational complexity. Experiments on CLARE and CL-Drive datasets under leave-one-subject-out evaluation show that MambaGaze achieves 76.8% and 73.1% accuracy, respectively, outperforming CNN, Transformer, ResNet, and VGG baselines by 4-12 percentage points. Edge deployment benchmarks on NVIDIA Jetson platforms demonstrate real-time inference at 43-68 FPS with power consumption below 7.5W, confirming feasibility for wearable cognitive load monitoring.

MambaGaze: Bidirectional Mamba with Explicit Missing Data Modeling for Cognitive Load Assessment from Eye-Gaze Tracking Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理