An Interpretable Transformer-Based Foundation Model for Cross-Procedural Skill Assessment Using Raw fNIRS Signals

作者: A. Subedi, S. De, L. Cavuoto, S. Schwaitzberg, M. Hackett, J. Norfleet

分类: eess.SP, cs.ET, cs.HC, cs.LG, q-bio.NC

发布日期: 2025-06-21

💡 一句话要点

提出基于Transformer的可解释fNIRS基础模型，用于跨程序技能评估。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: fNIRS Transformer 自监督学习 技能评估 可解释性 通道注意力 跨程序泛化 认知负荷

📋 核心要点

现有技能评估模型缺乏跨任务泛化能力，且依赖大量预处理，对新程序或条件的鲁棒性不足。
提出基于Transformer的基础模型，利用自监督学习和通道注意力机制，实现跨程序技能评估和可解释性。
实验表明，该模型在多种任务上表现出色，仅需少量样本即可泛化到新任务，并能识别关键脑区和认知状态。

📝 摘要（中文）

在高风险程序环境中进行客观的技能评估，需要模型不仅能够解码潜在的认知和运动过程，还要能够推广到不同的任务、个体和实验环境。本文提出了一种基于Transformer的可解释基础模型，该模型使用最少预处理的fNIRS信号进行跨程序技能评估。该模型在腹腔镜手术任务和气管插管（ETI）的数据上使用自监督学习进行预训练，在所有任务上实现了大于88%的分类准确率，在ETI上Matthews相关系数超过0.91。通过少于30个标记样本和一个轻量级（小于2k参数）的适配器模块，该模型推广到了一种新的急救气道程序——环甲膜切开术，实现了大于87%的AUC。通过一种专门为fNIRS开发的通道注意力机制实现了可解释性，该机制识别出功能连贯的前额叶子网络，并通过消融研究进行了验证。时间注意力模式与任务的关键阶段对齐，并捕捉到压力引起的神经变异性变化，从而深入了解动态认知状态。

🔬 方法详解

问题定义：现有基于fNIRS的技能评估方法通常是任务特定的，需要大量的预处理，并且难以泛化到新的程序或实验条件。这限制了它们在实际高风险环境中的应用，例如手术室或急诊室。因此，需要一种能够跨程序泛化，且对数据预处理要求较低的技能评估模型。

核心思路：本文的核心思路是利用Transformer模型的强大表征学习能力，通过自监督学习在多个任务上进行预训练，从而获得一个通用的fNIRS信号表征。然后，通过一个轻量级的适配器模块，将该表征迁移到新的任务上，实现快速的技能评估。此外，引入通道注意力机制，提高模型的可解释性。

技术框架：该模型主要包含三个阶段：1) 自监督预训练阶段：使用来自多个任务的fNIRS数据，通过自监督学习训练Transformer模型，学习通用的fNIRS信号表征。2) 适配器微调阶段：使用少量来自新任务的标记数据，训练一个轻量级的适配器模块，将预训练的Transformer模型适配到新任务上。3) 推理阶段：使用训练好的模型对新的fNIRS信号进行技能评估。

关键创新：该论文的关键创新点在于：1) 提出了一个基于Transformer的fNIRS基础模型，能够跨程序泛化。2) 引入了一种专门为fNIRS设计的通道注意力机制，提高了模型的可解释性，能够识别与特定任务相关的脑区。3) 使用自监督学习进行预训练，减少了对大量标记数据的依赖。

关键设计：在自监督预训练阶段，使用了对比学习的目标函数，鼓励模型学习区分不同的fNIRS信号。通道注意力机制通过学习每个通道的权重，来突出与任务相关的脑区。适配器模块是一个简单的线性层，参数量很小，可以快速训练。Transformer模型的层数和隐藏层大小等超参数通过实验进行调整。

📊 实验亮点

该模型在腹腔镜手术和气管插管任务上实现了超过88%的分类准确率，Matthews相关系数超过0.91。在环甲膜切开术这一新任务上，仅使用不到30个标记样本，AUC就达到了87%以上。通道注意力机制成功识别出与任务相关的脑区，并通过消融实验验证了其有效性。

🎯 应用场景

该研究成果可应用于医疗培训、手术技能评估、飞行员认知负荷监测等领域。通过客观评估操作者的技能水平和认知状态，可以提高培训效率、降低医疗事故风险，并优化人机交互系统设计。未来，该技术有望与虚拟现实、增强现实等技术结合，构建更智能化的培训和评估系统。

📄 摘要（原文）

Objective skill assessment in high-stakes procedural environments requires models that not only decode underlying cognitive and motor processes but also generalize across tasks, individuals, and experimental contexts. While prior work has demonstrated the potential of functional near-infrared spectroscopy (fNIRS) for evaluating cognitive-motor performance, existing approaches are often task-specific, rely on extensive preprocessing, and lack robustness to new procedures or conditions. Here, we introduce an interpretable transformer-based foundation model trained on minimally processed fNIRS signals for cross-procedural skill assessment. Pretrained using self-supervised learning on data from laparoscopic surgical tasks and endotracheal intubation (ETI), the model achieves greater than 88% classification accuracy on all tasks, with Matthews Correlation Coefficient exceeding 0.91 on ETI. It generalizes to a novel emergency airway procedure--cricothyrotomy--using fewer than 30 labeled samples and a lightweight (less than 2k parameter) adapter module, attaining an AUC greater than 87%. Interpretability is achieved via a novel channel attention mechanism--developed specifically for fNIRS--that identifies functionally coherent prefrontal sub-networks validated through ablation studies. Temporal attention patterns align with task-critical phases and capture stress-induced changes in neural variability, offering insight into dynamic cognitive states.

An Interpretable Transformer-Based Foundation Model for Cross-Procedural Skill Assessment Using Raw fNIRS Signals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理