A Neuro-Symbolic System for Interpretable Multimodal Physiological Signals Integration in Human Fatigue Detection
作者: Mohammadreza Jamalifard, Yaxiong Lei, Parasto Azizinezhad, Javier Fumanal-Idocin, Javier Andreu-Perez
分类: cs.HC, cs.LG
发布日期: 2026-03-25
💡 一句话要点
提出一种神经符号系统,用于可解释的多模态生理信号融合,以检测人类疲劳。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经符号系统 疲劳检测 多模态融合 生理信号 可解释性
📋 核心要点
- 现有疲劳检测方法缺乏可解释性,难以诊断个体差异和验证安全性,限制了其在安全关键领域的应用。
- 提出一种神经符号系统,结合深度学习提取生理概念,并用可微分的近似推理规则进行融合,实现可解释的疲劳检测。
- 实验结果表明,该方法在疲劳分类任务中取得了与基线方法相当的准确率,同时提供了概念激活和规则触发强度的可解释性信息。
📝 摘要(中文)
本文提出了一种神经符号架构,该架构从眼动追踪和神经血流动力学(功能性近红外光谱,fNIRS)窗口中学习四种可解释的生理概念:眼动动力学、注视稳定性、前额叶血流动力学和多模态信息。该架构使用基于注意力的编码器提取特征,并通过可微分的近似推理规则,结合学习到的权重和软阈值,来解决刚性的手工规则和缺乏受试者水平对齐诊断的问题。我们将该系统应用于多模态生理信号的疲劳分类,该领域需要准确且可解释的模型,并且其内部推理可以被检查以用于安全关键用途。在对18名参与者(560个样本)的留一受试者交叉验证中,该方法实现了72.1% +/- 12.3%的准确率,与经过调整的基线相当,同时暴露了概念激活和规则触发强度。消融实验表明,来自参与者特定校准的增益为(+5.2 pp),没有fNIRS概念时性能略有下降(-1.2 pp),并且使用Lukasiewicz算子比乘积算子表现略好(+0.9 pp)。我们还引入了概念保真度,这是一种来自保留标签的离线受试者审计指标,它与每个受试者的准确性密切相关(r=0.843, p < 0.0001)。
🔬 方法详解
问题定义:论文旨在解决疲劳检测中模型可解释性不足的问题。现有方法,特别是基于深度学习的方法,通常是黑盒模型,难以理解其决策过程,这在安全关键应用中是不可接受的。此外,现有方法难以处理个体差异,缺乏针对每个受试者的校准和诊断能力。
核心思路:论文的核心思路是将神经符号方法应用于疲劳检测。通过深度学习提取可解释的生理概念,然后使用符号推理规则将这些概念组合起来进行疲劳判断。这种方法既能利用深度学习的强大特征提取能力,又能保持模型的可解释性。
技术框架:该神经符号系统包含以下主要模块:1) 基于注意力机制的编码器:从眼动追踪和fNIRS信号中提取眼动动力学、注视稳定性、前额叶血流动力学和多模态信息等生理概念。2) 可微分的近似推理规则:使用学习到的权重和软阈值,将提取的生理概念组合起来进行疲劳判断。3) 参与者特定校准:针对每个受试者进行校准,以适应个体差异。
关键创新:该方法最重要的创新点在于将神经符号方法应用于多模态生理信号的疲劳检测,实现了模型的可解释性。通过提取可解释的生理概念和使用符号推理规则,该方法能够提供关于模型决策过程的洞察,这与传统的黑盒深度学习方法有本质区别。此外,引入了概念保真度指标,用于评估模型提取的生理概念的质量。
关键设计:在编码器部分,使用了基于注意力机制的网络结构,以关注对疲劳检测更重要的特征。在推理规则部分,使用了可微分的Lukasiewicz算子或乘积算子来实现近似推理。损失函数包括分类损失和正则化项,以鼓励模型学习到更可解释的生理概念。针对每个受试者,使用少量数据进行校准,以适应个体差异。
🖼️ 关键图片
📊 实验亮点
该方法在18名参与者的留一受试者交叉验证中取得了72.1% +/- 12.3%的准确率,与经过调整的基线方法相当。消融实验表明,参与者特定校准可以带来5.2个百分点的性能提升,而移除fNIRS概念会导致1.2个百分点的性能下降。此外,概念保真度指标与每个受试者的准确性高度相关(r=0.843, p < 0.0001),表明该方法提取的生理概念具有较高的质量。
🎯 应用场景
该研究成果可应用于需要高度安全性和可解释性的疲劳检测场景,例如驾驶员疲劳监测、飞行员疲劳管理、医疗人员疲劳预警等。通过提供可解释的疲劳检测结果,可以帮助用户更好地理解自身的疲劳状态,并采取相应的措施来避免事故的发生。未来,该方法还可以扩展到其他生理信号分析和疾病诊断领域。
📄 摘要(原文)
We propose a neuro-symbolic architecture that learns four interpretable physiological concepts, oculomotor dynamics, gaze stability, prefrontal hemodynamics, and multimodal, from eye-tracking and neural hemodynamics, functional near-infrared spectroscopy, (fNIRS) windows using attention-based encoders, and combines them with differentiable approximate reasoning rules using learned weights and soft thresholds, to address both rigid hand-crafted rules and the lack of subject-level alignment diagnostics. We apply this system to fatigue classification from multimodal physiological signals, a domain that requires models that are accurate and interpretable, with internal reasoning that can be inspected for safety-critical use. In leave-one-subject-out evaluation on 18 participants (560 samples), the method achieves 72.1% +/- 12.3% accuracy, comparable to tuned baselines while exposing concept activations and rule firing strengths. Ablations indicate gains from participant-specific calibration (+5.2 pp), a modest drop without the fNIRS concept (-1.2 pp), and slightly better performance with Lukasiewicz operators than product (+0.9 pp). We also introduce concept fidelity, an offline per-subject audit metric from held-out labels, which correlates strongly with per-subject accuracy (r=0.843, p < 0.0001).