From Clever Hans to Scientific Discovery: Interpreting EEG Foundational Transformers with LRP
作者: Justus Meyer zu Bexten, Nico Scherf, Bogdan Franczyk, Simon M. Hofmann
分类: cs.AI
发布日期: 2026-05-12
备注: 18 pages, 6 figures
💡 一句话要点
利用LRP解释EEG Transformer,揭示脑电信号中隐藏的行为模式与生物学假设
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电图 可解释性 Transformer 逐层相关性传播 深度学习 脑机接口 人工智能
📋 核心要点
- 脑电基础模型具有潜力,但其黑盒特性限制了应用,需要可解释性方法。
- 提出使用注意力感知的逐层相关性传播(LRP)来解释EEG Transformer模型。
- LRP揭示了模型决策的关键脑区和潜在的“Clever Hans”行为,验证并探索模型。
📝 摘要(中文)
脑电图(EEG)领域的新兴基础模型(FMs)有望在诊断和脑机接口中扩展深度学习,但其不透明性阻碍了更广泛的应用。本文研究了注意力感知的逐层相关性传播(LRP)作为EEG-FMs的事后归因方法,将LRP在基于卷积神经网络(CNN)的EEG模型上的应用扩展到当前FMs所基于的Transformer架构。研究发现,LRP既可以验证EEG-FM的决策,也可以从中发现新的、生物学上合理的假设。在运动想象中,它揭示了模型优先考虑与任务相关的眼动信号而非预期的运动相关信号的“Clever Hans”行为。在用于情感预测的自然范式中,它揭示了对中央电极簇的重复依赖,表明了唤醒的候选感觉运动特征。虽然热图解释在这个复杂领域仍然模糊,但结果表明LRP可以作为EEG-FMs的验证和探索工具,随着底层模型的成熟,其作用将在重要性和发现潜力方面不断增长。
🔬 方法详解
问题定义:脑电图(EEG)基础模型在诊断和脑机接口领域展现出潜力,但其内部决策过程难以理解,缺乏透明度,阻碍了其在临床等关键领域的广泛应用。现有方法难以有效解释基于Transformer的EEG基础模型,无法验证模型的决策依据,也难以从中发现新的生物学见解。
核心思路:本文的核心思路是利用逐层相关性传播(LRP)这种可解释性方法,来分析EEG基础模型(特别是基于Transformer的模型)的决策过程。LRP通过计算每个输入特征对模型输出的贡献程度,从而生成热图,突出显示对模型决策最重要的脑电信号区域。通过分析这些热图,可以验证模型的决策是否合理,并发现潜在的生物学意义。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择或构建一个基于Transformer的EEG基础模型。2) 使用LRP方法计算模型对特定输入的预测结果的相关性得分。3) 将相关性得分可视化为热图,叠加在脑电图电极位置上。4) 分析热图,识别对模型决策贡献最大的脑电信号区域。5) 结合领域知识,验证模型的决策是否合理,并从中发现新的生物学假设。
关键创新:该研究的关键创新在于将LRP方法应用于解释基于Transformer的EEG基础模型。以往LRP主要应用于解释基于CNN的EEG模型,而Transformer架构具有不同的特点,需要对LRP方法进行调整和优化。此外,该研究还关注如何利用LRP揭示模型中的“Clever Hans”行为,即模型可能依赖于与任务无关的伪影信号,而非真正的脑电信号。
关键设计:研究中使用了注意力机制感知的LRP变体,以更好地适应Transformer架构。具体的技术细节包括:1) 如何将LRP应用于Transformer的自注意力层。2) 如何处理EEG数据的时序性和空间性。3) 如何设计实验范式,以验证LRP的有效性和揭示模型中的“Clever Hans”行为。研究中使用了运动想象和情感预测两种不同的任务,以评估LRP在不同场景下的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LRP能够有效地解释EEG Transformer模型的决策过程。在运动想象任务中,LRP揭示了模型可能依赖于眼动伪影而非运动皮层信号的“Clever Hans”行为。在情感预测任务中,LRP发现模型重复依赖于中央电极簇,提示了唤醒状态的感觉运动特征。这些结果表明LRP可以作为EEG-FMs的验证和探索工具。
🎯 应用场景
该研究成果可应用于脑机接口、神经疾病诊断和认知神经科学等领域。通过LRP解释EEG模型,可以提高模型的可靠性和可信度,促进其在临床诊断中的应用。此外,LRP还可以帮助研究人员发现新的脑电生物标志物,加深对大脑功能的理解,为开发更有效的治疗方法提供线索。
📄 摘要(原文)
Emerging foundation models (FMs) in electroencephalography (EEG) promise a path to scale deep learning in diagnostics and brain-computer interfaces despite data scarcity, yet their opaque nature remains a barrier to wider adoption. We investigate attention-aware Layer-wise relevance propagation (LRP) as a post-hoc attribution method for EEG-FMs, extending LRP's use on convolutional neural network (CNN)-based EEG models to the Transformer architectures that current FMs are based on. We find that LRP can both verify EEG-FM decisions and surface novel, biologically plausible hypotheses from them. In motor imagery, it unmasks 'Clever Hans' behavior where models prioritize task correlated ocular signals over the intended motor correlates. In a naturalistic paradigm for affect prediction, it reveals a recurring reliance on a central electrode cluster, suggesting a candidate sensorimotor signature of arousal. Though heatmap interpretation remains ambiguous in this complex domain, the results position LRP as a tool for both verification and exploration of EEG-FMs, a role that will grow in both importance and discovery potential as the underlying models mature.