SAD-TIME: a Spatiotemporal-fused network for depression detection with Automated multi-scale Depth-wise and TIME-interval-related common feature extractor
作者: Han-Guang Wang, Hui-Rang Hou, Li-Cheng Jin, Chen-Yang Xu, Zhong-Yi Zhang, Qing-Hao Meng
分类: cs.LG, cs.AI
发布日期: 2024-11-13 (更新: 2024-12-28)
备注: 21pages, 7 figures
💡 一句话要点
SAD-TIME:融合时空信息的抑郁症脑电检测网络
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 抑郁症检测 脑电信号 时空融合 深度学习 领域对抗学习
📋 核心要点
- 现有抑郁症诊断方法依赖主观问卷,易产生偏差且可能被患者抵触,缺乏客观性。
- SAD-TIME通过自动提取脑电信号的时空特征,并进行领域对抗学习,提升诊断的准确性和鲁棒性。
- 实验表明,SAD-TIME在跨个体模式下,于两个数据集上分别达到92.00%和94.00%的抑郁症分类准确率。
📝 摘要(中文)
背景与目的:抑郁症是一种严重的精神障碍,准确诊断对于患者的治疗和康复至关重要。然而,目前基于问卷的诊断方法可能存在主观偏差,并且可能被受试者拒绝。为了寻找更客观的诊断方法,近年来研究人员开始尝试基于深度学习的方法来识别抑郁症。方法:本研究提出了一种新颖的融合时空信息的网络,即SAD-TIME,它包含自动多尺度深度可分离卷积和时间间隔相关公共特征提取器。SAD-TIME包含自动节点公共特征提取器(CFE)、空间扇区(SpS)、改进的时间扇区(TeS)和领域对抗学习器(DAL)。CFE包括多尺度深度可分离一维卷积神经网络和时间间隔嵌入生成器,保留了每个通道的独特信息。SpS融合了功能连接和包含脑电电极空间位置的基于距离的连接。SpS中还应用了多头注意力图卷积网络来融合来自不同脑电通道的特征。TeS基于长短期记忆网络和图Transformer网络,融合了不同时间窗口的时间信息。此外,SpS之后使用DAL来获得领域不变特征。结果:在十分交叉验证下的实验结果表明,所提出的SAD-TIME方法在两个数据集上分别实现了92.00%和94.00%的抑郁症分类准确率(跨个体模式)。结论:SAD-TIME是一个鲁棒的抑郁症检测模型,其中自动生成的特征、SpS和TeS通过融合脑电信号中固有的时空信息来辅助分类性能。
🔬 方法详解
问题定义:论文旨在解决抑郁症诊断中主观性强、准确率不高的问题。现有方法主要依赖问卷调查,容易受到患者主观意愿和认知偏差的影响,导致误诊或漏诊。因此,需要一种更客观、准确的诊断方法,利用脑电信号等生理数据进行分析。
核心思路:论文的核心思路是融合脑电信号的时空信息,构建一个深度学习模型,自动提取与抑郁症相关的特征。通过空间扇区(SpS)和时间扇区(TeS)分别提取空间和时间维度上的特征,并利用领域对抗学习(DAL)增强模型的泛化能力,从而提高抑郁症诊断的准确性和鲁棒性。
技术框架:SAD-TIME网络包含以下几个主要模块:1) 自动节点公共特征提取器(CFE):用于自动提取脑电信号的公共特征。2) 空间扇区(SpS):融合功能连接和基于距离的连接,提取空间特征。3) 时间扇区(TeS):基于LSTM和图Transformer网络,提取时间特征。4) 领域对抗学习器(DAL):用于获得领域不变特征,增强模型的泛化能力。整体流程是:脑电信号经过CFE提取特征后,分别输入SpS和TeS提取时空特征,SpS输出的特征经过DAL进行领域对齐,最后将SpS和TeS的输出进行融合,用于抑郁症分类。
关键创新:论文的关键创新在于:1) 提出了自动节点公共特征提取器(CFE),能够自动学习脑电信号的特征表示。2) 设计了空间扇区(SpS)和时间扇区(TeS),分别提取脑电信号的空间和时间特征,并进行融合。3) 引入了领域对抗学习(DAL),增强了模型的泛化能力,使其在不同数据集上都能表现良好。与现有方法相比,SAD-TIME能够更有效地利用脑电信号的时空信息,并具有更强的鲁棒性。
关键设计:CFE使用了多尺度深度可分离一维卷积神经网络,以保留每个通道的独特信息。SpS中,功能连接和基于距离的连接被融合,并使用多头注意力图卷积网络来融合来自不同脑电通道的特征。TeS基于LSTM和图Transformer网络,融合了不同时间窗口的时间信息。DAL被用于最小化源域和目标域之间的差异,从而获得领域不变特征。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
📊 实验亮点
SAD-TIME在两个数据集上进行了实验,结果表明,该方法在跨个体模式下分别实现了92.00%和94.00%的抑郁症分类准确率。这些结果表明,SAD-TIME能够有效地利用脑电信号的时空信息,并具有较强的鲁棒性,优于传统的基于问卷调查的诊断方法。
🎯 应用场景
该研究成果可应用于抑郁症的辅助诊断,为医生提供更客观的诊断依据,减少误诊和漏诊。此外,该方法还可以扩展到其他精神疾病的诊断,具有广阔的应用前景。未来,可以将该技术集成到智能医疗设备中,实现抑郁症的早期筛查和预警。
📄 摘要(原文)
Background and Objective: Depression is a severe mental disorder, and accurate diagnosis is pivotal to the cure and rehabilitation of people with depression. However, the current questionnaire-based diagnostic methods could bring subjective biases and may be denied by subjects. In search of a more objective means of diagnosis, researchers have begun to experiment with deep learning-based methods for identifying depressive disorders in recent years. Methods: In this study, a novel Spatiotemporal-fused network with Automated multi-scale Depth-wise and TIME-interval-related common feature extractor (SAD-TIME) is proposed. SAD-TIME incorporates an automated nodes' common features extractor (CFE), a spatial sector (SpS), a modified temporal sector (TeS), and a domain adversarial learner (DAL). The CFE includes a multi-scale depth-wise 1D-convolutional neural network and a time-interval embedding generator, where the unique information of each channel is preserved. The SpS fuses the functional connectivity with the distance-based connectivity containing spatial position of EEG electrodes. A multi-head-attention graph convolutional network is also applied in the SpS to fuse the features from different EEG channels. The TeS is based on long short-term memory and graph transformer networks, where the temporal information of different time-windows is fused. Moreover, the DAL is used after the SpS to obtain the domain-invariant feature. Results: Experimental results under tenfold cross-validation show that the proposed SAD-TIME method achieves 92.00% and 94.00% depression classification accuracies on two datasets, respectively, in cross-subject mode. Conclusion: SAD-TIME is a robust depression detection model, where the automatedly-generated features, the SpS and the TeS assist the classification performance with the fusion of the innate spatiotemporal information in the EEG signals.