GAF-FusionNet: Multimodal ECG Analysis via Gramian Angular Fields and Split Attention

📄 arXiv: 2501.01960v1 📥 PDF

作者: Jiahao Qin, Feng Liu

分类: cs.CV, cs.AI, cs.GR, cs.LG

发布日期: 2024-12-07

备注: 14 pages, 1 figure, accepted by ICONIP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

GAF-FusionNet:利用格拉姆角场和分离注意力进行多模态心电图分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心电图分析 格拉姆角场 多模态融合 分离注意力 时间序列分析

📋 核心要点

  1. 心电图分析对心血管疾病诊断至关重要,但现有方法难以准确解读复杂的心电信号。
  2. GAF-FusionNet通过格拉姆角场将时间序列心电图转换为图像,并利用分离注意力融合时空特征。
  3. 在ECG200、ECG5000和MIT-BIH数据集上,GAF-FusionNet的准确率分别达到94.5%、96.9%和99.6%,优于现有方法。

📝 摘要(中文)

心电图(ECG)分析在诊断心血管疾病中起着至关重要的作用,但对这些复杂信号的准确解读仍然具有挑战性。本文介绍了一种新颖的多模态框架(GAF-FusionNet)用于心电图分类,该框架集成了时间序列分析和基于图像的格拉姆角场(GAF)表示。我们的方法采用双层跨通道分离注意力模块来自适应地融合时间和空间特征,从而实现互补信息的细致集成。我们在三个不同的心电图数据集上评估了GAF-FusionNet:ECG200、ECG5000和MIT-BIH心律失常数据库。结果表明,与最先进的方法相比,我们的模型取得了显著的改进,在相应的数据集上分别达到了94.5%、96.9%和99.6%的准确率。我们的代码即将发布在https://github.com/Cross-Innovation-Lab/GAF-FusionNet.git。

🔬 方法详解

问题定义:心电图(ECG)信号分析是诊断心血管疾病的关键。然而,原始ECG信号是复杂的时间序列数据,难以直接提取有效特征。现有方法通常依赖于人工特征工程或简单的时序模型,难以充分利用ECG信号中蕴含的时空信息,导致分类精度不高。

核心思路:本文的核心思路是将ECG时间序列信号转换为图像表示,即格拉姆角场(GAF),从而将时间序列分析问题转化为图像分类问题。同时,设计分离注意力机制,自适应地融合从时间序列和图像中提取的特征,充分利用互补信息。这种时空特征融合的策略旨在提升ECG分类的准确性和鲁棒性。

技术框架:GAF-FusionNet框架包含以下主要模块:1) ECG信号预处理;2) GAF图像生成,将ECG时间序列转换为GAF图像;3) 时间序列特征提取模块,使用卷积神经网络提取时间序列特征;4) GAF图像特征提取模块,使用卷积神经网络提取图像特征;5) 双层跨通道分离注意力模块,自适应地融合时间和空间特征;6) 分类器,基于融合后的特征进行ECG信号分类。

关键创新:该论文的关键创新在于:1) 提出了一种基于GAF的心电图图像表示方法,将时间序列分析问题转化为图像分类问题;2) 设计了一种双层跨通道分离注意力模块,能够自适应地融合时间和空间特征,充分利用互补信息。这种时空特征融合的策略是与现有方法最本质的区别。

关键设计:GAF图像生成采用格拉姆角和差场(GADF)编码,将时间序列数据编码为图像。双层跨通道分离注意力模块包含两个分离注意力层,分别对时间和空间特征进行加权。损失函数采用交叉熵损失函数,优化目标是最小化分类误差。网络结构采用ResNet作为特征提取器,并根据ECG信号的特点进行了调整。

🖼️ 关键图片

fig_0

📊 实验亮点

GAF-FusionNet在三个公开ECG数据集上取得了显著的性能提升。在ECG200数据集上,准确率达到94.5%;在ECG5000数据集上,准确率达到96.9%;在MIT-BIH心律失常数据库上,准确率高达99.6%。这些结果表明,GAF-FusionNet优于现有的心电图分类方法,具有很强的竞争力。

🎯 应用场景

该研究成果可应用于心血管疾病的自动诊断和监测。通过将心电图信号转换为图像并进行分析,可以辅助医生进行更准确、高效的诊断。此外,该技术还可应用于远程医疗、可穿戴设备等领域,实现对患者心血管健康的实时监测和预警,具有重要的临床应用价值和社会意义。

📄 摘要(原文)

Electrocardiogram (ECG) analysis plays a crucial role in diagnosing cardiovascular diseases, but accurate interpretation of these complex signals remains challenging. This paper introduces a novel multimodal framework(GAF-FusionNet) for ECG classification that integrates time-series analysis with image-based representation using Gramian Angular Fields (GAF). Our approach employs a dual-layer cross-channel split attention module to adaptively fuse temporal and spatial features, enabling nuanced integration of complementary information. We evaluate GAF-FusionNet on three diverse ECG datasets: ECG200, ECG5000, and the MIT-BIH Arrhythmia Database. Results demonstrate significant improvements over state-of-the-art methods, with our model achieving 94.5\%, 96.9\%, and 99.6\% accuracy on the respective datasets. Our code will soon be available at https://github.com/Cross-Innovation-Lab/GAF-FusionNet.git.