Heart Failure Prediction using Modal Decomposition and Masked Autoencoders for Scarce Echocardiography Databases

📄 arXiv: 2504.07606v3 📥 PDF

作者: Andrés Bell-Navas, María Villalba-Orero, Enrique Lara-Pezzi, Jesús Garicano-Mena, Soledad Le Clainche

分类: eess.IV, cs.CV

发布日期: 2025-04-10 (更新: 2025-12-09)

备注: 43 pages, 7 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于模态分解和掩码自编码器的心力衰竭预测方法,适用于稀疏超声心动图数据库。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 心力衰竭预测 超声心动图 模态分解 掩码自编码器 Vision Transformer 自监督学习 数据增强

📋 核心要点

  1. 心力衰竭预测面临挑战,现有方法在稀疏超声心动图数据上的表现不佳,限制了早期诊断和有效干预。
  2. 该方法结合模态分解和掩码自编码器,利用高阶动态模态分解进行数据增强和特征提取,并使用MAE训练ViT。
  3. 实验表明,该方法在稀疏数据库上提高了预测准确性,优于传统ViT和CNN架构,为心力衰竭预测提供新方案。

📝 摘要(中文)

本研究提出了一种自动化的心力衰竭预测系统,该系统结合了模态分解和掩码自编码器(MAE),旨在将应用从心脏疾病分类扩展到更具挑战性的心力衰竭时间预测任务。该系统包含两个阶段:第一阶段将超声心动图视频序列数据库中的数据转换为大量带注释的图像,并使用高阶动态模态分解(HODMD)算法进行数据增强和特征提取。第二阶段构建并训练一个Vision Transformer(ViT),采用基于自监督学习(SSL)和监督学习相结合的MAE方案,从头开始有效地训练ViT,即使在稀疏数据库下也能实现。该神经网络实时分析超声心动图序列图像,以估计心力衰竭发生的时间。实验结果表明,该方法提高了稀疏数据库的预测准确性,并且优于几种已建立的ViT和卷积神经网络(CNN)架构。

🔬 方法详解

问题定义:论文旨在解决利用稀疏超声心动图数据库进行心力衰竭时间预测的问题。现有方法在数据量不足的情况下,预测精度较低,难以满足临床需求。

核心思路:论文的核心思路是利用模态分解进行数据增强和特征提取,并结合掩码自编码器(MAE)进行自监督预训练,从而提高Vision Transformer(ViT)在稀疏数据上的泛化能力。这种设计旨在克服数据稀缺带来的挑战,提升预测准确性。

技术框架:该系统包含两个主要阶段:1) 数据预处理和特征提取阶段:使用高阶动态模态分解(HODMD)算法对超声心动图视频序列进行数据增强和特征提取,生成大量带注释的图像。2) 模型训练和预测阶段:构建并训练一个Vision Transformer(ViT),使用基于自监督学习(SSL)和监督学习相结合的MAE方案进行训练。

关键创新:该方法的主要创新点在于将模态分解和掩码自编码器相结合,用于心力衰竭时间预测。特别是在稀疏数据场景下,通过MAE的自监督预训练,有效提升了ViT的性能,克服了传统方法在数据量不足时的局限性。

关键设计:HODMD算法用于提取超声心动图视频序列中的动态特征,并进行数据增强。MAE采用掩码策略,随机掩盖部分输入图像,并训练ViT重建被掩盖的部分,从而学习图像的潜在表示。损失函数结合了自监督学习的重建损失和监督学习的分类损失,以优化模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在稀疏超声心动图数据库上实现了优于传统ViT和CNN架构的预测准确性。具体性能数据和提升幅度在论文中未明确给出,但摘要强调了其在稀疏数据上的优越性。该研究为心力衰竭预测提供了一种新的有效途径。

🎯 应用场景

该研究成果可应用于临床心力衰竭的早期预测和诊断,帮助医生更准确地评估患者的病情发展趋势,制定个性化的治疗方案。通过提高预测准确性,可以减少不必要的医疗资源浪费,并改善患者的生存率和生活质量。未来,该方法有望推广到其他医学影像分析领域,为疾病预测和诊断提供更有效的工具。

📄 摘要(原文)

Heart diseases remain the leading cause of mortality worldwide, implying approximately 18 million deaths according to the WHO. In particular, heart failures (HF) press the healthcare industry to develop systems for their early, rapid, and effective prediction. This work presents an automatic system based on a novel framework which combines Modal Decomposition and Masked Autoencoders (MAE) to extend the application from heart disease classification to the more challenging and specific task of heart failure time prediction, not previously addressed to the best of authors' knowledge. This system comprises two stages. The first one transforms the data from a database of echocardiography video sequences into a large collection of annotated images compatible with the training phase of machine learning-based frameworks and deep learning-based ones. This stage includes the use of the Higher Order Dynamic Mode Decomposition (HODMD) algorithm for both data augmentation and feature extraction. The second stage builds and trains a Vision Transformer (ViT). MAEs based on a combined scheme of self-supervised (SSL) and supervised learning, so far barely explored in the literature about heart failure prediction, are adopted to effectively train the ViT from scratch, even with scarce databases. The designed neural network analyses in real-time images from echocardiography sequences to estimate the time of happening a heart failure. This approach demonstrates to improve prediction accuracy from scarce databases and to be superior to several established ViT and Convolutional Neural Network (CNN) architectures. The source code will be incorporated into the next version release of the ModelFLOWs-app software (https://github.com/modelflows/ModelFLOWs-app).