Beyond Independent Frames: Latent Attention Masked Autoencoders for Multi-View Echocardiography
作者: Simon Böhi, Irene Cannistraci, Sergio Muñoz Gonzalez, Moritz Vandenhirtz, Sonia Laguna, Samuel Ruiperez-Campillo, Max Krähenmann, Andrea Agostini, Ece Ozkan, Thomas M. Sutter, Julia E. Vogt
分类: cs.CV, cs.LG
发布日期: 2026-04-16
备注: Accepted as a workshop paper at the ICLR 2026 Workshop on Foundation Models for Science
💡 一句话要点
提出LAMAE,利用潜在注意力机制的掩码自编码器处理多视角超声心动图,提升心脏表征学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多视角学习 掩码自编码器 潜在注意力 超声心动图 医学影像分析
📋 核心要点
- 现有MAE方法独立处理超声心动图的图像或短视频,忽略了多视角信息融合对心脏连贯表征的重要性。
- LAMAE通过潜在注意力模块,在隐空间实现跨帧和跨视角的信息交换,从而聚合不同长度序列和视图。
- 实验表明,LAMAE在MIMIC-IV-ECHO数据集上预训练后,能有效预测ICD-10代码,且表征可迁移至儿科数据。
📝 摘要(中文)
超声心动图是一种广泛应用于心脏评估的非侵入性且经济有效的手段,但其稀疏和异构的时空视图对心脏评估提出了独特的挑战。现有的掩码自编码器(MAE)方法通常独立处理图像或短视频片段,无法捕捉连贯心脏表征所需的多视角结构。我们提出了潜在注意力掩码自编码器(LAMAE),一种专为医学成像的多视角特性量身定制的基础模型架构。LAMAE通过一个潜在注意力模块增强了标准MAE,该模块可以直接在潜在空间中实现跨帧和跨视角的信息交换。这使得模型能够聚合可变长度的序列和不同的视图,从部分观测中重建心脏功能的整体表示。我们在MIMIC-IV-ECHO上预训练LAMAE,这是一个反映真实临床变异性的大规模、未经整理的数据集。据我们所知,我们首次展示了从MIMIC-IV-ECHO视频预测ICD-10代码的结果。此外,我们通过实验证明,从成人数据中学习到的表征可以有效地迁移到儿科队列,尽管存在显著的解剖学差异。这些结果表明,结合多视角注意力等结构先验,可以产生更鲁棒和可迁移的表征。
🔬 方法详解
问题定义:论文旨在解决超声心动图分析中,现有方法无法有效利用多视角信息进行心脏表征学习的问题。超声心动图具有稀疏和异构的时空视图,传统方法通常独立处理各个视角或时间帧,忽略了它们之间的内在联系,导致学习到的表征不够全面和鲁棒。
核心思路:论文的核心思路是利用潜在注意力机制,在掩码自编码器(MAE)的隐空间中实现跨视角和跨时间帧的信息融合。通过在隐空间进行注意力交互,模型可以学习到各个视角之间的关联性,从而构建更完整和连贯的心脏表征。这种方法能够有效地利用多视角信息,提高模型对心脏功能的理解和预测能力。
技术框架:LAMAE的整体架构基于标准的掩码自编码器(MAE),并在此基础上添加了一个潜在注意力模块。整个流程包括:1) 输入多视角超声心动图序列;2) 使用编码器将输入映射到隐空间;3) 在隐空间中,使用潜在注意力模块进行跨视角和跨时间帧的信息交互;4) 使用解码器将隐空间表示重构为原始图像。模型通过最小化重构误差进行训练。
关键创新:LAMAE的关键创新在于引入了潜在注意力模块,该模块允许模型在隐空间中直接进行跨视角和跨时间帧的信息交换。与传统的MAE方法相比,LAMAE能够更好地利用多视角信息,学习到更鲁棒和可迁移的心脏表征。此外,该模型还能够处理变长序列,使其更适用于实际临床应用。
关键设计:潜在注意力模块的设计是LAMAE的关键。该模块使用Transformer架构,将隐空间表示作为输入,通过自注意力机制学习各个视角之间的关联性。损失函数主要为重构损失,即原始图像与重构图像之间的差异。此外,论文还探索了不同的掩码策略,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
LAMAE在MIMIC-IV-ECHO数据集上进行了预训练,并在ICD-10代码预测任务上取得了显著成果,首次实现了基于超声心动图视频的ICD-10代码预测。实验还证明,从成人数据学习到的表征可以有效迁移到儿科队列,表明LAMAE学习到的表征具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于心脏疾病的自动诊断、病情评估和预后预测。通过学习更鲁棒和可迁移的心脏表征,LAMAE可以提高超声心动图分析的准确性和效率,辅助医生进行临床决策。未来,该方法还可以扩展到其他医学影像模态,为更广泛的医学影像分析任务提供支持。
📄 摘要(原文)
Echocardiography is a widely used modality for cardiac assessment due to its non-invasive and cost-effective nature, but the sparse and heterogeneous spatiotemporal views of the heart pose distinct challenges. Existing masked autoencoder (MAE) approaches typically process images or short clips independently, failing to capture the inherent multi-view structure required for coherent cardiac representation. We introduce Latent Attention Masked Autoencoder (LAMAE), a foundation model architecture tailored to the multi-view nature of medical imaging. LAMAE augments the standard MAE with a latent attention module that enables information exchange across frames and views directly in latent space. This allows the model to aggregate variable-length sequences and distinct views, reconstructing a holistic representation of cardiac function from partial observations. We pretrain LAMAE on MIMIC-IV-ECHO, a large-scale, uncurated dataset reflecting real-world clinical variability. To the best of our knowledge, we present the first results for predicting ICD-10 codes from MIMIC-IV-ECHO videos. Furthermore, we empirically demonstrate that representations learned from adult data transfer effectively to pediatric cohorts despite substantial anatomical differences. These results provide evidence that incorporating structural priors, such as multi-view attention, yields significantly more robust and transferable representations.