Mamba-3D as Masked Autoencoders for Accurate and Data-Efficient Analysis of Medical Ultrasound Videos

📄 arXiv: 2503.20258v1 📥 PDF

作者: Jiaheng Zhou, Yanfeng Zhou, Wei Fang, Yuxing Tang, Le Lu, Ge Yang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-03-26


💡 一句话要点

提出E-ViM³,一种数据高效的Mamba网络,用于精确分析医学超声视频。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 医学超声视频分析 Vision Mamba 数据高效学习 自监督学习 时空建模

📋 核心要点

  1. 医学超声视频分析面临标注数据稀缺和视频分析固有挑战,阻碍了相关方法的发展。
  2. E-ViM³通过保留3D结构、引入Enclosure Global Tokens和空间-时间链式掩码策略,提升数据效率和建模能力。
  3. 实验表明,E-ViM³在多个数据集上取得了SOTA性能,并在有限标签下表现出竞争力。

📝 摘要(中文)

本文提出E-ViM³,一种数据高效的Vision Mamba网络,它保留了视频数据的3D结构,增强了长程依赖和归纳偏置,从而更好地建模时空相关性。通过设计的Enclosure Global Tokens (EGT),该模型比其他方法更有效地捕获和聚合全局特征。为了进一步提高数据效率,采用了掩码视频建模进行自监督预训练,并提出了空间-时间链式(STC)掩码策略,以适应各种视频场景。实验表明,E-ViM³在四个不同大小的数据集(EchoNet-Dynamic、CAMUS、MICCAI-BUV和WHBUS)上的两个高级语义分析任务中表现出最先进的性能。此外,该模型在有限的标签下也能实现具有竞争力的性能,突出了其在实际临床应用中的潜力。

🔬 方法详解

问题定义:医学超声视频的自动分析对于提高诊断准确性和临床效率至关重要。然而,现有方法受限于标注数据的稀缺性以及视频数据本身的时空复杂性,难以充分挖掘视频中的信息,尤其是在长程依赖关系建模方面存在不足。

核心思路:本文的核心思路是利用Vision Mamba架构,并对其进行改进,使其能够更好地处理医学超声视频数据。通过保留视频数据的3D结构,增强模型对时空相关性的建模能力。同时,引入Enclosure Global Tokens (EGT)来更有效地捕获和聚合全局特征,并采用掩码视频建模进行自监督预训练,以提高数据效率。

技术框架:E-ViM³的整体框架包括以下几个主要模块:首先,输入超声视频数据;然后,通过3D卷积层提取初步特征;接着,利用改进的Vision Mamba模块进行时空特征建模,其中包含EGT用于全局信息聚合;最后,通过分类器或回归器完成具体的分析任务,例如心脏功能的评估。在训练阶段,采用自监督预训练和有监督微调相结合的方式。

关键创新:E-ViM³的关键创新点在于以下几个方面:1) 提出了一种数据高效的Vision Mamba网络,能够更好地建模医学超声视频的时空相关性;2) 引入了Enclosure Global Tokens (EGT),能够更有效地捕获和聚合全局特征;3) 提出了空间-时间链式(STC)掩码策略,能够更好地适应各种视频场景,提高自监督预训练的效果。与现有方法相比,E-ViM³在建模长程依赖关系和利用未标注数据方面具有显著优势。

关键设计:E-ViM³的关键设计包括:1) 3D卷积核的大小和步长,用于控制特征提取的尺度;2) Mamba模块中状态空间模型的参数设置,例如隐藏状态的维度和更新规则;3) EGT的数量和位置,用于控制全局信息的聚合程度;4) STC掩码策略的掩码比例和链式连接方式,用于控制自监督预训练的难度和效率;5) 损失函数的设计,包括自监督预训练的重建损失和有监督微调的分类/回归损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

E-ViM³在EchoNet-Dynamic、CAMUS、MICCAI-BUV和WHBUS四个数据集上的实验结果表明,其在两个高级语义分析任务中均取得了最先进的性能。尤其是在有限标签的情况下,E-ViM³仍然能够保持具有竞争力的性能,证明了其数据高效性和泛化能力。这些结果表明,E-ViM³在医学超声视频分析领域具有巨大的潜力。

🎯 应用场景

该研究成果可应用于多种医学超声视频分析任务,例如心脏功能评估、胎儿发育监测、肿瘤检测等。通过提高诊断准确性和临床效率,有望改善患者的治疗效果和生活质量。此外,该方法的数据高效性使其在标注数据稀缺的场景下具有重要应用价值,有望推动人工智能在医疗领域的更广泛应用。

📄 摘要(原文)

Ultrasound videos are an important form of clinical imaging data, and deep learning-based automated analysis can improve diagnostic accuracy and clinical efficiency. However, the scarcity of labeled data and the inherent challenges of video analysis have impeded the advancement of related methods. In this work, we introduce E-ViM$^3$, a data-efficient Vision Mamba network that preserves the 3D structure of video data, enhancing long-range dependencies and inductive biases to better model space-time correlations. With our design of Enclosure Global Tokens (EGT), the model captures and aggregates global features more effectively than competing methods. To further improve data efficiency, we employ masked video modeling for self-supervised pre-training, with the proposed Spatial-Temporal Chained (STC) masking strategy designed to adapt to various video scenarios. Experiments demonstrate that E-ViM$^3$ performs as the state-of-the-art in two high-level semantic analysis tasks across four datasets of varying sizes: EchoNet-Dynamic, CAMUS, MICCAI-BUV, and WHBUS. Furthermore, our model achieves competitive performance with limited labels, highlighting its potential impact on real-world clinical applications.