VAMAE: Vessel-Aware Masked Autoencoders for OCT Angiography

📄 arXiv: 2604.06583v1 📥 PDF

作者: Ilerioluwakiiye Abolade, Prince Mireku, Kelechi Chibundu, Peace Ododo, Emmanuel Idoko, Promise Omoigui, Solomon Odelola

分类: cs.CV

发布日期: 2026-04-08

备注: 8 pages, 5 figures. Accepted at ICPR 2026


💡 一句话要点

VAMAE:血管感知掩码自编码器用于OCT血管造影图像的自监督预训练

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: OCT血管造影 自监督学习 掩码自编码器 血管分割 几何感知

📋 核心要点

  1. 现有自监督方法在OCTA图像上表现不佳,因为它们忽略了血管的稀疏性和复杂的拓扑结构。
  2. VAMAE通过血管感知掩码和多目标重建,使模型能够学习血管的几何结构和拓扑信息。
  3. 在OCTA-500数据集上的实验表明,VAMAE在血管分割任务上优于标准掩码自编码器,尤其是在数据标注有限的情况下。

📝 摘要(中文)

光学相干断层扫描血管造影(OCTA)能够非侵入性地可视化视网膜微血管结构,但由于血管结构的稀疏性和拓扑约束,学习鲁棒的表征仍然具有挑战性。现有的自监督学习方法,包括掩码自编码器,主要为密集自然图像设计,依赖于均匀掩码和像素级重建,可能无法充分捕捉血管几何结构。我们提出了VAMAE,一个血管感知的掩码自编码框架,用于OCTA图像的自监督预训练。该方法结合了解剖学信息的掩码策略,利用血管性和骨架信息来强调富含血管的区域,鼓励模型关注血管的连通性和分支模式。此外,预训练目标包括重建多个互补目标,使模型能够捕获外观、结构和拓扑信息。我们在OCTA-500基准上评估了所提出的预训练策略在不同监督程度下的血管分割任务。结果表明,血管感知掩码和多目标重建提供了优于标准掩码自编码基线的持续改进,尤其是在有限标签设置下,表明了几何感知自监督学习在OCTA分析中的潜力。

🔬 方法详解

问题定义:论文旨在解决OCTA图像中血管分割任务,现有方法如标准掩码自编码器(MAE)在处理OCTA图像时,由于其血管结构的稀疏性和拓扑约束,无法有效学习血管的表征。这些方法通常采用均匀掩码和像素级重建,忽略了血管的几何信息,导致分割精度不高,尤其是在标注数据有限的情况下。

核心思路:论文的核心思路是引入血管感知的掩码策略和多目标重建,使模型能够关注血管的连通性和分支模式,从而更好地学习血管的几何结构和拓扑信息。通过强调血管区域,模型可以更有效地利用有限的标注数据进行学习,提高分割性能。

技术框架:VAMAE框架主要包括三个部分:血管感知掩码生成、掩码自编码器和多目标重建。首先,利用血管性和骨架信息生成血管感知掩码,该掩码会更多地掩盖血管丰富的区域。然后,将掩码后的OCTA图像输入到掩码自编码器中进行编码和解码。最后,通过多目标重建,模型需要同时重建图像的外观、结构和拓扑信息。

关键创新:VAMAE的关键创新在于血管感知掩码和多目标重建。血管感知掩码能够引导模型关注血管区域,从而更好地学习血管的几何结构。多目标重建则使模型能够同时学习图像的外观、结构和拓扑信息,从而提高模型的表征能力。与现有方法相比,VAMAE更关注血管的特性,能够更有效地利用有限的标注数据进行学习。

关键设计:血管感知掩码的生成依赖于血管性和骨架信息,具体实现方式未知。多目标重建包括重建原始图像、血管分割图和血管骨架图。损失函数是这些重建目标的加权和,权重参数的选择未知。掩码自编码器的网络结构基于Transformer,具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VAMAE在OCTA-500数据集上进行了评估,结果表明,血管感知掩码和多目标重建能够显著提高血管分割的性能。在有限标签设置下,VAMAE的性能优于标准掩码自编码器,表明其能够更有效地利用有限的标注数据进行学习。具体的性能提升幅度未知,但论文强调了VAMAE在有限标签情况下的优势。

🎯 应用场景

VAMAE在眼科疾病诊断和治疗中具有广泛的应用前景。它可以用于辅助医生进行视网膜血管疾病的诊断,如糖尿病视网膜病变、视网膜静脉阻塞等。通过提高血管分割的精度,VAMAE可以帮助医生更准确地评估疾病的严重程度,制定更有效的治疗方案。此外,VAMAE还可以用于研究视网膜血管的结构和功能,为开发新的治疗方法提供理论基础。

📄 摘要(原文)

Optical coherence tomography angiography (OCTA) provides non-invasive visualization of retinal microvasculature, but learning robust representations remains challenging due to sparse vessel structures and strong topological constraints. Many existing self-supervised learning approaches, including masked autoencoders, are primarily designed for dense natural images and rely on uniform masking and pixel-level reconstruction, which may inadequately capture vascular geometry. We propose VAMAE, a vessel-aware masked autoencoding framework for self-supervised pretraining on OCTA images. The approach incorporates anatomically informed masking that emphasizes vessel-rich regions using vesselness and skeleton-based cues, encouraging the model to focus on vascular connectivity and branching patterns. In addition, the pretraining objective includes reconstructing multiple complementary targets, enabling the model to capture appearance, structural, and topological information. We evaluate the proposed pretraining strategy on the OCTA-500 benchmark for several vessel segmentation tasks under varying levels of supervision. The results indicate that vessel-aware masking and multi-target reconstruction provide consistent improvements over standard masked autoencoding baselines, particularly in limited-label settings, suggesting the potential of geometry-aware self-supervised learning for OCTA analysis.