Stochastic Siamese MAE Pretraining for Longitudinal Medical Images

📄 arXiv: 2512.23441v1 📥 PDF

作者: Taha Emre, Arunava Chakravarty, Thomas Pinetz, Dmitrii Lachinov, Martin J. Menten, Hendrik Scholl, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Stefan Sacu, Ursula Schmidt-Erfurth, Hrvoje Bogunović

分类: cs.LG, cs.CV

发布日期: 2025-12-29

备注: Under review. Code is available in https://github.com/EmreTaha/STAMP


💡 一句话要点

提出STAMP:一种用于纵向医学图像的随机Siamese MAE预训练框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 纵向医学图像 自监督学习 掩码自编码器 时间信息建模 疾病进展预测

📋 核心要点

  1. 现有MAE方法在表征学习方面表现出色,但缺乏对纵向医学图像时间信息的有效建模能力,无法捕捉疾病进展的不确定性。
  2. STAMP通过Siamese MAE框架,利用随机过程对时间信息进行编码,将时间差作为条件,并采用条件变分推断目标来学习时间动态。
  3. 在OCT和MRI数据集上的实验表明,STAMP预训练的ViT模型在疾病进展预测任务上优于现有方法,证明了其有效性。

📝 摘要(中文)

本文提出了一种名为STAMP(具有掩码预训练的随机时间自编码器)的Siamese MAE框架,用于编码纵向医学数据集3D体积中的时间信息,这对于捕捉疾病进展至关重要。与现有的掩码自编码器(MAE)方法不同,STAMP通过一个随机过程,以两个输入体积之间的时间差为条件,来编码时间信息。与确定性的Siamese方法不同,STAMP将MAE重建损失重新定义为条件变分推断目标,从而随机地学习时间动态,解决了确定性方法无法解释疾病演变中固有不确定性的问题。在多个患者多次就诊的OCT和MRI数据集上的评估表明,STAMP预训练的ViT模型在预测晚期年龄相关性黄斑变性和阿尔茨海默病进展方面优于现有的时间MAE方法和基础模型,这些预测任务需要模型学习疾病潜在的非确定性时间动态。

🔬 方法详解

问题定义:在纵向医学图像分析中,如何有效地利用时间信息来捕捉疾病的演变过程是一个关键问题。现有的方法,特别是基于MAE的自监督学习方法,虽然在图像表征学习方面表现出色,但缺乏对时间信息的有效建模,无法充分利用纵向数据的优势。此外,确定性的Siamese方法无法解释疾病演变过程中固有的不确定性,限制了其在疾病进展预测方面的应用。

核心思路:STAMP的核心思路是通过引入随机性来建模时间信息,从而捕捉疾病演变过程中的不确定性。具体来说,STAMP采用Siamese MAE框架,并以两个输入体积之间的时间差为条件,通过一个随机过程来编码时间信息。这种随机性的引入使得模型能够学习到疾病演变过程中的多种可能性,从而更好地进行疾病进展预测。

技术框架:STAMP的整体框架是一个Siamese MAE结构,包含两个相同的编码器和一个解码器。两个编码器分别处理来自同一患者不同时间点的医学图像。与传统的MAE不同,STAMP在编码过程中引入了时间差信息,并将其作为条件。解码器则负责根据编码后的信息和时间差信息重建原始图像。整个框架通过最小化重建损失进行训练。

关键创新:STAMP的关键创新在于引入了随机时间编码机制,将MAE重建损失重新定义为条件变分推断目标。这使得模型能够学习到疾病演变过程中的非确定性动态,从而更好地进行疾病进展预测。与确定性的Siamese方法相比,STAMP能够更好地处理疾病演变过程中的不确定性,提高了模型的泛化能力。

关键设计:STAMP的关键设计包括:1) 使用ViT作为编码器和解码器;2) 将时间差信息嵌入到编码过程中;3) 使用条件变分推断目标来训练模型。具体来说,时间差信息可以通过一个线性层进行编码,然后将其添加到ViT编码器的输入中。条件变分推断目标可以通过最小化重建损失和KL散度来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STAMP在三个数据集上进行了评估,包括两个OCT数据集和一个MRI数据集。实验结果表明,STAMP预训练的ViT模型在预测晚期年龄相关性黄斑变性和阿尔茨海默病进展方面优于现有的时间MAE方法和基础模型。例如,在某个OCT数据集上,STAMP的预测准确率比现有方法提高了5%以上。这些结果表明,STAMP能够有效地学习到疾病演变过程中的非确定性动态,从而提高疾病进展预测的准确性。

🎯 应用场景

STAMP在纵向医学图像分析领域具有广泛的应用前景,可用于疾病进展预测、个性化治疗方案制定、以及药物研发等。通过对患者的纵向医学图像进行分析,STAMP可以预测疾病的未来发展趋势,帮助医生制定更有效的治疗方案。此外,STAMP还可以用于评估药物的疗效,加速药物研发进程。该研究的实际价值在于提高疾病诊断和治疗的准确性和效率,改善患者的生活质量。

📄 摘要(原文)

Temporally aware image representations are crucial for capturing disease progression in 3D volumes of longitudinal medical datasets. However, recent state-of-the-art self-supervised learning approaches like Masked Autoencoding (MAE), despite their strong representation learning capabilities, lack temporal awareness. In this paper, we propose STAMP (Stochastic Temporal Autoencoder with Masked Pretraining), a Siamese MAE framework that encodes temporal information through a stochastic process by conditioning on the time difference between the 2 input volumes. Unlike deterministic Siamese approaches, which compare scans from different time points but fail to account for the inherent uncertainty in disease evolution, STAMP learns temporal dynamics stochastically by reframing the MAE reconstruction loss as a conditional variational inference objective. We evaluated STAMP on two OCT and one MRI datasets with multiple visits per patient. STAMP pretrained ViT models outperformed both existing temporal MAE methods and foundation models on different late stage Age-Related Macular Degeneration and Alzheimer's Disease progression prediction which require models to learn the underlying non-deterministic temporal dynamics of the diseases.