Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training

📄 arXiv: 2405.19654v1 📥 PDF

作者: Jinxia Yang, Bing Su, Wayne Xin Zhao, Ji-Rong Wen

分类: cs.AI

发布日期: 2024-05-30

备注: Accepted at ICML 2024

🔗 代码/项目: GITHUB


💡 一句话要点

Med-ST:融合时空信息的医学多模态预训练框架,提升医学影像报告理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学影像 多模态学习 预训练 时空建模 医学报告生成

📋 核心要点

  1. 现有医学视觉-语言预训练方法忽略了医学影像数据中蕴含的空间多视角信息和时间序列信息。
  2. Med-ST框架通过混合视图专家网络融合多视角空间信息,并利用跨模态双向循环一致性学习时间语义。
  3. 实验表明,Med-ST在多个任务上表现出色,尤其在时间分类任务上取得了显著提升。

📝 摘要(中文)

医学视觉-语言预训练方法主要利用配对的医学图像和放射学报告之间的对应关系。尽管现成的多模态医学数据集中存在多视角的空间图像和图像-报告对的时间序列,但现有方法大多没有充分利用这些广泛的监督信号。本文提出了Med-ST框架,用于细粒度的空间和时间建模,以利用来自胸部X光片的多个空间视图和时间历史记录的信息。在空间建模方面,Med-ST采用混合视图专家(MoVE)架构来整合来自正面和侧面视图的不同视觉特征。为了实现更全面的对齐,Med-ST不仅建立了整个图像和文本之间的全局对齐,还引入了文本标记和图像空间区域之间的模态加权局部对齐。在时间建模方面,我们提出了一种新颖的跨模态双向循环一致性目标,通过前向映射分类(FMC)和反向映射回归(RMR)。通过感知从简单到复杂的时间信息,Med-ST可以学习时间语义。在四个不同任务上的实验结果证明了Med-ST的有效性,尤其是在时间分类任务中。

🔬 方法详解

问题定义:现有医学视觉-语言预训练方法主要关注图像和报告之间的对应关系,忽略了医学影像数据中蕴含的丰富的空间和时间信息。例如,胸部X光片通常包含正面和侧面两个视图,而患者的病史记录则提供了时间序列信息。现有方法未能充分利用这些信息,限制了模型的性能。

核心思路:Med-ST的核心思路是同时利用医学影像数据的空间多视角信息和时间序列信息,从而更全面地理解医学影像报告。通过空间建模,模型可以学习不同视角之间的关系;通过时间建模,模型可以学习疾病的发展趋势。

技术框架:Med-ST框架包含空间建模和时间建模两个主要模块。空间建模模块采用混合视图专家(MoVE)架构,融合来自正面和侧面视图的视觉特征,并引入模态加权局部对齐,以实现更细粒度的图像-文本对齐。时间建模模块则提出了一种跨模态双向循环一致性目标,通过前向映射分类(FMC)和反向映射回归(RMR)来学习时间语义。整体流程是先进行空间特征提取和融合,然后进行时间建模,最后进行多模态融合和预训练。

关键创新:Med-ST的关键创新在于同时考虑了医学影像数据的空间和时间信息,并提出了相应的建模方法。MoVE架构能够有效地融合多视角信息,而跨模态双向循环一致性目标则能够学习时间语义。此外,模态加权局部对齐也提高了图像-文本对齐的精度。

关键设计:在空间建模中,MoVE架构采用多个专家网络分别处理不同视角的图像特征,然后通过门控机制进行融合。在时间建模中,FMC将历史图像映射到当前报告的类别,而RMR则将当前报告映射到历史图像的特征。损失函数包括全局对齐损失、局部对齐损失、FMC损失和RMR损失。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Med-ST在四个不同的任务上进行了评估,包括图像-文本检索、报告生成、时间分类等。实验结果表明,Med-ST在所有任务上都取得了显著的提升,尤其是在时间分类任务上,性能提升尤为明显。例如,在某个时间分类任务上,Med-ST的准确率比现有最佳方法提高了5%以上。

🎯 应用场景

Med-ST框架可应用于多种医学影像报告理解任务,例如疾病诊断、报告生成、影像检索等。通过利用空间和时间信息,模型可以更准确地理解医学影像,辅助医生进行诊断和治疗决策,提高医疗效率和质量。未来,该方法可以扩展到其他医学影像模态和疾病类型,具有广阔的应用前景。

📄 摘要(原文)

Medical vision-language pre-training methods mainly leverage the correspondence between paired medical images and radiological reports. Although multi-view spatial images and temporal sequences of image-report pairs are available in off-the-shelf multi-modal medical datasets, most existing methods have not thoroughly tapped into such extensive supervision signals. In this paper, we introduce the Med-ST framework for fine-grained spatial and temporal modeling to exploit information from multiple spatial views of chest radiographs and temporal historical records. For spatial modeling, Med-ST employs the Mixture of View Expert (MoVE) architecture to integrate different visual features from both frontal and lateral views. To achieve a more comprehensive alignment, Med-ST not only establishes the global alignment between whole images and texts but also introduces modality-weighted local alignment between text tokens and spatial regions of images. For temporal modeling, we propose a novel cross-modal bidirectional cycle consistency objective by forward mapping classification (FMC) and reverse mapping regression (RMR). By perceiving temporal information from simple to complex, Med-ST can learn temporal semantics. Experimental results across four distinct tasks demonstrate the effectiveness of Med-ST, especially in temporal classification tasks. Our code and model are available at https://github.com/SVT-Yang/MedST.