SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training
作者: Rongsheng Wang, Fenghe Tang, Qingsong Yao, Rui Yan, Xu Zhang, Zhen Huang, Haoran Lai, Zhiyang He, Xiaodong Tao, Zihang Jiang, Shaohua Kevin Zhou
分类: cs.CV
发布日期: 2025-09-10
备注: Accepted by MICCAI 2025
🔗 代码/项目: GITHUB
💡 一句话要点
SimCroP:基于相似性驱动的跨粒度预训练提升胸部CT影像表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学影像 视觉-语言预训练 胸部CT 相似性学习 跨粒度融合
📋 核心要点
- 现有医学视觉-语言预训练方法难以有效处理胸部CT影像中病灶的空间稀疏性和报告中病理描述与影像区域的复杂关系。
- SimCroP框架通过相似性驱动的对齐和跨粒度融合,自适应地学习报告句子与对应影像区域的关联,并整合多模态信息。
- SimCroP在图像分类和分割任务上优于现有医学自监督和视觉-语言预训练方法,证明了其有效性。
📝 摘要(中文)
医学视觉-语言预训练在从大规模配对的放射影像和报告中学习代表性特征方面显示出巨大潜力。然而,在计算机断层扫描(CT)影像中,包含复杂结构的病灶分布具有空间稀疏性。此外,报告中每个句子的不同病理描述与其在放射影像中相应子区域之间的复杂和隐式关系带来了额外的挑战。本文提出了一种基于胸部CT的相似性驱动的跨粒度预训练(SimCroP)框架,该框架结合了相似性驱动的对齐和跨粒度融合,以提高放射影像的解释能力。我们首先利用多模态掩码建模来优化编码器,以理解来自放射影像的精确低级语义。然后,设计相似性驱动的对齐来预训练编码器,使其能够自适应地选择和对齐与报告中每个句子相对应的正确图像块。跨粒度融合模块整合了实例级别和词-图像块级别的多模态信息,这有助于模型更好地捕获稀疏放射影像中的关键病理结构,从而提高多尺度下游任务的性能。SimCroP在一个大规模配对的CT-报告数据集上进行预训练,并在五个公共数据集上的图像分类和分割任务上进行验证。实验结果表明,SimCroP优于最先进的医学自监督学习方法和医学视觉-语言预训练方法。
🔬 方法详解
问题定义:现有医学视觉-语言预训练方法在处理胸部CT影像时,面临着病灶空间稀疏性和报告中病理描述与影像区域之间复杂关系带来的挑战。具体来说,CT影像中的病灶分布不均匀,且报告中的每个句子可能对应影像中的多个子区域,这种隐式对应关系使得模型难以准确学习影像表征。
核心思路:SimCroP的核心思路是利用相似性驱动的对齐和跨粒度融合来解决上述问题。通过相似性驱动的对齐,模型可以自适应地选择和对齐与报告中每个句子相对应的正确图像块,从而建立句子和影像区域之间的联系。跨粒度融合则整合了实例级别和词-图像块级别的多模态信息,从而更好地捕获稀疏放射影像中的关键病理结构。
技术框架:SimCroP框架主要包含两个阶段:多模态掩码建模和相似性驱动的跨粒度预训练。在多模态掩码建模阶段,模型通过掩码部分影像和文本信息来学习低级语义。在相似性驱动的跨粒度预训练阶段,模型首先进行相似性驱动的对齐,然后进行跨粒度融合。整体流程是先通过多模态信息学习基础表征,再通过相似性对齐建立句子和影像区域的联系,最后通过跨粒度融合增强对病理结构的理解。
关键创新:SimCroP的关键创新在于提出了相似性驱动的对齐和跨粒度融合机制。相似性驱动的对齐能够自适应地选择和对齐与报告中每个句子相对应的正确图像块,这与传统的全局对齐方法不同。跨粒度融合则整合了实例级别和词-图像块级别的多模态信息,从而更好地捕获稀疏放射影像中的关键病理结构,这与传统的单粒度融合方法不同。
关键设计:在相似性驱动的对齐中,使用了余弦相似度来衡量句子和图像块之间的相似性,并使用注意力机制来选择最相关的图像块。在跨粒度融合中,使用了Transformer结构来整合实例级别和词-图像块级别的多模态信息。损失函数包括多模态掩码建模损失、相似性对齐损失和下游任务损失。
🖼️ 关键图片
📊 实验亮点
SimCroP在五个公共数据集上的图像分类和分割任务上进行了验证,实验结果表明,SimCroP显著优于现有的医学自监督学习方法和医学视觉-语言预训练方法。例如,在某些数据集上,SimCroP的性能提升超过了5%,证明了其有效性。
🎯 应用场景
SimCroP具有广泛的应用前景,可用于辅助医生进行胸部CT影像的诊断和报告生成。通过学习更具代表性的影像表征,SimCroP可以提高疾病检测、病灶分割和报告自动生成等任务的性能,从而提高诊断效率和准确性,减轻医生的工作负担。未来,该方法可以推广到其他医学影像模态和疾病类型。
📄 摘要(原文)
Medical vision-language pre-training shows great potential in learning representative features from massive paired radiographs and reports. However, in computed tomography (CT) scans, the distribution of lesions which contain intricate structures is characterized by spatial sparsity. Besides, the complex and implicit relationships between different pathological descriptions in each sentence of the report and their corresponding sub-regions in radiographs pose additional challenges. In this paper, we propose a Similarity-Driven Cross-Granularity Pre-training (SimCroP) framework on chest CTs, which combines similarity-driven alignment and cross-granularity fusion to improve radiograph interpretation. We first leverage multi-modal masked modeling to optimize the encoder for understanding precise low-level semantics from radiographs. Then, similarity-driven alignment is designed to pre-train the encoder to adaptively select and align the correct patches corresponding to each sentence in reports. The cross-granularity fusion module integrates multimodal information across instance level and word-patch level, which helps the model better capture key pathology structures in sparse radiographs, resulting in improved performance for multi-scale downstream tasks. SimCroP is pre-trained on a large-scale paired CT-reports dataset and validated on image classification and segmentation tasks across five public datasets. Experimental results demonstrate that SimCroP outperforms both cutting-edge medical self-supervised learning methods and medical vision-language pre-training methods. Codes and models are available at https://github.com/ToniChopp/SimCroP.