Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography

📄 arXiv: 2405.12255v2 📥 PDF

作者: Shantanu Ghosh, Clare B. Poynton, Shyam Visweswaran, Kayhan Batmanghelich

分类: eess.IV, cs.CV

发布日期: 2024-05-20 (更新: 2024-05-22)

备注: MICCAI 2024, early accept, top 11%

🔗 代码/项目: GITHUB


💡 一句话要点

提出Mammo-CLIP,提升乳腺钼靶影像诊断的数据效率和鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乳腺钼靶影像 视觉语言模型 预训练 计算机辅助诊断 特征归因

📋 核心要点

  1. 乳腺癌CAD系统受限于训练数据规模和多样性,影响了其在实际应用中的可靠性。
  2. Mammo-CLIP通过在大量乳腺钼靶影像-报告对上预训练VLM,学习影像和文本之间的关联,提升数据效率和鲁棒性。
  3. 实验结果表明,Mammo-CLIP在乳腺钼靶属性分类和定位方面表现优异,并提出了新的特征归因方法Mammo-FActOR。

📝 摘要(中文)

乳腺癌检测中计算机辅助诊断(CAD)缺乏大规模和多样化的训练数据一直是阻碍系统应用的关键问题。近年来,通过视觉-语言模型(VLM)(例如CLIP)进行大规模图像文本数据集的预训练,在一定程度上解决了计算机视觉(CV)中的鲁棒性和数据效率问题。本文提出了Mammo-CLIP,这是第一个在大量乳腺钼靶筛查影像-报告对上进行预训练的VLM,旨在解决数据集多样性和规模的挑战。在两个公共数据集上的实验表明,Mammo-CLIP在分类和定位乳腺癌检测的关键钼靶属性方面表现出色,展示了与CV中CLIP类似的数据效率和鲁棒性。我们还提出了一种新的特征归因方法Mammo-FActOR,以提供乳腺钼靶报告中句子级别粒度的空间解释。

🔬 方法详解

问题定义:现有乳腺癌计算机辅助诊断系统依赖于大量标注数据,而高质量的乳腺钼靶影像和报告数据获取成本高昂且数据分布存在偏差。这导致模型泛化能力不足,难以适应不同患者和不同医疗机构的数据。现有方法缺乏利用文本报告信息来提升模型性能的有效途径。

核心思路:Mammo-CLIP的核心思路是利用视觉-语言模型(VLM)的强大表征学习能力,通过在大量的乳腺钼靶影像和对应的文本报告上进行预训练,使模型能够学习到影像和文本之间的关联关系。这种关联关系可以帮助模型更好地理解影像内容,从而提高诊断的准确性和鲁棒性。

技术框架:Mammo-CLIP采用标准的CLIP架构,包含图像编码器和文本编码器。图像编码器负责将乳腺钼靶影像转换为视觉特征向量,文本编码器负责将文本报告转换为文本特征向量。在预训练阶段,模型通过对比学习的方式,最大化匹配影像和对应文本报告的特征向量的相似度,最小化不匹配的影像和文本报告的特征向量的相似度。预训练完成后,可以将Mammo-CLIP应用于各种乳腺癌诊断任务,例如病灶检测、良恶性分类等。

关键创新:Mammo-CLIP的关键创新在于它是第一个专门针对乳腺钼靶影像和文本报告进行预训练的视觉-语言模型。此外,论文还提出了Mammo-FActOR,一种新的特征归因方法,用于提供乳腺钼靶报告中句子级别粒度的空间解释,这有助于医生理解模型的诊断依据。

关键设计:Mammo-CLIP的图像编码器可以使用各种卷积神经网络,例如ResNet或EfficientNet。文本编码器可以使用Transformer模型。对比学习的损失函数可以使用InfoNCE损失。Mammo-FActOR通过计算每个句子对图像特征的影响来生成空间解释。具体的参数设置和网络结构选择需要根据实际数据集进行调整。

📊 实验亮点

Mammo-CLIP在两个公共数据集上进行了实验,结果表明其在乳腺钼靶属性分类和定位方面表现出色,展示了与CV中CLIP类似的数据效率和鲁棒性。此外,提出的Mammo-FActOR方法能够提供句子级别粒度的空间解释,有助于医生理解模型的诊断依据。具体性能数据和对比基线信息未在摘要中详细说明,需参考论文全文。

🎯 应用场景

Mammo-CLIP可应用于乳腺癌早期筛查、辅助诊断和风险评估。通过结合影像和文本信息,提升诊断准确性和效率,减少漏诊和误诊。该模型还可用于个性化治疗方案的制定,根据患者的影像和报告信息,预测治疗效果和风险。未来,Mammo-CLIP有望整合到智能医疗系统中,辅助医生进行决策,提高医疗服务质量。

📄 摘要(原文)

The lack of large and diverse training data on Computer-Aided Diagnosis (CAD) in breast cancer detection has been one of the concerns that impedes the adoption of the system. Recently, pre-training with large-scale image text datasets via Vision-Language models (VLM) (\eg CLIP) partially addresses the issue of robustness and data efficiency in computer vision (CV). This paper proposes Mammo-CLIP, the first VLM pre-trained on a substantial amount of screening mammogram-report pairs, addressing the challenges of dataset diversity and size. Our experiments on two public datasets demonstrate strong performance in classifying and localizing various mammographic attributes crucial for breast cancer detection, showcasing data efficiency and robustness similar to CLIP in CV. We also propose Mammo-FActOR, a novel feature attribution method, to provide spatial interpretation of representation with sentence-level granularity within mammography reports. Code is available publicly: \url{https://github.com/batmanlab/Mammo-CLIP}.