CoCa-CXR: Contrastive Captioners Learn Strong Temporal Structures for Chest X-Ray Vision-Language Understanding

📄 arXiv: 2502.20509v1 📥 PDF

作者: Yixiong Chen, Shawn Xu, Andrew Sellergren, Yossi Matias, Avinatan Hassidim, Shravya Shetty, Daniel Golden, Alan Yuille, Lin Yang

分类: cs.CV

发布日期: 2025-02-27


💡 一句话要点

CoCa-CXR:对比式图像描述模型学习胸部X光片视觉-语言理解中的时间结构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胸部X光 视觉-语言模型 对比学习 时间进展分析 医学图像分析

📋 核心要点

  1. 现有胸部X光视觉-语言模型忽略了报告中常见的时间进展描述与图像差异的对齐问题。
  2. CoCa-CXR通过CXR报告处理流程提取时间结构,并利用对比式图像描述模型学习图像及其时间进展。
  3. 实验表明,CoCa-CXR在进展分析和报告生成方面优于现有方法,并在MS-CXR-T上取得了显著的性能提升。

📝 摘要(中文)

视觉-语言模型已被证明对医学图像分析非常有益,因为它们可以从图像和报告中学习丰富的语义。以往的研究主要集中在更好地对齐图像和文本表示,以增强图像理解。然而,尽管在胸部X光(CXR)报告中明确提及先前的图像很常见,但将进展描述与图像对中的语义差异对齐的研究仍然不足。在这项工作中,我们提出了两个组成部分来解决这个问题。(1) 一个CXR报告处理流程,用于提取时间结构。它使用大型语言模型(LLM)处理报告,以分离描述和比较上下文,并从报告中提取细粒度的注释。(2) 一个用于CXR的对比式图像描述模型,即CoCa-CXR,以学习如何描述图像及其时间进展。CoCa-CXR结合了一个新的区域交叉注意力模块,以识别配对CXR图像之间的局部差异。大量的实验表明,与以前的方法相比,CoCa-CXR在进展分析和报告生成方面都具有优越性。值得注意的是,在MS-CXR-T进展分类上,CoCa-CXR在五种肺部疾病上的平均测试准确率为65.0%,优于之前的最先进模型BioViL-T 4.8%。它还在MIMIC-CXR上实现了24.2%的RadGraph F1,与Med-Gemini基础模型相当。

🔬 方法详解

问题定义:论文旨在解决胸部X光(CXR)报告中时间进展描述与图像对语义差异对齐不足的问题。现有方法未能充分利用报告中对先前图像的明确参考,导致无法有效理解疾病的演变过程。

核心思路:论文的核心思路是构建一个能够同时描述图像及其时间进展的对比式图像描述模型。通过提取报告中的时间结构,并利用区域交叉注意力机制识别图像对之间的局部差异,模型能够更好地理解疾病的演变过程。

技术框架:CoCa-CXR包含两个主要组成部分:CXR报告处理流程和对比式图像描述模型。CXR报告处理流程使用大型语言模型(LLM)从报告中提取时间结构和细粒度注释。对比式图像描述模型则利用这些信息学习如何描述图像及其时间进展。模型包含一个区域交叉注意力模块,用于识别配对CXR图像之间的局部差异。

关键创新:论文的关键创新在于提出了一个针对CXR图像的对比式图像描述模型,该模型能够学习图像及其时间进展。此外,论文还提出了一个CXR报告处理流程,用于提取报告中的时间结构,从而为模型提供更丰富的信息。区域交叉注意力模块也是一个重要的创新点,它能够帮助模型识别图像对之间的局部差异。

关键设计:CXR报告处理流程使用LLM(具体模型未知)来分离描述和比较上下文,并提取细粒度注释。对比式图像描述模型的具体网络结构未知,但包含一个区域交叉注意力模块,用于计算配对CXR图像之间的局部差异。损失函数的设计细节未知,但推测使用了对比学习相关的损失函数,以鼓励模型学习图像及其时间进展的表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoCa-CXR在MS-CXR-T进展分类上,在五种肺部疾病上的平均测试准确率为65.0%,优于之前的SOTA模型BioViL-T 4.8%。在MIMIC-CXR上实现了24.2%的RadGraph F1,与Med-Gemini基础模型相当。这些结果表明,CoCa-CXR在进展分析和报告生成方面具有显著的优势。

🎯 应用场景

该研究成果可应用于临床辅助诊断,帮助医生更好地理解胸部X光片,并准确判断疾病的进展情况。通过自动生成报告,可以减轻医生的工作负担,提高诊断效率。此外,该技术还可以用于医学教育和研究,为学生和研究人员提供更深入的图像理解和分析工具。

📄 摘要(原文)

Vision-language models have proven to be of great benefit for medical image analysis since they learn rich semantics from both images and reports. Prior efforts have focused on better alignment of image and text representations to enhance image understanding. However, though explicit reference to a prior image is common in Chest X-Ray (CXR) reports, aligning progression descriptions with the semantics differences in image pairs remains under-explored. In this work, we propose two components to address this issue. (1) A CXR report processing pipeline to extract temporal structure. It processes reports with a large language model (LLM) to separate the description and comparison contexts, and extracts fine-grained annotations from reports. (2) A contrastive captioner model for CXR, namely CoCa-CXR, to learn how to both describe images and their temporal progressions. CoCa-CXR incorporates a novel regional cross-attention module to identify local differences between paired CXR images. Extensive experiments show the superiority of CoCa-CXR on both progression analysis and report generation compared to previous methods. Notably, on MS-CXR-T progression classification, CoCa-CXR obtains 65.0% average testing accuracy on five pulmonary conditions, outperforming the previous state-of-the-art (SOTA) model BioViL-T by 4.8%. It also achieves a RadGraph F1 of 24.2% on MIMIC-CXR, which is comparable to the Med-Gemini foundation model.