A computationally frugal open-source foundation model for thoracic disease detection in lung cancer screening programs

📄 arXiv: 2507.01881v2 📥 PDF

作者: Niccolò McConnell, Pardeep Vasudev, Daisuke Yamada, Daryl Cheng, Mehran Azimbagirad, John McCabe, Shahab Aslani, Ahmed H. Shahin, Yukun Zhou, The SUMMIT Consortium, Andre Altmann, Yipeng Hu, Paul Taylor, Sam M. Janes, Daniel C. Alexander, Joseph Jacob

分类: eess.IV, cs.CV, cs.LG

发布日期: 2025-07-02 (更新: 2025-07-15)


💡 一句话要点

TANGERINE:用于肺癌筛查中胸部疾病检测的计算友好型开源基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺癌筛查 低剂量CT 自监督学习 视觉基础模型 医学影像分析

📋 核心要点

  1. 肺癌筛查依赖LDCT成像,但放射科医生短缺限制了其大规模应用,同时错失了早期检测其他肺部疾病的机会。
  2. TANGERINE是一个开源、计算友好的视觉基础模型,通过自监督学习在大量LDCT数据上预训练,实现快速微调和高效标签利用。
  3. TANGERINE在14个疾病分类任务中达到SOTA性能,并在不同临床中心表现出良好的泛化能力,为LDCT分析提供可扩展的解决方案。

📝 摘要(中文)

肺癌筛查(LCS)项目中使用的低剂量计算机断层扫描(LDCT)成像在全球范围内日益普及。LCS项目预示着一个同时检测癌症和非癌症相关早期肺部疾病的世代机遇。然而,这些努力受到放射科医生短缺的阻碍,难以大规模解读扫描结果。本文提出了TANGERINE,一个计算友好、开源的用于容积LDCT分析的视觉基础模型。TANGERINE专为广泛的可访问性和快速适应性而设计,可以使用有限的计算资源和训练数据进行开箱即用的微调,以适应各种特定疾病的任务。相对于从头开始训练的模型,TANGERINE在微调过程中表现出快速收敛,从而显著减少了GPU使用时间,并显示出强大的标签效率,以一小部分微调数据实现了可比或更优越的性能。TANGERINE使用超过98,000个胸部LDCT进行自监督学习预训练,包括迄今为止英国最大的LCS计划和27个公共数据集,在包括肺癌和多种呼吸系统疾病在内的14个疾病分类任务中实现了最先进的性能,同时在不同的临床中心具有强大的泛化能力。通过将掩码自动编码器框架扩展到3D成像,TANGERINE为LDCT分析提供了一个可扩展的解决方案,它结合了架构简单性、公共可用性和适度的计算要求,从而有别于最近封闭的、资源密集型模型。其可访问的、开源的轻量级设计为快速集成到下一代医学成像工具奠定了基础,这些工具可以改变LCS计划,使其能够从单一关注肺癌检测转变为对高危人群进行全面的呼吸系统疾病管理。

🔬 方法详解

问题定义:肺癌筛查项目依赖于低剂量CT扫描(LDCT),但放射科医生数量不足限制了扫描结果的解读速度和规模。此外,现有方法主要关注肺癌检测,忽略了LDCT图像中包含的其他呼吸系统疾病的信息。因此,需要一种能够高效、准确地分析LDCT图像,同时检测多种疾病的解决方案。

核心思路:该论文的核心思路是利用自监督学习预训练一个通用的3D视觉基础模型(TANGERINE),使其能够学习LDCT图像的通用特征表示。然后,通过少量标注数据对该模型进行微调,使其适应特定的疾病检测任务。这种方法可以显著减少对大量标注数据的依赖,并提高模型的泛化能力。

技术框架:TANGERINE基于掩码自动编码器(MAE)框架,并将其扩展到3D成像。整体流程包括:1) 使用大量未标注的LDCT图像进行自监督预训练,学习图像的通用特征表示;2) 使用少量标注数据对预训练模型进行微调,使其适应特定的疾病检测任务;3) 使用微调后的模型进行疾病分类。

关键创新:该论文的关键创新在于:1) 提出了一个计算友好、开源的3D视觉基础模型,降低了模型的使用门槛;2) 将MAE框架扩展到3D成像,使其能够处理LDCT图像;3) 通过自监督学习和微调,实现了高效的标签利用和良好的泛化能力。

关键设计:TANGERINE使用了Transformer架构作为其核心模块,并采用了掩码图像建模(Masked Image Modeling)作为自监督学习的目标。具体来说,模型随机掩盖LDCT图像的部分区域,然后尝试重建被掩盖的区域。通过这种方式,模型可以学习到图像的上下文信息和通用特征表示。此外,该模型还采用了相对位置编码(Relative Position Encoding)来增强对空间信息的建模能力。

📊 实验亮点

TANGERINE在14个疾病分类任务中取得了最先进的性能,包括肺癌和多种呼吸系统疾病。相对于从头开始训练的模型,TANGERINE在微调过程中表现出快速收敛,显著减少了GPU使用时间,并以一小部分微调数据实现了可比或更优越的性能。例如,在某些任务上,TANGERINE仅使用少量数据就能达到甚至超过其他模型使用全部数据训练的效果。

🎯 应用场景

TANGERINE具有广泛的应用前景,可用于肺癌筛查、呼吸系统疾病诊断、医学影像分析等领域。它可以帮助放射科医生提高诊断效率和准确性,减少漏诊和误诊,并为患者提供更及时、更有效的治疗。此外,TANGERINE的开源特性使其能够被广泛应用于研究和开发,促进医学影像分析技术的进步。

📄 摘要(原文)

Low-dose computed tomography (LDCT) imaging employed in lung cancer screening (LCS) programs is increasing in uptake worldwide. LCS programs herald a generational opportunity to simultaneously detect cancer and non-cancer-related early-stage lung disease. Yet these efforts are hampered by a shortage of radiologists to interpret scans at scale. Here, we present TANGERINE, a computationally frugal, open-source vision foundation model for volumetric LDCT analysis. Designed for broad accessibility and rapid adaptation, TANGERINE can be fine-tuned off the shelf for a wide range of disease-specific tasks with limited computational resources and training data. Relative to models trained from scratch, TANGERINE demonstrates fast convergence during fine-tuning, thereby requiring significantly fewer GPU hours, and displays strong label efficiency, achieving comparable or superior performance with a fraction of fine-tuning data. Pretrained using self-supervised learning on over 98,000 thoracic LDCTs, including the UK's largest LCS initiative to date and 27 public datasets, TANGERINE achieves state-of-the-art performance across 14 disease classification tasks, including lung cancer and multiple respiratory diseases, while generalising robustly across diverse clinical centres. By extending a masked autoencoder framework to 3D imaging, TANGERINE offers a scalable solution for LDCT analysis, departing from recent closed, resource-intensive models by combining architectural simplicity, public availability, and modest computational requirements. Its accessible, open-source lightweight design lays the foundation for rapid integration into next-generation medical imaging tools that could transform LCS initiatives, allowing them to pivot from a singular focus on lung cancer detection to comprehensive respiratory disease management in high-risk populations.