Pillar-0: A New Frontier for Radiology Foundation Models
作者: Kumar Krishna Agrawal, Longchao Liu, Long Lian, Michael Nercessian, Natalia Harguindeguy, Yufu Wu, Peter Mikhael, Gigin Lin, Lecia V. Sequist, Florian Fintelmann, Trevor Darrell, Yutong Bai, Maggie Chung, Adam Yala
分类: cs.CV, cs.AI
发布日期: 2025-11-21
💡 一句话要点
Pillar-0:构建大规模放射学影像基础模型,提升临床诊断性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射学 基础模型 医学影像 深度学习 3D卷积神经网络
📋 核心要点
- 现有医学影像模型通常将3D影像降维至2D切片处理,忽略了重要的灰度信息,且缺乏贴合临床实践的评估体系。
- Pillar-0通过大规模3D医学影像预训练,并结合RATE框架自动提取结构化标签,构建了一个强大的放射学基础模型。
- 实验表明,Pillar-0在多种影像诊断任务上显著超越现有模型,并在肺癌风险预测等下游任务中展现出优异的泛化能力。
📝 摘要(中文)
放射学在现代医学中至关重要,但影像数量的增长速度远超从业人员的增长。基础模型为辅助放射学任务提供了可能,但现有医学模型存在局限性:它们将CT和MRI体数据处理为低保真2D切片,忽略了关键的灰度对比信息,并且缺乏反映实际临床实践的评估框架。我们推出了Pillar-0,一个在来自大型学术中心的42990个腹盆CT、86411个胸部CT、14348个头部CT和11543个乳腺MRI上预训练的放射学基础模型,以及RATE,一个可扩展的框架,使用LLM以接近完美的准确率提取366个放射学发现的结构化标签。在内部测试集上,Pillar-0取得了显著的性能提升,在腹盆CT、胸部CT、头部CT和乳腺MRI上的平均AUROC分别为86.4、88.0、90.1和82.9,超过了MedGemma、MedImageInsight、Lingshu和Merlin 7.8-15.8个AUROC点,并在87.2%的任务中排名第一。Pillar-0在斯坦福腹部CT数据集的外部验证中也优于所有基线。Pillar-0可以扩展到预训练之外的任务,例如长期肺癌风险预测,在NLST上比最先进的Sybil提高了3.0个C-index点,并在MGH和CGMH上分别获得了5.9和1.9的增益。在脑出血检测中,Pillar-0仅使用下一代最有效基线1/20的数据就获得了>95的AUROC。Pillar-0和RATE共同为构建高性能放射学系统提供了一个开放、临床严谨的基础,从而实现了以前由于计算、数据和评估限制而不可行的应用。
🔬 方法详解
问题定义:现有放射学影像分析模型面临的挑战包括:1)将3D CT/MRI数据降维到2D切片,丢失了空间信息;2)忽略了灰度对比信息,降低了诊断精度;3)缺乏大规模、高质量的标注数据;4)缺乏与临床实践紧密结合的评估框架。这些问题限制了模型在实际临床应用中的效果。
核心思路:Pillar-0的核心思路是利用大规模3D放射学影像数据进行预训练,学习通用的影像特征表示。同时,利用大型语言模型(LLM)构建的RATE框架自动提取结构化标签,解决标注数据不足的问题。通过这种方式,模型能够更好地理解3D影像数据,并提高诊断精度和泛化能力。
技术框架:Pillar-0的整体框架包括以下几个主要模块:1)数据收集与预处理:收集来自大型学术中心的多种类型的CT和MRI影像数据,并进行预处理,包括去噪、标准化等。2)RATE框架:利用LLM自动提取影像报告中的结构化标签,构建大规模标注数据集。3)模型预训练:使用3D卷积神经网络(CNN)在预处理后的影像数据上进行预训练,学习通用的影像特征表示。4)模型微调:在特定任务的数据集上对预训练模型进行微调,以适应不同的诊断任务。5)模型评估:使用与临床实践紧密结合的评估指标,如AUROC、C-index等,评估模型的性能。
关键创新:Pillar-0的关键创新点在于:1)大规模3D预训练:利用大规模3D放射学影像数据进行预训练,能够更好地学习影像的空间信息和灰度对比信息。2)RATE框架:利用LLM自动提取结构化标签,解决了标注数据不足的问题,降低了标注成本。3)临床导向的评估:使用与临床实践紧密结合的评估指标,能够更准确地评估模型在实际应用中的效果。
关键设计:Pillar-0的关键设计包括:1)3D CNN架构:采用3D CNN作为基础模型,能够有效地处理3D影像数据。2)自监督学习策略:采用自监督学习策略进行预训练,例如对比学习、掩码影像建模等,能够充分利用未标注数据。3)损失函数设计:设计合适的损失函数,例如交叉熵损失、Focal Loss等,以提高模型的诊断精度。4)数据增强策略:采用多种数据增强策略,例如旋转、缩放、平移等,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
Pillar-0在多个放射学诊断任务上取得了显著的性能提升。在内部测试集上,Pillar-0在腹盆CT、胸部CT、头部CT和乳腺MRI上的平均AUROC分别达到了86.4、88.0、90.1和82.9,超过了现有模型7.8-15.8个AUROC点。在肺癌风险预测任务中,Pillar-0在NLST数据集上比最先进的Sybil提高了3.0个C-index点。在脑出血检测中,Pillar-0仅使用少量数据就获得了>95的AUROC。
🎯 应用场景
Pillar-0在放射学领域具有广泛的应用前景,可用于辅助医生进行疾病诊断、风险预测和治疗方案制定。例如,可应用于肺癌早期筛查、脑出血检测、腹部肿瘤诊断等。该研究有望提高诊断效率和准确性,减轻医生的工作负担,并为患者提供更优质的医疗服务。未来,Pillar-0有望成为构建智能化放射学系统的基石。
📄 摘要(原文)
Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. We introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using LLMs. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2\% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford Abdominal CT dataset, including Merlin (82.2 vs 80.6 AUROC). Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1/20th of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.