Benchmarking Foundation Models for Renal Lesion Stratification in CT

📄 arXiv: 2605.07749v1 📥 PDF

作者: Hartmut Häntze, Sarah de Boer, Myrthe Buser, Alessa Hering, Bram van Ginneken, Mathias Prokop, Jawed Nawabi, Sebastian Ziegelmayer, Lisa Adams, Keno Bressem

分类: cs.CV

发布日期: 2026-05-08

备注: 13 pages, 4 figures


💡 一句话要点

基准测试医学基础模型在CT肾脏病变分层中的表现:放射组学仍是当前最优解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学基础模型 肾脏病变分类 放射组学 特征探测 计算机断层扫描 迁移学习

📋 核心要点

  1. 核心问题:医学影像领域数据稀缺,通用基础模型在处理需要细粒度纹理识别的肾脏病变亚型分类时,其特征迁移能力尚不明确。
  2. 方法要点:采用冻结特征探测(Frozen Feature-Probing)协议,对比三种医学基础模型与传统放射组学及从头训练的3D ResNet-50的性能。
  3. 实验效果:基础模型在计算效率上具有显著优势,但传统放射组学在分类准确性上以AUC 0.88的成绩大幅领先于深度学习方法。

📝 摘要(中文)

开源医学基础模型(FMs)的快速发展引发了一个实际问题:其预训练表示在数据稀缺的临床分类任务中迁移效果如何?针对CT肾脏病变分类这一受限于训练数据规模的领域,本研究对三种医学基础模型进行了基准测试。该任务涉及囊肿、透明细胞肾细胞癌及罕见亚型等六分类问题。研究采用冻结特征探测协议,将FM嵌入与手工放射组学分类器及从头训练的3D ResNet-50进行了对比。模型在2,854个病变的复合数据集上训练,并在TCIA的234个病变外部测试集上评估。结果显示,FM性能(AUC 0.70-0.77)与从头训练的ResNet(AUC 0.72)相当,且显著降低了硬件需求。然而,传统放射组学基线表现显著优于所有深度学习方法(AUC 0.88,p ≤ 0.002)。这表明当前的通用医学FM嵌入尚未捕捉到区分组织学亚型所需的细粒度纹理和形状异质性,放射组学仍是该任务的当前最优技术(SOTA)。

🔬 方法详解

问题定义:论文旨在解决医学影像中数据稀缺场景下的病变分类难题,特别是针对CT肾脏病变这一需要高精度组织学亚型区分的临床任务,评估通用医学基础模型(FMs)是否能有效替代传统手工特征提取方法。

核心思路:研究采用“冻结特征探测”范式,即利用预训练模型作为固定特征提取器,通过线性分类器进行下游任务训练。这种设计旨在验证基础模型提取的通用特征是否具备足够的判别力,以应对临床细粒度分类需求。

技术框架:实验流程包含三个阶段:首先是特征提取,利用三种医学基础模型处理CT影像;其次是分类器训练,在提取的特征空间上训练线性分类器;最后是对比评估,将结果与手工放射组学特征(Radiomics)及从头训练的3D ResNet-50进行横向比较。

关键创新:本研究首次在肾脏病变六分类任务中,系统性地量化了通用医学基础模型与传统放射组学之间的性能鸿沟,揭示了当前大模型在捕捉细微病理纹理特征方面的局限性。

关键设计:实验使用了2,854个病变的复合数据集进行训练,并在TCIA外部数据集上验证。模型评估指标采用AUC,并重点对比了计算资源消耗与分类性能之间的权衡,强调了放射组学在当前临床任务中的不可替代性。

📊 实验亮点

实验结果显示,基础模型在计算效率上表现优异,仅需CPU即可在秒级完成推理,性能(AUC 0.70-0.77)与从头训练的3D ResNet-50(AUC 0.72)相当。然而,传统放射组学方法以AUC 0.88的显著优势超越所有深度学习模型(p ≤ 0.002),证明了其在捕捉病变细微异质性方面的核心价值。

🎯 应用场景

该研究为医学影像AI的临床落地提供了重要参考,明确了基础模型在肾脏病变诊断中的适用边界。其结论提示临床医生和开发者在处理细粒度病理分类时,应优先考虑结合放射组学特征,而非盲目依赖通用大模型,这对优化医疗AI的研发路径具有指导意义。

📄 摘要(原文)

The rapid proliferation of open-source medical foundation models (FMs) raises a practical question: how well do their pre-trained representations transfer to clinically relevant but data-scarce classification tasks? Particularly in CT-based renal lesion classification, a push toward greater generalizability would be meaningful, as the field is constrained by inherently limited training data. We addressed this through a benchmark of three medical FMs on this specific task. This six-class problem spans common entities like cysts and clear cell renal cell carcinoma, alongside rare subtypes. Using a frozen feature-probing protocol, we compared FM embeddings against a handcrafted radiomics classifier and a 3D ResNet-50 trained from scratch. Models were trained on a composite dataset of 2,854 lesions and evaluated on an external test set of 234 lesions from The Cancer Imaging Archive. Our results reveal two key findings. First, FM performance (AUC 0.70-0.77) matched the from-scratch ResNet (AUC 0.72) while drastically reducing hardware demand, requiring only seconds on a CPU after feature extraction. However, the conventional radiomics baseline significantly outperformed all deep learning approaches, achieving an AUC of 0.88 (all p $\leq$ 0.002). This suggests that current generalist FM embeddings do not yet capture the fine-grained texture and shape heterogeneity driving histological subtype discrimination. Despite their potential in data-scarce settings, medical FMs did not surpass established models for renal lesion stratification, leaving radiomics as the current state-of-the-art.