Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

📄 arXiv: 2603.10541v1 📥 PDF

作者: Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec

分类: cs.CV, cs.AI

发布日期: 2026-03-11

🔗 代码/项目: GITHUB


💡 一句话要点

评估骨骼CT分割中Promptable基础模型对人工提示的敏感性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 Promptable基础模型 骨骼CT 人工提示 模型评估 分割性能 敏感性分析

📋 核心要点

  1. 医学图像分割领域涌现大量Promptable基础模型,但缺乏统一的评估标准,难以直接比较模型性能。
  2. 论文通过在骨骼CT图像上测试11个模型,并引入人工提示,评估模型对不同提示的敏感性。
  3. 实验发现模型性能受提示策略和解剖结构影响,人工提示导致性能下降,模型对提示变化敏感。

📝 摘要(中文)

Promptable基础模型(FMs)最初用于自然图像分割,现已革新医学图像分割。由于模型数量不断增加,评估所用的数据集、指标和对比模型各不相同,导致模型间的直接性能比较困难,并复杂化了针对特定临床任务选择最合适模型的过程。本研究在私有和公共数据集上,使用非迭代2D和3D提示策略测试了11个promptable FMs,重点关注四个解剖区域(腕部、肩部、髋部和下肢)的骨骼和植入物分割。确定了Pareto最优模型,并通过专门的观察者研究收集的人工提示对其进行了进一步分析。研究结果表明:1) FMs和提示策略之间的分割性能差异很大;2) 2D中的Pareto最优模型是SAM和SAM2.1,3D中是nnInteractive和Med-SAM2;3) 定位精度和评估者一致性随解剖结构而变化,简单结构(腕骨)的一致性较高,复杂结构(骨盆、胫骨、植入物)的一致性较低;4) 使用人工提示时分割性能下降,表明基于从参考标签中提取的“理想”提示报告的性能可能高估了人工驱动环境中的性能;5) 所有模型都对提示变化敏感。虽然有两个模型表现出评估者内部的鲁棒性,但并未扩展到评估者之间的设置。我们得出结论,为人工驱动环境选择最优FM仍然具有挑战性,即使是高性能的FM也对人工输入提示的变化敏感。我们的提示提取和模型推理代码库可在https://github.com/CarolineMagg/segmentation-FM-benchmark/ 获取。

🔬 方法详解

问题定义:论文旨在解决医学图像分割领域中,Promptable基础模型选择困难的问题。现有方法缺乏统一的评估标准,难以直接比较不同模型的性能,尤其是在人工驱动的临床场景下,模型对人工提示的敏感性未知。

核心思路:论文的核心思路是通过构建一个统一的评估框架,在骨骼CT图像分割任务上,系统性地评估多个Promptable基础模型,并重点关注模型对人工提示的敏感性。通过引入人工提示,模拟真实临床场景,更准确地评估模型的实用性。

技术框架:论文的整体框架包括以下几个主要阶段:1) 数据集准备:使用私有和公共数据集,包含腕部、肩部、髋部和下肢四个解剖区域的骨骼和植入物CT图像。2) 模型选择:选择11个Promptable基础模型进行评估。3) 提示策略:采用非迭代2D和3D提示策略,包括基于参考标签的理想提示和人工提示。4) 性能评估:使用Dice系数等指标评估模型的分割性能,并分析模型对不同提示的敏感性。5) 观察者研究:通过观察者研究收集人工提示,并评估评估者之间的一致性。

关键创新:论文的关键创新在于:1) 系统性地评估了多个Promptable基础模型在骨骼CT图像分割任务上的性能。2) 引入人工提示,模拟真实临床场景,更准确地评估模型的实用性。3) 揭示了模型对人工提示的敏感性,以及人工提示与理想提示之间的性能差异。

关键设计:论文的关键设计包括:1) 选择具有代表性的Promptable基础模型,如SAM、SAM2.1、nnInteractive和Med-SAM2等。2) 设计非迭代的2D和3D提示策略,简化提示过程。3) 使用Dice系数等常用指标评估分割性能。4) 通过观察者研究收集人工提示,并评估评估者之间的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同Promptable基础模型和提示策略的分割性能差异显著。2D中的Pareto最优模型是SAM和SAM2.1,3D中是nnInteractive和Med-SAM2。使用人工提示时,分割性能下降,表明基于理想提示的性能可能高估了实际应用中的性能。所有模型都对提示变化敏感,即使是高性能模型也难以应对人工提示的差异。

🎯 应用场景

该研究成果可应用于医学图像分割领域,帮助临床医生选择最适合特定任务的Promptable基础模型。通过评估模型对人工提示的敏感性,可以更好地了解模型在实际临床应用中的表现,从而提高诊断和治疗的准确性和效率。未来的研究可以进一步探索更鲁棒的提示策略,以提高模型在人工驱动环境中的性能。

📄 摘要(原文)

Promptable Foundation Models (FMs), initially introduced for natural image segmentation, have also revolutionized medical image segmentation. The increasing number of models, along with evaluations varying in datasets, metrics, and compared models, makes direct performance comparison between models difficult and complicates the selection of the most suitable model for specific clinical tasks. In our study, 11 promptable FMs are tested using non-iterative 2D and 3D prompting strategies on a private and public dataset focusing on bone and implant segmentation in four anatomical regions (wrist, shoulder, hip and lower leg). The Pareto-optimal models are identified and further analyzed using human prompts collected through a dedicated observer study. Our findings are: 1) The segmentation performance varies a lot between FMs and prompting strategies; 2) The Pareto-optimal models in 2D are SAM and SAM2.1, in 3D nnInteractive and Med-SAM2; 3) Localization accuracy and rater consistency vary with anatomical structures, with higher consistency for simple structures (wrist bones) and lower consistency for complex structures (pelvis, tibia, implants); 4) The segmentation performance drops using human prompts, suggesting that performance reported on "ideal" prompts extracted from reference labels might overestimate the performance in a human-driven setting; 5) All models were sensitive to prompt variations. While two models demonstrated intra-rater robustness, it did not scale to inter-rater settings. We conclude that the selection of the most optimal FM for a human-driven setting remains challenging, with even high-performing FMs being sensitive to variations in human input prompts. Our code base for prompt extraction and model inference is available: https://github.com/CarolineMagg/segmentation-FM-benchmark/