Prompt learning with bounding box constraints for medical image segmentation
作者: Mélanie Gaillochet, Mehrdad Noori, Sahar Dastani, Christian Desrosiers, Hervé Lombaert
分类: cs.CV
发布日期: 2025-07-03
备注: Accepted to IEEE Transactions on Biomedical Engineering (TMBE), 14 pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于边界框约束的Prompt Learning方法,用于医学图像分割。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学图像分割 弱监督学习 Prompt Learning 视觉基础模型 边界框标注
📋 核心要点
- 医学图像像素级标注成本高昂,现有方法依赖全监督或复杂的弱监督标注。
- 提出一种基于边界框的Prompt Learning框架,自动生成Prompt并结合约束优化。
- 实验表明,该方法在有限数据下Dice系数达到84.90%,优于现有方法。
📝 摘要(中文)
医学领域中像素级标注获取困难且成本高昂。为了减轻这一负担,基于边界框标注的弱监督方法提供了一种实用的替代方案,因为边界框标注更容易获取。视觉基础模型最近在提供点或边界框等提示时表现出显著的分割性能。Prompt Learning通过调整这些模型以适应下游任务并自动化分割来利用这些模型,从而减少用户干预。然而,现有的Prompt Learning方法依赖于完全标注的分割掩码。本文提出了一种新颖的框架,该框架结合了基础模型的表征能力和弱监督分割的标注效率。更具体地说,我们的方法仅使用边界框标注来自动化基础模型的Prompt生成。我们提出的优化方案集成了从框标注导出的多个约束以及由Prompt驱动的基础模型生成的伪标签。跨多模态数据集的广泛实验表明,我们的弱监督方法在有限的数据设置中实现了84.90%的平均Dice系数,优于现有的全监督和弱监督方法。代码可在https://github.com/Minimel/box-prompt-learning-VFM.git 获取。
🔬 方法详解
问题定义:医学图像分割任务中,获取像素级别的精确标注非常耗时耗力。现有的Prompt Learning方法通常需要完整的分割掩码作为监督信号,限制了其在标注数据稀缺场景下的应用。而基于边界框的弱监督方法虽然降低了标注成本,但分割精度往往不如全监督方法。因此,如何利用易于获取的边界框标注,同时保持较高的分割精度,是一个亟待解决的问题。
核心思路:本文的核心思路是利用视觉基础模型强大的表征能力,结合Prompt Learning的思想,通过边界框标注自动生成有效的Prompt,并设计合适的约束条件,引导模型学习到精确的分割结果。通过将边界框信息融入到Prompt生成和模型训练过程中,从而实现弱监督条件下的高性能分割。
技术框架:整体框架包含以下几个主要步骤:1) 边界框Prompt生成:根据输入的边界框信息,自动生成适合视觉基础模型的Prompt,例如点、线等。2) 视觉基础模型分割:使用生成的Prompt,驱动视觉基础模型进行初步的分割预测,得到伪标签。3) 约束优化:设计基于边界框信息的约束条件,例如区域一致性约束、边界对齐约束等,结合伪标签,对模型进行优化训练。4) 迭代优化:重复步骤2和3,不断优化Prompt和模型参数,提高分割精度。
关键创新:该方法最重要的创新点在于,它将Prompt Learning与弱监督学习相结合,实现了仅使用边界框标注即可进行高性能医学图像分割。与传统的Prompt Learning方法相比,该方法无需完整的分割掩码,大大降低了标注成本。与传统的弱监督分割方法相比,该方法利用了视觉基础模型的强大表征能力,提高了分割精度。
关键设计:关键设计包括:1) Prompt生成策略:如何根据边界框信息生成有效的Prompt,例如选择边界框的中心点、角点等作为Prompt。2) 约束函数设计:如何设计合适的约束函数,例如区域一致性约束、边界对齐约束等,以保证分割结果与边界框信息的一致性。3) 损失函数设计:如何结合伪标签和约束函数,设计合适的损失函数,以优化模型参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个医学图像数据集上取得了显著的性能提升。在有限的数据设置下,该方法实现了84.90%的平均Dice系数,优于现有的全监督和弱监督方法。这表明该方法能够有效地利用边界框标注信息,并充分发挥视觉基础模型的表征能力。
🎯 应用场景
该研究成果可广泛应用于医学图像分析领域,例如肿瘤分割、器官分割、病灶检测等。通过降低标注成本,可以加速医学图像分析算法的开发和应用,提高诊断效率和准确性。未来,该方法还可以扩展到其他弱监督学习场景,例如使用图像标签进行图像分割。
📄 摘要(原文)
Pixel-wise annotations are notoriously labourious and costly to obtain in the medical domain. To mitigate this burden, weakly supervised approaches based on bounding box annotations-much easier to acquire-offer a practical alternative. Vision foundation models have recently shown noteworthy segmentation performance when provided with prompts such as points or bounding boxes. Prompt learning exploits these models by adapting them to downstream tasks and automating segmentation, thereby reducing user intervention. However, existing prompt learning approaches depend on fully annotated segmentation masks. This paper proposes a novel framework that combines the representational power of foundation models with the annotation efficiency of weakly supervised segmentation. More specifically, our approach automates prompt generation for foundation models using only bounding box annotations. Our proposed optimization scheme integrates multiple constraints derived from box annotations with pseudo-labels generated by the prompted foundation model. Extensive experiments across multimodal datasets reveal that our weakly supervised method achieves an average Dice score of 84.90% in a limited data setting, outperforming existing fully-supervised and weakly-supervised approaches. The code is available at https://github.com/Minimel/box-prompt-learning-VFM.git