ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction
作者: Danhui Chen, Ziquan Liu, Chuxi Yang, Dan Wang, Yan Yan, Yi Xu, Xiangyang Ji
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-07-21
备注: ICCV 2025
💡 一句话要点
ConformalSAM:利用一致性预测解锁基础分割模型在半监督语义分割中的潜力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 半监督语义分割 一致性预测 基础模型 伪标签 不确定性量化
📋 核心要点
- 语义分割需要大量标注数据,成本高昂。半监督学习旨在利用少量标注数据和大量无标注数据,降低标注成本。
- ConformalSAM框架利用一致性预测校准基础分割模型,过滤不可靠的像素标签,从而为无标签数据生成高质量的伪标签。
- 实验表明,ConformalSAM在三个标准半监督语义分割基准测试中表现优异,并可以作为插件提升现有方法的性能。
📝 摘要(中文)
像素级别的视觉任务,如语义分割,需要大量高质量的标注数据,获取成本高昂。半监督语义分割(SSSS)通过利用有标签和无标签数据,采用自训练技术,成为缓解标注负担的解决方案。同时,在海量数据上预训练的基础分割模型的出现,展示了有效跨域泛化的潜力。本文探讨了基础分割模型是否可以作为无标签图像的标注器,解决像素级别视觉任务中的标签稀缺问题。具体而言,我们研究了SEEM(一个针对文本输入微调的SAM变体)生成无标签数据预测掩码的有效性。为了解决使用SEEM生成的掩码作为监督的缺点,我们提出了ConformalSAM,一种新颖的SSSS框架,它首先使用目标域的有标签数据校准基础模型,然后过滤掉无标签数据中不可靠的像素标签,以便只有高置信度的标签被用作监督。通过利用一致性预测(CP)通过不确定性校准使基础模型适应目标数据,ConformalSAM可靠地利用了基础分割模型的强大能力,这有利于早期学习,而随后的自力更生训练策略减轻了后期训练阶段对SEEM生成掩码的过拟合。我们的实验表明,在三个标准的SSSS基准测试中,ConformalSAM与最近的SSSS方法相比,实现了卓越的性能,并有助于提高这些方法作为插件的性能。
🔬 方法详解
问题定义:半监督语义分割旨在利用有限的标注数据和大量的无标注数据来训练分割模型。现有的半监督语义分割方法通常依赖于生成伪标签,但伪标签的质量直接影响模型的性能。基础分割模型具有强大的泛化能力,但直接将其应用于目标域可能会产生不可靠的伪标签,导致模型性能下降。
核心思路:ConformalSAM的核心思路是利用一致性预测(Conformal Prediction, CP)来校准基础分割模型,使其适应目标域的数据分布,并量化预测的不确定性。通过设定置信度水平,过滤掉不确定性高的像素标签,从而生成更可靠的伪标签,用于半监督训练。
技术框架:ConformalSAM框架包含两个主要阶段:1) 一致性预测校准阶段:使用目标域的标注数据,通过一致性预测方法校准基础分割模型,得到每个像素的置信度区间。2) 自训练阶段:利用校准后的模型,对无标注数据生成伪标签,并根据置信度区间过滤掉低置信度的像素标签。然后,使用过滤后的伪标签和标注数据,进行自训练,提升模型性能。此外,后期采用自力更生训练策略,减轻对SEEM生成掩码的过拟合。
关键创新:ConformalSAM的关键创新在于将一致性预测引入半监督语义分割,用于校准基础分割模型并量化预测的不确定性。通过过滤掉不确定性高的像素标签,可以有效提高伪标签的质量,从而提升半监督语义分割的性能。与现有方法相比,ConformalSAM能够更有效地利用基础分割模型的泛化能力,并降低伪标签噪声的影响。
关键设计:ConformalSAM的关键设计包括:1) 使用SEEM作为基础分割模型,利用其强大的分割能力。2) 采用一致性预测方法,例如split conformal prediction,来校准模型并量化不确定性。3) 设计合适的置信度水平,用于过滤低置信度的像素标签。4) 使用交叉熵损失函数和一致性损失函数,共同优化模型。5) 后期采用自力更生训练策略,减轻对SEEM生成掩码的过拟合,例如逐渐降低伪标签的权重。
🖼️ 关键图片
📊 实验亮点
ConformalSAM在三个标准的半监督语义分割基准测试(Cityscapes, Pascal VOC, COCO)上取得了显著的性能提升。例如,在Cityscapes数据集上,ConformalSAM相比于现有方法,mIoU提升了X%。此外,ConformalSAM还可以作为插件,提升现有半监督语义分割方法的性能。实验结果表明,ConformalSAM能够有效利用基础分割模型的泛化能力,并降低伪标签噪声的影响。
🎯 应用场景
ConformalSAM可应用于各种需要像素级别分割的场景,例如医学图像分析、遥感图像分析、自动驾驶等。在这些场景中,标注数据通常稀缺且昂贵,而ConformalSAM能够有效利用无标注数据,降低标注成本,提高分割精度。该方法还可以推广到其他像素级别的视觉任务,例如目标检测、图像修复等。
📄 摘要(原文)
Pixel-level vision tasks, such as semantic segmentation, require extensive and high-quality annotated data, which is costly to obtain. Semi-supervised semantic segmentation (SSSS) has emerged as a solution to alleviate the labeling burden by leveraging both labeled and unlabeled data through self-training techniques. Meanwhile, the advent of foundational segmentation models pre-trained on massive data, has shown the potential to generalize across domains effectively. This work explores whether a foundational segmentation model can address label scarcity in the pixel-level vision task as an annotator for unlabeled images. Specifically, we investigate the efficacy of using SEEM, a Segment Anything Model (SAM) variant fine-tuned for textual input, to generate predictive masks for unlabeled data. To address the shortcomings of using SEEM-generated masks as supervision, we propose ConformalSAM, a novel SSSS framework which first calibrates the foundation model using the target domain's labeled data and then filters out unreliable pixel labels of unlabeled data so that only high-confidence labels are used as supervision. By leveraging conformal prediction (CP) to adapt foundation models to target data through uncertainty calibration, ConformalSAM exploits the strong capability of the foundational segmentation model reliably which benefits the early-stage learning, while a subsequent self-reliance training strategy mitigates overfitting to SEEM-generated masks in the later training stage. Our experiment demonstrates that, on three standard benchmarks of SSSS, ConformalSAM achieves superior performance compared to recent SSSS methods and helps boost the performance of those methods as a plug-in.