DEARLi: Decoupled Enhancement of Recognition and Localization for Semi-supervised Panoptic Segmentation

📄 arXiv: 2507.10118v1 📥 PDF

作者: Ivan Martinović, Josip Šarić, Marin Oršić, Matej Kristan, Siniša Šegvić

分类: cs.CV

发布日期: 2025-07-14

备注: ICCV 2025 Findings Workshop

🔗 代码/项目: GITHUB


💡 一句话要点

DEARLi:解耦识别与定位增强半监督全景分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 半监督学习 全景分割 基础模型 CLIP SAM 解耦学习 图像分割

📋 核心要点

  1. 现有半监督分割方法在标签稀缺场景下性能受限,且对基础模型的有效利用不足。
  2. DEARLi通过解耦识别和定位,分别利用CLIP和SAM等基础模型进行增强。
  3. 实验表明,DEARLi在ADE20K数据集上,仅使用少量标注数据即取得显著的性能提升,且内存占用更低。

📝 摘要(中文)

像素级标注成本高昂且耗时。半监督分割方法通过在少量标注图像和大量未标注图像上学习模型来应对这一挑战。虽然基础模型可以进一步解决标签稀缺问题,但对其有效利用的机制仍未得到充分探索。我们通过设计一种由两个专用基础模型驱动的新型半监督全景方法来解决这个问题。我们通过使用CLIP特征的零样本分类来补充无监督的mask-transformer一致性,从而增强识别能力。我们通过相对于SAM伪标签的类别无关解码器预热来增强定位能力。由此产生的识别和定位的解耦增强(DEARLi)在具有大型分类和有限标注数据的最具挑战性的半监督场景中表现尤为出色。此外,尽管仅针对全景目标进行训练,DEARLi在半监督语义分割方面也大幅优于现有技术,同时需要减少8倍的GPU内存。我们观察到在仅有158个标注图像的ADE20K上,PQ为29.9,mIoU为38.9。源代码可在https://github.com/helen1c/DEARLi 获得。

🔬 方法详解

问题定义:半监督全景分割旨在利用少量标注数据和大量未标注数据训练模型,以实现像素级别的场景理解。现有方法在标签极度稀缺和类别数量庞大的情况下,分割精度显著下降,且对新兴的基础模型(如CLIP和SAM)的利用效率不高。

核心思路:DEARLi的核心在于解耦识别和定位两个关键任务,并分别利用不同的基础模型进行增强。具体来说,利用CLIP的零样本分类能力增强识别,利用SAM的强大分割能力增强定位。这种解耦设计使得模型能够更有效地利用基础模型的先验知识,从而提升整体性能。

技术框架:DEARLi的整体框架包含两个主要分支:识别增强分支和定位增强分支。识别增强分支利用无监督的Mask-Transformer一致性学习,并结合CLIP特征的零样本分类结果,提高模型对不同类别的识别能力。定位增强分支则利用SAM生成的伪标签,对解码器进行预热,从而提升模型对物体边界的定位精度。这两个分支的结果最终融合,得到最终的全景分割结果。

关键创新:DEARLi的关键创新在于解耦识别和定位任务,并针对性地利用不同的基础模型进行增强。这种解耦策略使得模型能够更有效地利用基础模型的先验知识,从而在标签稀缺的情况下取得更好的性能。此外,DEARLi还提出了一种新的解码器预热方法,利用SAM生成的伪标签来提升定位精度。

关键设计:在识别增强分支中,使用了Mask-Transformer架构,并引入了CLIP特征的零样本分类损失。在定位增强分支中,使用了SAM生成的伪标签,并将其作为解码器预热的目标。具体的损失函数设计和网络结构细节在论文中有详细描述。具体的参数设置(如学习率、batch size等)需要参考论文的实验部分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DEARLi在ADE20K数据集上取得了显著的性能提升。在仅使用158个标注图像的情况下,PQ达到了29.9,mIoU达到了38.9,大幅超越了现有的半监督语义分割方法。更重要的是,DEARLi在取得更好性能的同时,还降低了GPU内存需求,仅为现有方法的1/8。

🎯 应用场景

DEARLi在资源受限场景下具有广泛的应用前景,例如自动驾驶、机器人导航、医学图像分析等。在这些领域,获取大量的像素级标注数据非常困难,而DEARLi能够利用少量标注数据和大量未标注数据训练出高性能的分割模型,从而降低标注成本,加速模型部署。此外,该方法还可以应用于遥感图像分析、智能城市等领域。

📄 摘要(原文)

Pixel-level annotation is expensive and time-consuming. Semi-supervised segmentation methods address this challenge by learning models on few labeled images alongside a large corpus of unlabeled images. Although foundation models could further account for label scarcity, effective mechanisms for their exploitation remain underexplored. We address this by devising a novel semi-supervised panoptic approach fueled by two dedicated foundation models. We enhance recognition by complementing unsupervised mask-transformer consistency with zero-shot classification of CLIP features. We enhance localization by class-agnostic decoder warm-up with respect to SAM pseudo-labels. The resulting decoupled enhancement of recognition and localization (DEARLi) particularly excels in the most challenging semi-supervised scenarios with large taxonomies and limited labeled data. Moreover, DEARLi outperforms the state of the art in semi-supervised semantic segmentation by a large margin while requiring 8x less GPU memory, in spite of being trained only for the panoptic objective. We observe 29.9 PQ and 38.9 mIoU on ADE20K with only 158 labeled images. The source code is available at https://github.com/helen1c/DEARLi.