Weakly Supervised Segmentation as Semantic-Based Regularization

📄 arXiv: 2605.13674v1 📥 PDF

作者: Stefano Colamonaco, Andrei-Bogdan Florea, Jaron Maene

分类: cs.CV, cs.AI

发布日期: 2026-05-13


💡 一句话要点

提出基于语义的正则化弱监督分割方法,提升伪标签质量和分割精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 弱监督语义分割 伪标签生成 神经符号计算 可微分模糊逻辑 Segment Anything Model

📋 核心要点

  1. 现有弱监督语义分割方法依赖启发式提示选择,且整合先验知识和异构标签的能力有限。
  2. 该论文的核心思想是将可微分模糊逻辑与深度分割模型相结合,利用逻辑约束微调SAM。
  3. 实验结果表明,该方法能有效提升伪标签质量,并在分割精度上达到甚至超越密集监督基线。

📝 摘要(中文)

本文提出了一种基于语义的正则化弱监督语义分割(WSSS)方法,该方法利用可微分模糊逻辑将弱标注和领域先验统一为连续逻辑约束,从而对Segment Anything Model (SAM)等基础模型进行微调。通过逻辑引导的微调,可以生成更高质量的伪标签,进而训练第二阶段的无提示分割模型。在Pascal VOC 2012和REFUGE2视盘/杯分割数据集上的实验表明,该方法能够显著提高伪标签的质量,并达到最先进的分割精度,甚至超过了密集监督的基线方法。

🔬 方法详解

问题定义:弱监督语义分割旨在利用诸如边界框、涂鸦或图像级标签等不完整或粗略的标注来训练像素级别的分割模型。现有方法,特别是那些利用SAM等基础模型生成伪标签的方法,通常依赖于启发式提示的选择,并且在整合先验知识或处理异构标签方面存在局限性。这些局限性导致生成的伪标签质量不高,进而影响最终的分割性能。

核心思路:该论文的核心思路是将弱标注和领域特定的先验知识形式化为连续的逻辑约束,并利用可微分模糊逻辑将这些约束集成到SAM的微调过程中。通过这种方式,SAM能够学习到符合先验知识和弱标注的分割结果,从而生成更高质量的伪标签。这种方法的核心在于将神经方法(深度学习)与符号方法(逻辑推理)相结合,实现神经符号计算。

技术框架:该方法主要包含两个阶段:第一阶段是逻辑引导的SAM微调。在这个阶段,弱标注和领域先验被转化为可微分的模糊逻辑约束,用于微调SAM。微调后的SAM能够生成更准确的伪标签。第二阶段是无提示分割模型训练。在这个阶段,利用第一阶段生成的伪标签训练一个不需要提示的分割模型。这个模型可以是一个标准的分割网络,例如DeepLabv3+。

关键创新:该论文的关键创新在于将可微分模糊逻辑引入到弱监督语义分割中,并将其用于指导基础模型(如SAM)的微调。这种方法能够有效地整合弱标注和领域先验,从而生成更高质量的伪标签。与现有方法相比,该方法不需要手动设计启发式提示,并且能够更好地处理异构标签。

关键设计:论文中,模糊逻辑约束的具体形式取决于具体的弱标注类型和领域先验。例如,对于边界框标注,可以设计约束来保证分割结果位于边界框内部。对于领域先验,可以设计约束来保证分割结果的形状或大小符合预期的分布。损失函数由标准的分割损失(例如交叉熵损失)和模糊逻辑约束损失组成。模糊逻辑约束损失用于惩罚违反逻辑约束的分割结果。具体的网络结构可以采用标准的分割网络,例如DeepLabv3+,并根据需要进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Pascal VOC 2012数据集上,该方法取得了state-of-the-art的分割精度。在REFUGE2视盘/杯分割数据集上,该方法也显著优于现有的弱监督分割方法,甚至超过了部分密集监督的基线方法。实验结果表明,该方法能够有效地提高伪标签的质量,从而提升最终的分割性能。

🎯 应用场景

该研究成果可广泛应用于医学图像分析、遥感图像处理、自动驾驶等领域。在这些领域中,获取像素级别的精确标注往往非常困难,而弱监督学习提供了一种有效的解决方案。该方法能够利用有限的弱标注信息,训练出高性能的分割模型,从而降低标注成本,提高应用效率。未来,该方法有望进一步推广到其他类型的弱监督学习任务中。

📄 摘要(原文)

Weakly supervised semantic segmentation (WSSS) trains dense pixel-level segmentation models from partial or coarse annotations such as bounding boxes, scribbles, or image-level tags. While recent work leverages foundation models such as the Segment Anything Model (SAM) to generate pseudo-labels, these approaches typically depend on heuristic prompt choices and offer limited ways to incorporate prior knowledge or heterogeneous labels. We address this gap by taking a neurosymbolic perspective: integrating differentiable fuzzy logic with deep segmentation models. Weak annotations and domain-specific priors are unified as continuous logical constraints that fine-tune SAM under weak supervision. The refined foundation model then produces improved pseudo-labels, from which we train a second-stage prompt-free segmentation model. Experiments on Pascal VOC 2012 and the REFUGE2 optic disc/cup segmentation dataset show that our logic-guided fine-tuning yields higher-quality pseudo-labels, leading to state-of-the-art segmentation accuracy that often exceeds densely supervised baselines.