BAISeg: Boundary Assisted Weakly Supervised Instance Segmentation
作者: Tengbo Wang, Yu Bai
分类: cs.CV, eess.IV
发布日期: 2024-05-27 (更新: 2024-11-19)
🔗 代码/项目: GITHUB
💡 一句话要点
BAISeg:提出边界辅助的弱监督实例分割方法,无需实例级标注。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 弱监督学习 实例分割 边界检测 深度学习 计算机视觉
📋 核心要点
- 现有弱监督实例分割方法依赖不稳定的实例中心,导致聚类结果差异大,影响分割精度。
- BAISeg通过预测实例边界而非中心来分割实例,避免了对不稳定中心点的依赖,提升了分割的鲁棒性。
- 实验表明,BAISeg在PASCAL VOC 2012和MS COCO数据集上取得了显著的性能提升,验证了其有效性。
📝 摘要(中文)
弱监督实例分割(WSIS)的主要挑战是如何在没有实例级监督的情况下提取实例级掩码。现有的WSIS方法通常通过学习像素间的关系来估计位移场(DF),并执行聚类来识别实例。然而,由此产生的实例中心本质上是不稳定的,并且在不同的聚类算法中变化很大。本文提出了一种新的WSIS范式——边界辅助实例分割(BAISeg),它通过像素级标注实现实例分割。BAISeg包含一个实例感知边界检测(IABD)分支和一个语义分割分支。IABD分支通过预测类别无关的实例边界而不是实例中心来识别实例,因此,它不同于以往基于DF的方法。特别地,我们在IABD分支中提出了级联融合模块(CFM)和深度互注意力(DMA),以获得丰富的上下文信息并捕获具有微弱响应的实例边界。在训练阶段,我们采用像素到像素的对比学习来增强IABD分支的区分能力,进一步加强实例边界的连续性和闭合性。在PASCAL VOC 2012和MS COCO上的大量实验证明了我们方法的有效性,并且仅使用像素级标注就取得了可观的性能。
🔬 方法详解
问题定义:弱监督实例分割旨在仅利用像素级别的标注(例如语义分割标注)来实现实例级别的分割。现有方法,特别是基于位移场的方法,依赖于学习像素之间的关系来推断实例中心,然后通过聚类将像素分配到不同的实例。然而,这些方法对聚类算法的选择非常敏感,且实例中心的位置估计本身就存在不稳定性,导致分割结果不稳定。
核心思路:BAISeg的核心思路是利用实例边界信息来辅助实例分割。与预测不稳定的实例中心不同,BAISeg预测类别无关的实例边界。实例边界通常具有更强的局部一致性和闭合性,因此更易于学习和预测。通过准确地预测实例边界,可以更有效地将图像分割成不同的实例区域。
技术框架:BAISeg包含两个主要分支:实例感知边界检测(IABD)分支和语义分割分支。IABD分支负责预测图像中所有实例的边界,而语义分割分支则负责预测每个像素的语义类别。这两个分支可以共享底层特征提取网络,例如ResNet。IABD分支的输出是一个边界概率图,指示每个像素属于实例边界的概率。语义分割分支的输出是每个像素属于不同语义类别的概率。最终的实例分割结果可以通过将语义分割结果与IABD分支预测的边界信息相结合来获得。
关键创新:BAISeg的关键创新在于使用实例边界作为实例分割的线索,而不是依赖于实例中心。此外,论文还提出了两个关键模块:级联融合模块(CFM)和深度互注意力(DMA)。CFM用于融合不同尺度的特征,以获得更丰富的上下文信息。DMA用于在不同特征层之间建立注意力机制,以更好地捕获实例边界。
关键设计:IABD分支使用Pixel-to-Pixel Contrast损失函数来增强边界的区分能力,鼓励属于同一实例边界的像素具有相似的特征表示,而属于不同实例边界的像素具有不同的特征表示。CFM模块采用多尺度特征融合,将浅层和深层特征进行级联,以同时捕获局部细节和全局上下文信息。DMA模块通过自注意力机制,学习不同特征层之间的相关性,从而更好地提取实例边界特征。
🖼️ 关键图片
📊 实验亮点
BAISeg在PASCAL VOC 2012和MS COCO数据集上取得了显著的性能提升。例如,在PASCAL VOC 2012数据集上,BAISeg仅使用像素级标注就达到了与一些使用更强监督信息的算法相当的性能。在MS COCO数据集上,BAISeg也取得了具有竞争力的结果,证明了其在复杂场景下的有效性。
🎯 应用场景
BAISeg在医学图像分析、自动驾驶、遥感图像处理等领域具有广泛的应用前景。例如,在医学图像分析中,可以用于细胞分割、器官分割等任务,辅助医生进行疾病诊断。在自动驾驶领域,可以用于车辆、行人等目标的分割,提高自动驾驶系统的安全性。在遥感图像处理中,可以用于地物分割、建筑物提取等任务,为城市规划和环境监测提供支持。
📄 摘要(原文)
How to extract instance-level masks without instance-level supervision is the main challenge of weakly supervised instance segmentation (WSIS). Popular WSIS methods estimate a displacement field (DF) via learning inter-pixel relations and perform clustering to identify instances. However, the resulting instance centroids are inherently unstable and vary significantly across different clustering algorithms. In this paper, we propose Boundary-Assisted Instance Segmentation (BAISeg), which is a novel paradigm for WSIS that realizes instance segmentation with pixel-level annotations. BAISeg comprises an instance-aware boundary detection (IABD) branch and a semantic segmentation branch. The IABD branch identifies instances by predicting class-agnostic instance boundaries rather than instance centroids, therefore, it is different from previous DF-based approaches. In particular, we proposed the Cascade Fusion Module (CFM) and the Deep Mutual Attention (DMA) in the IABD branch to obtain rich contextual information and capture instance boundaries with weak responses. During the training phase, we employed Pixel-to-Pixel Contrast to enhance the discriminative capacity of the IABD branch. This further strengthens the continuity and closedness of the instance boundaries. Extensive experiments on PASCAL VOC 2012 and MS COCO demonstrate the effectiveness of our approach, and we achieve considerable performance with only pixel-level annotations. The code will be available at https://github.com/wsis-seg/BAISeg.