Learning Robust Correlation with Foundation Model for Weakly-Supervised Few-Shot Segmentation

作者: Xinyang Huang, Chuang Zhu, Kebin Liu, Ruiying Ren, Shengjie Liu

分类: cs.CV

发布日期: 2024-05-30

DOI: 10.1016/j.knosys.2024.112004

💡 一句话要点

提出CORENet，利用基础模型学习鲁棒相关性，解决弱监督少样本分割问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 弱监督学习 少样本分割 基础模型 相关性学习 Transformer CLIP 多信息融合

📋 核心要点

现有少样本分割方法依赖精确像素掩码，标注成本高昂，限制了其在弱监督场景下的应用。
CORENet利用基础模型，通过多信息指导增强相关性学习，从而在弱监督条件下实现鲁棒的少样本分割。
在PASCAL-5$^i$和COCO-20$^i$数据集上的实验表明，CORENet显著优于现有弱监督少样本分割方法。

📝 摘要（中文）

现有的少样本分割(FSS)方法仅考虑学习支持集-查询集之间的相关性，并在精确的像素掩码下分割未见过的类别。然而，训练期间大量像素掩码的标注成本很高。本文考虑一个更具挑战性的场景，即弱监督少样本分割(WS-FSS)，它仅提供类别（即图像级别）标签。这要求模型在生成的掩码不准确时学习鲁棒的支持集-查询集信息。为此，我们设计了一个带有基础模型的相关性增强网络(CORENet)，它利用多信息指导来学习鲁棒的相关性。具体来说，相关性引导Transformer (CGT)利用自监督ViT tokens从局部和全局角度学习鲁棒的相关性。从语义类别的角度来看，类别引导模块(CGM)通过预训练的CLIP引导模型定位有价值的相关性。最后，嵌入引导模块(EGM)通过原始外观嵌入隐式地引导模型补充相关性学习过程中不可避免的信息损失，并最终生成查询掩码。在PASCAL-5$^i$和COCO-20$^i$上的大量实验表明，与现有方法相比，CORENet表现出优异的性能。

🔬 方法详解

问题定义：论文旨在解决弱监督少样本分割（WS-FSS）问题。与传统的少样本分割（FSS）相比，WS-FSS仅提供图像级别的类别标签，缺乏像素级别的精确标注。这使得模型难以准确学习支持集和查询集之间的相关性，导致分割性能下降。现有方法难以在弱监督条件下学习到鲁棒的相关性，分割精度有待提高。

核心思路：论文的核心思路是利用预训练的基础模型，结合多信息指导，增强模型学习鲁棒相关性的能力。具体来说，通过自监督ViT tokens学习局部和全局相关性，利用CLIP的语义信息引导模型定位有价值的相关性，并使用原始外观嵌入补充信息损失。这种多信息融合的方式可以有效提高模型在弱监督条件下的分割性能。

技术框架：CORENet的整体框架包含三个主要模块：相关性引导Transformer (CGT)、类别引导模块(CGM)和嵌入引导模块(EGM)。首先，CGT利用自监督ViT tokens学习支持集和查询集之间的相关性。然后，CGM利用预训练的CLIP模型，根据类别信息引导模型关注有价值的相关性。最后，EGM利用原始外观嵌入补充相关性学习过程中丢失的信息，并最终生成查询集的分割掩码。

关键创新：论文的关键创新在于将预训练的基础模型引入到弱监督少样本分割任务中，并设计了多信息融合的框架。通过结合自监督学习、语义信息和外观信息，模型能够学习到更加鲁棒的相关性，从而提高分割性能。此外，CGT、CGM和EGM三个模块的设计也充分考虑了弱监督条件下的挑战，并针对性地提出了解决方案。

关键设计：CGT模块利用Transformer结构学习相关性，其中query和key由ViT tokens生成。CGM模块使用CLIP的文本编码器提取类别信息，并将其与视觉特征进行融合，以引导模型关注与类别相关的区域。EGM模块使用原始图像的嵌入特征，通过残差连接的方式补充信息损失。损失函数方面，论文使用了交叉熵损失函数来训练分割模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CORENet在PASCAL-5$^i$和COCO-20$^i$数据集上均取得了显著的性能提升。在PASCAL-5$^i$数据集上，CORENet的平均IoU超过现有最佳方法多个百分点。在COCO-20$^i$数据集上，CORENet也取得了具有竞争力的结果，证明了其在复杂场景下的有效性。消融实验验证了各个模块的有效性，表明多信息融合策略能够有效提高分割性能。

🎯 应用场景

该研究成果可应用于医学图像分析、遥感图像解译、自动驾驶等领域。在这些领域中，获取像素级别的精确标注往往成本高昂，而弱监督少样本分割技术可以有效降低标注成本，提高分割效率和精度。例如，在医学图像分析中，可以利用该技术辅助医生进行病灶检测和分割，提高诊断效率。

📄 摘要（原文）

Existing few-shot segmentation (FSS) only considers learning support-query correlation and segmenting unseen categories under the precise pixel masks. However, the cost of a large number of pixel masks during training is expensive. This paper considers a more challenging scenario, weakly-supervised few-shot segmentation (WS-FSS), which only provides category ($i.e.$ image-level) labels. It requires the model to learn robust support-query information when the generated mask is inaccurate. In this work, we design a Correlation Enhancement Network (CORENet) with foundation model, which utilizes multi-information guidance to learn robust correlation. Specifically, correlation-guided transformer (CGT) utilizes self-supervised ViT tokens to learn robust correlation from both local and global perspectives. From the perspective of semantic categories, the class-guided module (CGM) guides the model to locate valuable correlations through the pre-trained CLIP. Finally, the embedding-guided module (EGM) implicitly guides the model to supplement the inevitable information loss during the correlation learning by the original appearance embedding and finally generates the query mask. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ have shown that CORENet exhibits excellent performance compared to existing methods.

Learning Robust Correlation with Foundation Model for Weakly-Supervised Few-Shot Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理