LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
作者: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
分类: cs.CV, cs.LG
发布日期: 2025-03-25 (更新: 2025-06-25)
🔗 代码/项目: GITHUB
💡 一句话要点
提出LPOSS+,通过标签传播优化视觉语言模型,实现开放词汇语义分割。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇语义分割 标签传播 视觉语言模型 免训练学习 上下文建模
📋 核心要点
- 现有开放词汇语义分割方法在捕捉图像块之间的关系方面存在不足,限制了分割精度。
- LPOSS+通过结合视觉模型和标签传播,在块和像素级别优化预测,从而提升分割效果。
- 实验表明,LPOSS+在多个数据集上取得了领先的免训练语义分割性能,尤其在边界区域。
📝 摘要(中文)
本文提出了一种无需训练的开放词汇语义分割方法,该方法利用视觉-语言模型(VLM)。我们的方法通过标签传播增强VLM的初始逐块预测,标签传播通过结合块与块之间的关系来联合优化预测。由于VLM主要针对跨模态对齐进行优化,而不是针对模态内相似性,因此我们使用视觉模型(VM),该模型能够更好地捕获这些关系。我们通过在像素级别应用标签传播作为细化步骤,解决了基于块的编码器固有的分辨率限制,从而显着提高了类边界附近的分割精度。我们的方法称为LPOSS+,它对整个图像执行推理,避免了基于窗口的处理,从而捕获了整个图像中的上下文交互。LPOSS+在各种数据集上实现了最先进的免训练方法性能。
🔬 方法详解
问题定义:开放词汇语义分割旨在将图像中的每个像素分配到预定义的类别集合之外的类别。现有的基于视觉-语言模型的方法通常依赖于对图像块的独立预测,忽略了图像块之间的上下文关系,导致分割精度不高,尤其是在物体边界区域。
核心思路:LPOSS+的核心思路是利用标签传播算法,结合视觉模型提取的图像块之间的相似性关系,对视觉-语言模型的初始预测进行优化。通过在块级别和像素级别进行标签传播,可以有效地利用上下文信息,提高分割精度。
技术框架:LPOSS+方法主要包含以下几个阶段: 1. 视觉-语言模型预测:使用预训练的视觉-语言模型(如CLIP)对图像进行逐块预测,得到初始的语义分割结果。 2. 视觉模型特征提取:使用视觉模型(如ResNet)提取图像的特征表示,用于计算图像块之间的相似性。 3. 块级别标签传播:利用视觉模型提取的特征,计算图像块之间的相似性矩阵,然后使用标签传播算法对视觉-语言模型的初始预测进行优化。 4. 像素级别标签传播:为了提高分割精度,尤其是在物体边界区域,在像素级别进行标签传播,进一步优化分割结果。
关键创新:LPOSS+的关键创新在于: 1. 结合视觉模型和标签传播:利用视觉模型提取的图像块之间的相似性关系,通过标签传播算法优化视觉-语言模型的初始预测。 2. 块级别和像素级别标签传播:通过在块级别和像素级别进行标签传播,有效地利用上下文信息,提高分割精度。
关键设计: 1. 相似性矩阵计算:使用视觉模型提取的特征,计算图像块之间的余弦相似度,构建相似性矩阵。 2. 标签传播算法:使用经典的标签传播算法,根据相似性矩阵,迭代更新每个图像块或像素的标签。 3. 权重参数:在标签传播过程中,需要设置权重参数,用于平衡初始预测和邻域信息的影响。这些参数通常通过实验进行调整。
🖼️ 关键图片
📊 实验亮点
LPOSS+在多个开放词汇语义分割数据集上取得了显著的性能提升。例如,在COCO-Stuff数据集上,LPOSS+的mIoU指标超过了之前的免训练方法,达到了新的state-of-the-art。尤其是在物体边界区域,LPOSS+的分割精度得到了显著提高,验证了像素级别标签传播的有效性。
🎯 应用场景
LPOSS+在无需训练的情况下实现开放词汇语义分割,具有广泛的应用前景,例如:自动驾驶场景理解、医学图像分析、遥感图像解译等。该方法可以快速适应新的类别,无需重新训练模型,降低了部署成本,提高了应用灵活性。未来可以进一步探索如何将LPOSS+与其他技术结合,例如主动学习、领域自适应等,以进一步提高分割性能。
📄 摘要(原文)
We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS