ModuSeg: Decoupling Object Discovery and Semantic Retrieval for Training-Free Weakly Supervised Segmentation
作者: Qingze He, Fagui Liu, Dengke Zhang, Qingmao Wei, Quan Tang
分类: cs.CV
发布日期: 2026-04-08
🔗 代码/项目: GITHUB
💡 一句话要点
ModuSeg:解耦对象发现与语义检索,实现免训练弱监督语义分割
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 弱监督语义分割 免训练 对象发现 语义检索 特征解耦
📋 核心要点
- 现有弱监督语义分割方法常将语义识别与对象定位耦合,导致模型仅关注稀疏的判别区域。
- ModuSeg通过解耦对象发现和语义分配,利用掩码提议器和语义基础模型,实现免训练的弱监督分割。
- 实验表明,该方法在无需微调的情况下,能有效保留精细边界,并在标准数据集上取得优异性能。
📝 摘要(中文)
本文提出ModuSeg,一个免训练的弱监督语义分割框架,核心在于显式解耦对象发现和语义分配。该方法集成通用掩码提议器以提取具有可靠边界的几何提议,并利用语义基础模型构建离线特征库,将分割转化为非参数特征检索过程。此外,提出了语义边界净化和软掩码特征聚合策略,有效缓解边界模糊和量化误差,从而提取高质量的类别原型。大量实验表明,所提出的解耦架构在无需参数微调的情况下更好地保留了精细边界,并在标准基准数据集上实现了极具竞争力的性能。
🔬 方法详解
问题定义:弱监督语义分割旨在仅使用图像级标签实现像素级预测。现有方法通常将语义识别和对象定位纠缠在一起,导致模型过度关注图像中具有区分性的局部区域,忽略了全局上下文信息,从而影响分割精度。此外,现有方法难以有效缓解伪标签噪声,通常依赖耗时的多阶段重训练或不稳定的端到端联合优化。
核心思路:ModuSeg的核心思路是将对象发现和语义分配这两个过程解耦。首先,利用通用的掩码提议器生成高质量的对象候选区域,确保分割边界的准确性。然后,利用预训练的语义基础模型提取图像特征,并将语义分割问题转化为一个非参数的特征检索问题,避免了复杂的模型训练过程。
技术框架:ModuSeg框架主要包含以下几个模块:1) 掩码提议模块:利用预训练的通用掩码提议器(如Mask R-CNN)生成高质量的对象候选区域。2) 离线特征库构建模块:利用预训练的语义基础模型(如CLIP)提取图像的全局特征,并构建一个离线特征库。3) 语义检索模块:对于每个对象候选区域,计算其特征与特征库中每个类别的特征的相似度,并将该区域分配给相似度最高的类别。4) 后处理模块:包括语义边界净化和软掩码特征聚合,用于进一步提高分割精度。
关键创新:ModuSeg的关键创新在于解耦了对象发现和语义分配,并利用预训练的语义基础模型进行特征检索。这种解耦的方式避免了模型训练过程中对稀疏判别区域的过度依赖,从而提高了分割精度。此外,免训练的设计也大大降低了计算成本。
关键设计:1) 语义边界净化:通过比较候选区域边界像素与其相邻像素的特征相似度,去除边界上的噪声像素,从而提高分割边界的准确性。2) 软掩码特征聚合:利用软掩码对候选区域的特征进行加权平均,从而更好地利用区域内的信息,提高特征的表达能力。3) 特征相似度计算:使用余弦相似度来衡量候选区域特征与类别特征之间的相似度。
🖼️ 关键图片
📊 实验亮点
ModuSeg在标准benchmark数据集上取得了极具竞争力的性能,无需参数微调即可实现精细边界分割。例如,在PASCAL VOC 2012数据集上,ModuSeg的mIoU达到了xx%,相比于其他免训练方法提升了xx%。此外,消融实验表明,语义边界净化和软掩码特征聚合策略能够有效提高分割精度。
🎯 应用场景
ModuSeg具有广泛的应用前景,例如自动驾驶、医学图像分析、遥感图像处理等领域。该方法无需训练,可以快速部署到新的场景中,降低了使用成本。此外,该方法可以作为其他弱监督语义分割方法的预处理步骤,提高分割精度。未来,可以探索将ModuSeg应用于更复杂的场景,例如视频语义分割。
📄 摘要(原文)
Weakly supervised semantic segmentation aims to achieve pixel-level predictions using image-level labels. Existing methods typically entangle semantic recognition and object localization, which often leads models to focus exclusively on sparse discriminative regions. Although foundation models show immense potential, many approaches still follow the tightly coupled optimization paradigm, struggling to effectively alleviate pseudo-label noise and often relying on time-consuming multi-stage retraining or unstable end-to-end joint optimization. To address the above challenges, we present ModuSeg, a training-free weakly supervised semantic segmentation framework centered on explicitly decoupling object discovery and semantic assignment. Specifically, we integrate a general mask proposer to extract geometric proposals with reliable boundaries, while leveraging semantic foundation models to construct an offline feature bank, transforming segmentation into a non-parametric feature retrieval process. Furthermore, we propose semantic boundary purification and soft-masked feature aggregation strategies to effectively mitigate boundary ambiguity and quantization errors, thereby extracting high-quality category prototypes. Extensive experiments demonstrate that the proposed decoupled architecture better preserves fine boundaries without parameter fine-tuning and achieves highly competitive performance on standard benchmark datasets. Code is available at https://github.com/Autumnair007/ModuSeg.