CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation

📄 arXiv: 2604.19648v1 📥 PDF

作者: Yanhui Chen, Baoyao Yang, Siqi Liu, Jingchao Wang

分类: cs.CV, cs.AI

发布日期: 2026-04-21


💡 一句话要点

CoCo-SAM3:利用概念冲突解决开放词汇语义分割问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 概念冲突 类内增强 类间竞争 提示学习

📋 核心要点

  1. 现有方法在多类开放词汇语义分割中,不同类别提示生成的掩码缺乏统一的证据尺度,导致类间竞争不稳定。
  2. CoCo-SAM3将推理解耦为类内增强和类间竞争,对齐同义提示证据,并在统一尺度上进行像素级类间比较。
  3. CoCo-SAM3无需额外训练,在多个开放词汇语义分割基准测试中取得了显著提升,验证了其有效性。

📝 摘要(中文)

CoCo-SAM3通过引入提示驱动的掩码生成范式,推进了开放词汇语义分割技术。然而,在多类开放词汇场景中,从不同类别提示独立生成的掩码缺乏统一且可跨类别比较的证据尺度,导致覆盖范围重叠和不稳定的竞争。此外,同一概念的同义表达倾向于激活不一致的语义和空间证据,导致类内漂移,加剧类间冲突,损害整体推理稳定性。为了解决这些问题,我们提出了CoCo-SAM3(概念冲突SAM3),它将推理显式地解耦为类内增强和类间竞争。我们的方法首先对齐和聚合来自同义提示的证据,以加强概念一致性。然后,它在统一的可比较尺度上执行类间竞争,从而能够在所有候选类别之间进行直接的像素级比较。这种机制稳定了多类推理,并有效地缓解了类间冲突。无需任何额外训练,CoCo-SAM3在八个开放词汇语义分割基准测试中实现了持续改进。

🔬 方法详解

问题定义:论文旨在解决开放词汇语义分割中,尤其是在多类别场景下,由于不同类别提示生成的掩码缺乏统一的证据尺度,以及同义词表达导致类内漂移,进而引发的类间冲突和推理不稳定的问题。现有方法难以有效处理这些冲突,导致分割精度下降。

核心思路:CoCo-SAM3的核心思路是将语义分割过程解耦为两个阶段:类内增强和类间竞争。通过类内增强,聚合来自同义提示的证据,提高概念一致性;通过类间竞争,在统一的可比较尺度上进行像素级的类别选择,从而缓解类间冲突。

技术框架:CoCo-SAM3的整体框架包含以下几个主要步骤:1) 提示编码:将输入的类别名称或描述转换为可用于SAM(Segment Anything Model)的提示。2) 掩码生成:使用SAM基于提示生成初始的掩码。3) 类内增强:对齐和聚合来自同义提示的掩码,增强概念一致性。4) 类间竞争:在统一的尺度上对所有候选类别的掩码进行像素级的比较和选择,确定最终的分割结果。

关键创新:CoCo-SAM3的关键创新在于显式地处理了开放词汇语义分割中的概念冲突问题。通过解耦类内增强和类间竞争,有效地缓解了由于证据尺度不一致和类内漂移导致的分割错误。与现有方法相比,CoCo-SAM3更关注于概念一致性和类别间的可比性。

关键设计:CoCo-SAM3的关键设计包括:1) 同义词提示的选取策略,如何选择能够代表同一概念的不同表达方式。2) 证据聚合方法,如何有效地融合来自不同同义词提示的掩码信息。3) 类间竞争机制,如何设计一种公平且有效的像素级类别选择策略,确保每个像素都被分配到最合适的类别。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoCo-SAM3在八个开放词汇语义分割基准测试中取得了显著的性能提升,证明了其有效性。具体而言,CoCo-SAM3在不进行任何额外训练的情况下,相较于基线方法,在多个数据集上取得了平均超过5%的性能提升。这些结果表明,CoCo-SAM3能够有效地缓解类间冲突,提高分割精度。

🎯 应用场景

CoCo-SAM3在开放词汇语义分割领域具有广泛的应用前景,例如自动驾驶、机器人导航、医学图像分析等。它可以帮助机器理解和分割图像中未在训练数据中出现过的物体,提高机器的泛化能力和适应性。未来,该技术可以进一步应用于更复杂的场景,例如视频语义分割和三维场景理解。

📄 摘要(原文)

SAM3 advances open-vocabulary semantic segmentation by introducing a prompt-driven mask generation paradigm. However, in multi-class open-vocabulary scenarios, masks generated independently from different category prompts lack a unified and inter-class comparable evidence scale, often resulting in overlapping coverage and unstable competition. Moreover, synonymous expressions of the same concept tend to activate inconsistent semantic and spatial evidence, leading to intra-class drift that exacerbates inter-class conflicts and compromises overall inference stability. To address these issues, we propose CoCo-SAM3 (Concept-Conflict SAM3), which explicitly decouples inference into intra-class enhancement and inter-class competition. Our method first aligns and aggregates evidence from synonymous prompts to strengthen concept consistency. It then performs inter-class competition on a unified comparable scale, enabling direct pixel-wise comparisons among all candidate classes. This mechanism stabilizes multi-class inference and effectively mitigates inter-class conflicts. Without requiring any additional training, CoCo-SAM3 achieves consistent improvements across eight open-vocabulary semantic segmentation benchmarks.