SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

📄 arXiv: 2604.15946v1 📥 PDF

作者: Thomas Campagnolo, Ezio Malis, Philippe Martinet, Gaétan Bahl

分类: cs.CV, cs.RO

发布日期: 2026-04-17


💡 一句话要点

SENSE:利用立体视觉增强开放词汇语义分割,提升空间精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 立体视觉 视觉-语言模型 深度估计 场景理解

📋 核心要点

  1. 现有开放词汇语义分割方法依赖单视图图像,在遮挡和边界处空间精度不足,限制了其应用。
  2. SENSE利用立体视觉和视觉-语言模型,通过引入几何线索,提升空间推理和分割精度。
  3. 实验表明,SENSE在PhraseStereo、Cityscapes和KITTI数据集上均优于现有方法,显著提升了分割性能。

📝 摘要(中文)

开放词汇语义分割允许模型分割超出固定类别集合的对象或图像区域,为动态环境提供灵活性。然而,现有方法通常依赖于单视图图像,并且在空间精度方面表现不佳,尤其是在遮挡和对象边界附近。我们提出了SENSE,这是首个关于立体开放词汇语义分割的工作,它利用立体视觉和视觉-语言模型来增强开放词汇语义分割。通过结合立体图像对,我们引入了几何线索,从而提高了空间推理和分割精度。我们的方法在PhraseStereo数据集上进行训练,在基于短语的任务中取得了强大的性能,并在零样本设置中展示了泛化能力。在PhraseStereo上,我们展示了比基线方法+2.9%的平均精度提升,比最佳竞争方法+0.76%的提升。与基线工作相比,SENSE还在Cityscapes上提供了+3.5%的相对mIoU改进,在KITTI上提供了+18%的改进。通过联合推理语义和几何,SENSE支持从自然语言进行精确的场景理解,这对于自主机器人和智能交通系统至关重要。

🔬 方法详解

问题定义:论文旨在解决开放词汇语义分割中,单目视觉方法在空间精度上的不足,尤其是在存在遮挡和物体边界模糊的情况下。现有方法难以准确分割,限制了其在复杂环境中的应用。

核心思路:论文的核心思路是引入立体视觉,利用双目图像提供的深度信息和几何约束,辅助视觉-语言模型进行语义分割。通过融合语义信息和几何信息,提高分割的准确性和鲁棒性。

技术框架:SENSE的整体框架包含以下几个主要模块:首先,使用立体相机获取双目图像对。然后,利用视觉-语言模型提取图像的语义特征,并利用立体匹配算法计算深度图。接下来,将语义特征和深度信息进行融合,通过一个分割网络预测像素级别的语义标签。最后,使用损失函数优化网络参数,提高分割性能。

关键创新:该论文的关键创新在于首次将立体视觉引入开放词汇语义分割任务中,并设计了一种有效的融合语义信息和几何信息的方法。这种方法能够显著提高分割的准确性和鲁棒性,尤其是在存在遮挡和物体边界模糊的情况下。

关键设计:论文的关键设计包括:1) 使用预训练的视觉-语言模型(如CLIP)提取图像的语义特征;2) 使用SGM等立体匹配算法生成高精度的深度图;3) 设计了一种融合语义特征和深度信息的网络结构,例如使用注意力机制或者特征拼接;4) 使用交叉熵损失函数或者Dice损失函数优化分割网络。

📊 实验亮点

SENSE在PhraseStereo数据集上相比基线方法提升了2.9%的平均精度,相比最佳竞争方法提升了0.76%。在Cityscapes数据集上,SENSE的mIoU相对提升了3.5%,在KITTI数据集上相对提升了18%。这些结果表明,SENSE在开放词汇语义分割任务中具有显著的优势。

🎯 应用场景

SENSE在自主机器人和智能交通系统等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,从而实现更安全、更高效的导航和交互。在智能交通系统中,SENSE可以用于识别交通标志、车辆和行人,从而提高交通安全和效率。此外,该技术还可以应用于增强现实、虚拟现实等领域。

📄 摘要(原文)

Open-vocabulary semantic segmentation enables models to segment objects or image regions beyond fixed class sets, offering flexibility in dynamic environments. However, existing methods often rely on single-view images and struggle with spatial precision, especially under occlusions and near object boundaries. We propose SENSE, the first work on Stereo OpEN Vocabulary SEmantic Segmentation, which leverages stereo vision and vision-language models to enhance open-vocabulary semantic segmentation. By incorporating stereo image pairs, we introduce geometric cues that improve spatial reasoning and segmentation accuracy. Trained on the PhraseStereo dataset, our approach achieves strong performance in phrase-grounded tasks and demonstrates generalization in zero-shot settings. On PhraseStereo, we show a +2.9% improvement in Average Precision over the baseline method and +0.76% over the best competing method. SENSE also provides a relative improvement of +3.5% mIoU on Cityscapes and +18% on KITTI compared to the baseline work. By jointly reasoning over semantics and geometry, SENSE supports accurate scene understanding from natural language, essential for autonomous robots and Intelligent Transportation Systems.