OVS-DINO: Open-Vocabulary Segmentation via Structure-Aligned SAM-DINO with Language Guidance

📄 arXiv: 2604.08461v1 📥 PDF

作者: Haoxi Zeng, Qiankun Liu, Yi Bin, Haiyue Zhang, Yujuan Ding, Guoqing Wang, Deqiang Ouyang, Heng Tao Shen

分类: cs.CV, cs.AI

发布日期: 2026-04-09

备注: 14 pages, 12 figures, 5 tables


💡 一句话要点

提出OVS-DINO以解决开放词汇分割中的边界感知问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇分割 边界感知 结构对齐 视觉基础模型 深度学习

📋 核心要点

  1. 现有的开放词汇分割方法在细粒度空间意识上存在不足,导致边界感知能力不足。
  2. 本文提出OVS-DINO框架,通过与SAM的结构对齐,增强DINO的边界特征感知能力。
  3. 实验结果显示,OVS-DINO在复杂场景中的分割准确性显著提升,Cityscapes数据集得分提高了6.3%。

📝 摘要(中文)

开放词汇分割(OVS)旨在通过语义描述对图像区域进行分割,超越预定义类别集。尽管基于CLIP的方法在语义泛化方面表现出色,但在密集预测所需的细粒度空间意识上常常不足。近期的研究尝试结合视觉基础模型(VFM)如DINO来缓解这些限制。然而,这些方法在高保真分割所需的精确边缘感知上仍然存在困难。本文分析了DINO的内部表示,发现其固有的边界意识并非缺失,而是在特征进入更深的变换器块时逐渐减弱。为此,我们提出了OVS-DINO,一个通过与Segment Anything Model(SAM)的结构对齐来恢复DINO潜在边缘敏感性的框架。我们引入了结构感知编码器(SAE)和结构调制解码器(SMD),有效激活DINO的边界特征,并辅以利用SAM生成的伪掩码的监督策略。大量实验表明,我们的方法在多个弱监督OVS基准上实现了最先进的性能,平均得分提高了2.1%。

🔬 方法详解

问题定义:本文旨在解决开放词汇分割中边界感知不足的问题。现有方法在细粒度分割上表现不佳,尤其是在复杂场景中。

核心思路:通过结构对齐SAM,OVS-DINO框架恢复DINO的边界敏感性,利用SAM的结构先验激活DINO的边界特征。

技术框架:OVS-DINO包含结构感知编码器(SAE)和结构调制解码器(SMD),通过SAM生成的伪掩码进行监督,形成完整的分割流程。

关键创新:最重要的创新在于通过结构对齐技术,增强了DINO在深层特征提取中的边界感知能力,与传统方法相比,显著提升了分割精度。

关键设计:在网络结构上,SAE和SMD的设计使得边界特征能够被有效激活,损失函数结合了伪掩码的监督,确保了模型的训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OVS-DINO在多个弱监督OVS基准上实现了最先进的性能,平均得分从44.8%提升至46.9%。在Cityscapes数据集上,分割准确性提升6.3%,从36.6%提高至42.9%,显示出在复杂场景中的显著优势。

🎯 应用场景

该研究在图像分割领域具有广泛的应用潜力,尤其是在自动驾驶、医学影像分析和机器人视觉等复杂场景中。通过提高分割精度,OVS-DINO能够为这些领域提供更可靠的视觉理解,推动相关技术的发展和应用。

📄 摘要(原文)

Open-Vocabulary Segmentation (OVS) aims to segment image regions beyond predefined category sets by leveraging semantic descriptions. While CLIP based approaches excel in semantic generalization, they frequently lack the fine-grained spatial awareness required for dense prediction. Recent efforts have incorporated Vision Foundation Models (VFMs) like DINO to alleviate these limitations. However, these methods still struggle with the precise edge perception necessary for high fidelity segmentation. In this paper, we analyze internal representations of DINO and discover that its inherent boundary awareness is not absent but rather undergoes progressive attenuation as features transition into deeper transformer blocks. To address this, we propose OVS-DINO, a novel framework that revitalizes latent edge-sensitivity of DINO through structural alignment with the Segment Anything Model (SAM). Specifically, we introduce a Structure-Aware Encoder (SAE) and a Structure-Modulated Decoder (SMD) to effectively activate boundary features of DINO using SAM's structural priors, complemented by a supervision strategy utilizing SAM generated pseudo-masks. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple weakly-supervised OVS benchmarks, improving the average score by 2.1% (from 44.8% to 46.9%). Notably, our approach significantly enhances segmentation accuracy in complex, cluttered scenarios, with a gain of 6.3% on Cityscapes (from 36.6% to 42.9%).