dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3

📄 arXiv: 2603.19531v1 📥 PDF

作者: Saikat Dutta, Biplab Banerjee, Hamid Rezatofighi

分类: cs.CV, cs.AI

发布日期: 2026-03-19


💡 一句话要点

DINOv3.seg:利用DINOv3实现开放词汇语义分割,提升复杂场景下的分割精度和鲁棒性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 视觉语言模型 ViT 特征细化 局部-全局推理

📋 核心要点

  1. 现有开放词汇语义分割方法依赖于对图像-文本相似性图的有限调整,导致在复杂场景中空间精度和鲁棒性不足。
  2. dinov3.seg通过早期和晚期细化视觉表示及图像-文本相关特征,并结合局部-全局推理策略,提升分割精度。
  3. 在五个OVSS基准测试中,dinov3.seg始终优于当前最先进的方法,验证了其有效性和鲁棒性。

📝 摘要(中文)

开放词汇语义分割(OVSS)旨在从文本定义的开放类别集合中为像素分配标签,需要在推理时可靠地泛化到未见过的类别。虽然现代视觉-语言模型(VLMs)支持强大的开放词汇识别,但通过全局对比目标学习到的表示对于密集预测来说仍然是次优的,这促使许多OVSS方法依赖于对图像-文本相似性图的有限适应或细化,从而限制了在复杂、杂乱场景中的空间精度和鲁棒性。我们提出了dinov3.seg,将dinov3.txt扩展为一个专门用于OVSS的框架。我们的贡献有四个方面。首先,我们设计了一个针对该骨干网络的特定任务架构,系统地采用了先前开放词汇分割工作中已建立的设计原则。其次,我们联合利用与全局[CLS] token和来自ViT编码器的局部patch级视觉特征对齐的文本嵌入,有效地将语义区分与细粒度的空间局部性相结合。第三,与主要依赖于事后相似性细化的先前方法不同,我们在图像-文本交互之前执行视觉表示的早期细化,然后对生成的图像-文本相关特征进行后期细化,从而在杂乱场景中实现更准确和鲁棒的密集预测。最后,我们提出了一种基于滑动窗口聚合的高分辨率局部-全局推理策略,该策略在保持全局上下文的同时保留了空间细节。我们在五个广泛采用的OVSS基准上进行了大量实验来评估我们的方法。结果表明了其有效性和鲁棒性,始终优于当前最先进的方法。

🔬 方法详解

问题定义:开放词汇语义分割(OVSS)旨在将像素级的标签分配给开放的、文本定义的类别,这要求模型在推理时能够泛化到未见过的类别。现有方法主要依赖于对图像-文本相似性图的后处理,这限制了模型在复杂场景下的空间精度和鲁棒性,难以处理杂乱的场景。

核心思路:dinov3.seg的核心思路是结合全局语义信息和局部空间信息,并通过早期和晚期细化策略来提升视觉表示和图像-文本相关特征的质量。通过这种方式,模型能够更准确地理解图像内容,并进行更鲁棒的像素级分类。

技术框架:dinov3.seg的整体框架包括以下几个主要模块:1) 基于ViT的视觉编码器,提取全局和局部视觉特征;2) 文本编码器,提取文本嵌入;3) 早期视觉特征细化模块,提升视觉表示的质量;4) 图像-文本交互模块,计算图像和文本之间的相关性;5) 后期相关特征细化模块,进一步提升相关特征的质量;6) 基于滑动窗口聚合的局部-全局推理模块,生成最终的分割结果。

关键创新:dinov3.seg的关键创新在于:1) 提出了早期和晚期细化策略,分别提升视觉表示和图像-文本相关特征的质量;2) 结合了全局和局部视觉特征,更好地利用了图像的空间信息;3) 提出了基于滑动窗口聚合的局部-全局推理策略,在保持全局上下文的同时保留了空间细节。

关键设计:dinov3.seg的关键设计包括:1) 针对ViT骨干网络设计的特定任务架构;2) 联合利用与全局[CLS] token和局部patch级视觉特征对齐的文本嵌入;3) 早期视觉特征细化模块的具体实现方式(例如,使用卷积神经网络);4) 后期相关特征细化模块的具体实现方式(例如,使用Transformer);5) 滑动窗口的大小和步长等参数设置;6) 损失函数的选择和优化策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

dinov3.seg在五个广泛采用的OVSS基准测试中进行了评估,实验结果表明,该方法始终优于当前最先进的方法。具体的性能提升数据在论文中给出,表明dinov3.seg在开放词汇语义分割任务中具有显著的优势。

🎯 应用场景

dinov3.seg在自动驾驶、机器人导航、遥感图像分析、医学图像诊断等领域具有广泛的应用前景。它可以帮助机器理解复杂的视觉场景,并进行精确的像素级分类,从而提高决策的准确性和可靠性。未来,该研究可以进一步扩展到视频语义分割、三维场景理解等更复杂的任务中。

📄 摘要(原文)

Open-Vocabulary Semantic Segmentation (OVSS) assigns pixel-level labels from an open set of text-defined categories, demanding reliable generalization to unseen classes at inference. Although modern vision-language models (VLMs) support strong open-vocabulary recognition, their representations learned through global contrastive objectives remain suboptimal for dense prediction, prompting many OVSS methods to depend on limited adaptation or refinement of image-text similarity maps. This, in turn, restricts spatial precision and robustness in complex, cluttered scenes. We introduce dinov3.seg, extending dinov3.txt into a dedicated framework for OVSS. Our contributions are four-fold. First, we design a task-specific architecture tailored to this backbone, systematically adapting established design principles from prior open-vocabulary segmentation work. Second, we jointly leverage text embeddings aligned with both the global [CLS] token and local patch-level visual features from ViT-based encoder, effectively combining semantic discrimination with fine-grained spatial locality. Third, unlike prior approaches that rely primarily on post hoc similarity refinement, we perform early refinement of visual representations prior to image-text interaction, followed by late refinement of the resulting image-text correlation features, enabling more accurate and robust dense predictions in cluttered scenes. Finally, we propose a high-resolution local-global inference strategy based on sliding-window aggregation, which preserves spatial detail while maintaining global context. We conduct extensive experiments on five widely adopted OVSS benchmarks to evaluate our approach. The results demonstrate its effectiveness and robustness, consistently outperforming current state-of-the-art methods.