OV-Stitcher: A Global Context-Aware Framework for Training-Free Open-Vocabulary Semantic Segmentation

📄 arXiv: 2604.08110v2 📥 PDF

作者: Seungjae Moon, Seunghyun Oh, Youngmin Ro

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-04-09 (更新: 2026-04-10)


💡 一句话要点

OV-Stitcher:提出全局上下文感知的免训练开放词汇语义分割框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 免训练学习 全局上下文感知 特征拼接 视觉语言模型

📋 核心要点

  1. 现有免训练开放词汇语义分割方法受限于预训练模型输入分辨率,采用滑动窗口导致特征表示碎片化,缺乏全局上下文推理。
  2. OV-Stitcher通过在最终编码器块中拼接子图像特征,重建全局注意力表示,实现连贯的上下文聚合和空间一致的分割。
  3. 实验结果表明,OV-Stitcher在多个基准测试中显著提升了开放词汇分割的性能,mIoU从48.7提高到50.7。

📝 摘要(中文)

免训练开放词汇语义分割(TF-OVSS)最近因其能够利用大型视觉和视觉-语言模型的预训练知识执行密集预测而备受关注,无需额外训练。然而,由于这些预训练编码器的输入分辨率有限,现有的TF-OVSS方法通常采用滑动窗口策略,独立处理裁剪后的子图像。虽然这种方法有效地管理了高分辨率输入,但它阻止了对完整图像的全局关注,导致碎片化的特征表示和有限的上下文推理。我们提出了OV-Stitcher,一个免训练框架,通过在最终编码器块中直接拼接碎片化的子图像特征来解决这个限制。通过从碎片化的子图像特征重建注意力表示,OV-Stitcher能够在最终编码器块内实现全局注意力,从而产生连贯的上下文聚合和空间一致、语义对齐的分割图。在八个基准上的广泛评估表明,OV-Stitcher为开放词汇分割建立了一个可扩展且有效的解决方案,与之前的免训练基线相比,平均交并比(mIoU)从48.7显著提高到50.7。

🔬 方法详解

问题定义:论文旨在解决免训练开放词汇语义分割任务中,由于预训练视觉模型输入分辨率限制,采用滑动窗口策略导致的特征表示碎片化和上下文推理不足的问题。现有方法无法有效利用全局图像信息,导致分割结果不连贯,语义对齐效果差。

核心思路:OV-Stitcher的核心思路是在最终的编码器块中,将来自不同子图像的特征进行拼接(Stitch),并重建全局注意力机制。通过这种方式,模型可以在处理高分辨率图像的同时,保持对全局上下文的感知能力,从而生成更连贯、语义更准确的分割结果。

技术框架:OV-Stitcher框架主要包含以下几个阶段:1) 输入图像被分割成多个重叠的子图像;2) 每个子图像通过预训练的视觉编码器提取特征;3) 在最终的编码器块中,来自不同子图像的特征被拼接在一起;4) 重建全局注意力机制,允许模型在全局范围内进行上下文推理;5) 生成最终的语义分割图。

关键创新:OV-Stitcher的关键创新在于其特征拼接和全局注意力重建机制。与传统的滑动窗口方法不同,OV-Stitcher不是独立处理每个子图像,而是将它们的信息融合在一起,从而实现了真正的全局上下文感知。这种方法避免了特征表示的碎片化,并提高了分割结果的连贯性和准确性。

关键设计:OV-Stitcher的关键设计包括:1) 子图像的重叠程度,需要仔细调整以平衡计算成本和上下文信息的覆盖范围;2) 特征拼接的方式,需要保证信息的有效融合;3) 全局注意力重建机制的具体实现,例如使用Transformer结构或类似的注意力机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OV-Stitcher在八个基准测试中取得了显著的性能提升,证明了其有效性和泛化能力。与之前的免训练基线相比,OV-Stitcher的平均交并比(mIoU)从48.7提高到50.7,表明该方法能够有效地解决特征碎片化和上下文推理不足的问题,生成更准确、更连贯的语义分割结果。

🎯 应用场景

OV-Stitcher在无需额外训练的情况下,提升了开放词汇语义分割的性能,可广泛应用于自动驾驶、遥感图像分析、医学图像诊断等领域。该方法降低了对大量标注数据的依赖,使得模型能够快速适应新的场景和类别,具有重要的实际应用价值和潜力。

📄 摘要(原文)

Training-free open-vocabulary semantic segmentation(TF-OVSS) has recently attracted attention for its ability to perform dense prediction by leveraging the pretrained knowledge of large vision and vision-language models, without requiring additional training. However, due to the limited input resolution of these pretrained encoders, existing TF-OVSS methods commonly adopt a sliding-window strategy that processes cropped sub-images independently. While effective for managing high-resolution inputs, this approach prevents global attention over the full image, leading to fragmented feature representations and limited contextual reasoning. We propose OV-Stitcher, a training-free framework that addresses this limitation by stitching fragmented sub-image features directly within the final encoder block. By reconstructing attention representations from fragmented sub-image features, OV-Stitcher enables global attention within the final encoder block, producing coherent context aggregation and spatially consistent, semantically aligned segmentation maps. Extensive evaluations across eight benchmarks demonstrate that OV-Stitcher establishes a scalable and effective solution for open-vocabulary segmentation, achieving a notable improvement in mean Intersection over Union(mIoU) from 48.7 to 50.7 compared with prior training-free baselines.