OV-Stitcher: A Global Context-Aware Framework for Training-Free Open-Vocabulary Semantic Segmentation

📄 arXiv: 2604.08110v1 📥 PDF

作者: Seungjae Moon, Seunghyun Oh, Youngmin Ro

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-04-09


💡 一句话要点

OV-Stitcher:提出全局上下文感知的免训练开放词汇语义分割框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 免训练学习 全局上下文 特征拼接 注意力机制

📋 核心要点

  1. 现有免训练开放词汇语义分割方法受限于预训练模型输入分辨率,采用滑动窗口导致特征表示碎片化,缺乏全局上下文推理。
  2. OV-Stitcher通过在最终编码器块中拼接子图像特征,重建注意力表示,从而实现全局注意力,聚合上下文信息。
  3. 实验结果表明,OV-Stitcher在多个基准测试中显著提升了分割性能,平均交并比从48.7提高到50.7。

📝 摘要(中文)

免训练开放词汇语义分割(TF-OVSS)最近因其能够利用大型视觉和视觉-语言模型的预训练知识执行密集预测而备受关注,无需额外训练。然而,由于这些预训练编码器的输入分辨率有限,现有的TF-OVSS方法通常采用滑动窗口策略,独立处理裁剪后的子图像。虽然这种方法有效地管理了高分辨率输入,但它阻止了对完整图像的全局关注,导致碎片化的特征表示和有限的上下文推理。我们提出了OV-Stitcher,一个免训练框架,通过在最终编码器块中直接拼接碎片化的子图像特征来解决这个限制。通过从碎片化的子图像特征重建注意力表示,OV-Stitcher能够在最终编码器块内实现全局注意力,从而产生连贯的上下文聚合和空间一致、语义对齐的分割图。在八个基准测试上的广泛评估表明,OV-Stitcher为开放词汇分割建立了一个可扩展且有效的解决方案,与之前的免训练基线相比,平均交并比(mIoU)从48.7显著提高到50.7。

🔬 方法详解

问题定义:论文旨在解决免训练开放词汇语义分割任务中,由于预训练模型输入分辨率限制而导致的上下文信息缺失问题。现有方法通常采用滑动窗口策略处理高分辨率图像,但这种方法将图像分割成多个子图像独立处理,忽略了图像的全局上下文信息,导致分割结果不连贯,语义对齐效果差。

核心思路:OV-Stitcher的核心思路是在最终的编码器块中,将来自不同子图像的特征进行拼接(Stitch),从而恢复全局上下文信息。通过重建注意力表示,使得模型能够在全局范围内进行推理,生成空间一致且语义对齐的分割图。

技术框架:OV-Stitcher框架主要包含以下几个阶段:1) 输入图像被分割成多个重叠的子图像;2) 每个子图像通过预训练的视觉或视觉-语言编码器提取特征;3) 在最终的编码器块中,来自不同子图像的特征被拼接在一起;4) 通过重建的注意力机制,模型学习全局上下文信息;5) 生成最终的语义分割图。

关键创新:OV-Stitcher的关键创新在于其特征拼接策略和注意力重建机制。通过在最终编码器块中直接拼接子图像特征,OV-Stitcher能够有效地恢复全局上下文信息,克服了滑动窗口策略的局限性。注意力重建机制则允许模型在全局范围内进行推理,生成更准确、更连贯的分割结果。

关键设计:OV-Stitcher的关键设计包括:1) 子图像的重叠程度,这影响了上下文信息的恢复程度;2) 特征拼接的方式,例如直接拼接或使用可学习的权重进行融合;3) 注意力重建机制的具体实现,例如使用Transformer或其他注意力模型。论文中具体参数设置和网络结构的细节未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OV-Stitcher在八个基准测试中取得了显著的性能提升,证明了其有效性。与之前的免训练基线相比,OV-Stitcher的平均交并比(mIoU)从48.7提高到50.7,提升了2个百分点。这一结果表明,通过恢复全局上下文信息,OV-Stitcher能够生成更准确、更连贯的语义分割结果。

🎯 应用场景

OV-Stitcher在无需额外训练的情况下,即可实现开放词汇语义分割,具有广泛的应用前景。例如,可以应用于自动驾驶场景中的道路理解、机器人导航中的环境感知、医学图像分析中的病灶检测等领域。该研究降低了语义分割模型的训练成本,加速了其在实际场景中的部署。

📄 摘要(原文)

Training-free open-vocabulary semantic segmentation(TF-OVSS) has recently attracted attention for its ability to perform dense prediction by leveraging the pretrained knowledge of large vision and vision-language models, without requiring additional training. However, due to the limited input resolution of these pretrained encoders, existing TF-OVSS methods commonly adopt a sliding-window strategy that processes cropped sub-images independently. While effective for managing high-resolution inputs, this approach prevents global attention over the full image, leading to fragmented feature representations and limited contextual reasoning. We propose OV-Stitcher, a training-free framework that addresses this limitation by stitching fragmented sub-image features directly within the final encoder block. By reconstructing attention representations from fragmented sub-image features, OV-Stitcher enables global attention within the final encoder block, producing coherent context aggregation and spatially consistent, semantically aligned segmentation maps. Extensive evaluations across eight benchmarks demonstrate that OV-Stitcher establishes a scalable and effective solution for open-vocabulary segmentation, achieving a notable improvement in mean Intersection over Union(mIoU) from 48.7 to 50.7 compared with prior training-free baselines.