OmniOVCD: Streamlining Open-Vocabulary Change Detection with SAM 3

📄 arXiv: 2601.13895v1 📥 PDF

作者: Xu Zhang, Danyang Li, Yingjie Xia, Xiaohang Dong, Hualong Yu, Jianye Wang, Qicheng Li

分类: cs.CV, cs.AI

发布日期: 2026-01-20


💡 一句话要点

提出OmniOVCD框架,利用SAM进行开放词汇变化检测,实现SOTA性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇变化检测 遥感图像 Segment Anything Model 协同融合 实例解耦

📋 核心要点

  1. 现有开放词汇变化检测方法依赖多个模型,导致特征匹配困难和系统不稳定。
  2. OmniOVCD利用SAM的解耦输出头,提出SFID策略,融合语义、实例和存在性信息。
  3. 实验结果表明,OmniOVCD在多个数据集上超越现有方法,达到SOTA性能。

📝 摘要(中文)

变化检测(CD)是遥感领域的一项基本任务,用于监测地表覆盖随时间的演变。开放词汇变化检测(OVCD)引入了新的需求,旨在减少对预定义类别的依赖。现有的免训练OVCD方法大多使用CLIP来识别类别,并且需要额外的模型(如DINO)来提取特征。然而,组合不同的模型常常导致特征匹配问题,并使系统不稳定。最近,Segment Anything Model (SAM)被引入,它在一个可提示模型中集成了分割和识别能力,为OVCD任务提供了新的可能性。本文提出了OmniOVCD,一个专为OVCD设计的独立框架。通过利用SAM的解耦输出头,我们提出了一种协同融合到实例解耦(SFID)策略。SFID首先融合SAM的语义、实例和存在性输出,以构建地表覆盖掩码,然后将其分解为单独的实例掩码以进行变化比较。这种设计保持了类别识别的高精度,并保持了图像间实例级别的一致性。因此,该模型可以生成准确的变化掩码。在四个公共基准(LEVIR-CD、WHU-CD、S2Looking和SECOND)上的实验表明,该方法达到了SOTA性能,分别实现了67.2、66.5、24.5和27.1(类平均)的IoU分数,超过了所有先前的方法。

🔬 方法详解

问题定义:开放词汇变化检测旨在检测图像中发生的变化,而无需预先定义类别。现有方法通常依赖于CLIP等模型进行类别识别,并结合DINO等模型提取特征。这种多模型组合的方式容易导致特征不匹配,增加系统复杂性,并可能影响检测精度。因此,如何设计一个简洁高效的框架,实现准确的开放词汇变化检测,是本文要解决的问题。

核心思路:本文的核心思路是利用Segment Anything Model (SAM) 的强大分割和识别能力,构建一个独立的OVCD框架。SAM能够同时输出语义、实例和存在性信息,为变化检测提供了丰富的特征来源。通过巧妙地融合这些信息,可以有效地识别和分割变化区域,避免了多模型组合带来的问题。

技术框架:OmniOVCD框架主要包括以下几个阶段:1) 使用SAM对两幅不同时期的图像进行分割,获得语义、实例和存在性输出。2) 采用Synergistic Fusion to Instance Decoupling (SFID) 策略,将SAM的输出进行融合,生成地表覆盖掩码。3) 将地表覆盖掩码分解为单独的实例掩码,以便进行实例级别的变化比较。4) 通过比较不同时期图像的实例掩码,生成最终的变化掩码。

关键创新:本文最重要的技术创新点在于提出了SFID策略。SFID策略能够有效地融合SAM的语义、实例和存在性信息,从而生成高质量的地表覆盖掩码。与现有方法相比,SFID策略避免了多模型组合带来的特征匹配问题,提高了变化检测的精度和效率。

关键设计:SFID策略的具体实现包括以下几个步骤:首先,将SAM的语义输出作为初始掩码。然后,利用实例输出对初始掩码进行细化,区分不同的实例。最后,利用存在性输出过滤掉不确定区域,提高掩码的准确性。此外,论文还可能涉及一些后处理步骤,例如形态学操作,以进一步优化变化掩码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniOVCD在LEVIR-CD、WHU-CD、S2Looking和SECOND四个公共基准数据集上取得了显著的性能提升,IoU分别达到67.2%、66.5%、24.5%和27.1%(类平均),超越了所有已知的开放词汇变化检测方法,证明了该框架的有效性和优越性。

🎯 应用场景

OmniOVCD可广泛应用于遥感图像分析、城市规划、灾害监测、环境评估等领域。通过自动检测地表覆盖的变化,该技术能够为决策者提供及时准确的信息,支持科学决策和资源管理。未来,该技术有望与无人机、卫星等平台结合,实现实时变化监测,为社会发展和环境保护做出更大贡献。

📄 摘要(原文)

Change Detection (CD) is a fundamental task in remote sensing. It monitors the evolution of land cover over time. Based on this, Open-Vocabulary Change Detection (OVCD) introduces a new requirement. It aims to reduce the reliance on predefined categories. Existing training-free OVCD methods mostly use CLIP to identify categories. These methods also need extra models like DINO to extract features. However, combining different models often causes problems in matching features and makes the system unstable. Recently, the Segment Anything Model 3 (SAM 3) is introduced. It integrates segmentation and identification capabilities within one promptable model, which offers new possibilities for the OVCD task. In this paper, we propose OmniOVCD, a standalone framework designed for OVCD. By leveraging the decoupled output heads of SAM 3, we propose a Synergistic Fusion to Instance Decoupling (SFID) strategy. SFID first fuses the semantic, instance, and presence outputs of SAM 3 to construct land-cover masks, and then decomposes them into individual instance masks for change comparison. This design preserves high accuracy in category recognition and maintains instance-level consistency across images. As a result, the model can generate accurate change masks. Experiments on four public benchmarks (LEVIR-CD, WHU-CD, S2Looking, and SECOND) demonstrate SOTA performance, achieving IoU scores of 67.2, 66.5, 24.5, and 27.1 (class-average), respectively, surpassing all previous methods.