DynamicEarth: How Far are We from Open-Vocabulary Change Detection?

📄 arXiv: 2501.12931v1 📥 PDF

作者: Kaiyu Li, Xiangyong Cao, Yupeng Deng, Chao Pang, Zepeng Xin, Deyu Meng, Zhi Wang

分类: cs.CV

发布日期: 2025-01-22

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出开放词汇变化检测以解决现有方法的局限性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇变化检测 变化检测 视觉与语言 无监督学习 环境监测 城市规划 基础模型

📋 核心要点

  1. 现有变化检测方法依赖于预定义类别,限制了其在开放世界应用中的有效性,无法适应多样化的变化场景。
  2. 提出开放词汇变化检测(OVCD)任务,利用无训练框架M-C-I和I-M-C,结合视觉与语言进行变化检测。
  3. 在五个基准数据集上的评估显示,OVCD方法在泛化能力和鲁棒性上显著优于现有的监督和无监督方法。

📝 摘要(中文)

监测地球不断变化的土地覆盖需要能够跨越多种类别和上下文检测变化的方法。现有的变化检测方法依赖于预定义类别,限制了其在开放世界应用中的有效性。为了解决这一问题,本文提出了开放词汇变化检测(OVCD)这一新任务,结合视觉与语言,检测任意类别的变化。考虑到高质量数据和注释的缺乏,本文提出了两个无训练框架M-C-I和I-M-C,利用现成的基础模型进行OVCD任务。通过对五个基准数据集的广泛评估,证明了我们的OVCD方法在泛化能力和鲁棒性方面优于现有的监督和无监督方法。我们还发布了DynamicEarth代码库,以支持OVCD的研究和应用。

🔬 方法详解

问题定义:本文旨在解决现有变化检测方法对预定义类别的依赖性,导致其在开放世界应用中的局限性。现有方法无法有效检测多样化的变化,限制了其应用范围。

核心思路:提出开放词汇变化检测(OVCD)任务,通过无训练框架M-C-I和I-M-C,结合视觉与语言的优势,检测任意类别的变化。M-C-I框架首先发现所有潜在变化,然后进行分类;而I-M-C框架则识别所有感兴趣的目标,并判断其状态是否发生变化。

技术框架:整体架构包括两个主要框架:M-C-I和I-M-C。M-C-I框架专注于变化的发现与分类,而I-M-C框架则专注于目标识别与状态判断。这两个框架均利用现成的基础模型,避免了对高质量标注数据的依赖。

关键创新:最重要的技术创新在于提出了开放词汇变化检测这一新任务,打破了传统变化检测方法的限制,使其能够适应多样化的变化场景。

关键设计:在框架设计中,M-C-I和I-M-C的具体实现依赖于现成的基础模型,如SAM-DINOv2和Grounding-DINO,确保了方法的灵活性和适应性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,OVCD方法在五个基准数据集上的表现优于现有的监督和无监督方法,尤其在泛化能力和鲁棒性方面,提升幅度达到20%以上,显示出其在实际应用中的潜力。

🎯 应用场景

该研究的潜在应用领域包括环境监测、城市规划和灾害管理等。通过开放词汇变化检测,能够更有效地识别和监测土地覆盖变化,提升决策支持系统的智能化水平,具有重要的实际价值和未来影响。

📄 摘要(原文)

Monitoring Earth's evolving land covers requires methods capable of detecting changes across a wide range of categories and contexts. Existing change detection methods are hindered by their dependency on predefined classes, reducing their effectiveness in open-world applications. To address this issue, we introduce open-vocabulary change detection (OVCD), a novel task that bridges vision and language to detect changes across any category. Considering the lack of high-quality data and annotation, we propose two training-free frameworks, M-C-I and I-M-C, which leverage and integrate off-the-shelf foundation models for the OVCD task. The insight behind the M-C-I framework is to discover all potential changes and then classify these changes, while the insight of I-M-C framework is to identify all targets of interest and then determine whether their states have changed. Based on these two frameworks, we instantiate to obtain several methods, e.g., SAM-DINOv2-SegEarth-OV, Grounding-DINO-SAM2-DINO, etc. Extensive evaluations on 5 benchmark datasets demonstrate the superior generalization and robustness of our OVCD methods over existing supervised and unsupervised methods. To support continued exploration, we release DynamicEarth, a dedicated codebase designed to advance research and application of OVCD. https://likyoo.github.io/DynamicEarth