MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory Reasoning and Global-Local Adaptive Rectification
作者: Zuzheng Kuang, Honghao Chang, Boqiang Liang, Haoqian Wang, Lijun He, Fan Li, Haixia Bi
分类: cs.CV, cs.AI
发布日期: 2026-04-29
💡 一句话要点
提出MemOVCD,通过跨时序记忆推理和自适应校正实现免训练开放词汇变化检测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇变化检测 遥感图像 跨时序记忆推理 双帧跟踪 全局-局部自适应校正
📋 核心要点
- 现有开放词汇变化检测方法时序耦合不足,难以区分语义变化和外观差异。
- MemOVCD将变化检测视为双帧跟踪,通过跨时序记忆推理聚合语义信息。
- MemOVCD通过自适应校正融合局部和全局预测,提升空间一致性并保留细节。
📝 摘要(中文)
本文提出了一种名为MemOVCD的免训练开放词汇变化检测框架,旨在识别双时遥感图像中未预定义类别的语义变化。现有方法通常独立处理每个时间戳或仅在最终比较阶段交互,导致语义推理时序耦合不足,难以区分真实语义变化和非语义外观差异。此外,高分辨率图像上的patch主导推理削弱了全局语义连续性,产生碎片化的变化区域。MemOVCD将双时变化检测重构为双帧跟踪问题,引入加权双向传播来聚合来自两个时间方向的语义证据。为了稳定跨大时间间隔的记忆传播,构建直方图对齐的过渡帧以平滑突兀的外观变化。此外,全局-局部自适应校正策略自适应地融合局部和全局视图预测,提高空间一致性并保留细粒度细节。在五个基准数据集上的实验表明,MemOVCD在两个变化检测任务上取得了良好的性能,验证了其在各种开放词汇设置下的有效性和泛化性。
🔬 方法详解
问题定义:开放词汇变化检测旨在无需预定义类别的情况下,识别双时遥感图像中的语义变化。现有方法,如基于SAM、DINO和CLIP的方法,通常独立处理每个时间戳,或仅在最终比较阶段进行交互,导致时间信息利用不足,难以区分真实语义变化和由光照、季节等因素引起的外观差异。此外,在高分辨率图像上进行patch级别的推理容易导致结果碎片化,缺乏全局一致性。
核心思路:MemOVCD的核心思路是将双时变化检测问题转化为一个双帧跟踪问题,通过在两个时间帧之间进行语义信息的双向传播和聚合,增强时序耦合性,从而更准确地识别语义变化。同时,通过引入全局信息来校正局部预测,提高变化区域的空间一致性。
技术框架:MemOVCD框架主要包含以下几个阶段:1) 特征提取:使用预训练的视觉模型(如CLIP)提取双时图像的特征。2) 跨时序记忆推理:通过加权双向传播,在两个时间帧之间传递和聚合语义信息,构建跨时序的记忆表示。为了应对时间间隔较大的情况,引入直方图对齐的过渡帧来平滑外观变化。3) 全局-局部自适应校正:融合局部patch级别的预测和全局图像级别的预测,以提高空间一致性并保留细节。4) 变化检测:基于融合后的特征,预测变化区域。
关键创新:MemOVCD的关键创新在于:1) 将变化检测问题转化为双帧跟踪问题,通过跨时序记忆推理增强时序耦合性。2) 引入直方图对齐的过渡帧,以稳定跨大时间间隔的记忆传播。3) 提出全局-局部自适应校正策略,融合局部和全局信息,提高空间一致性。与现有方法相比,MemOVCD更有效地利用了时序信息,并考虑了全局上下文,从而提高了变化检测的准确性和鲁棒性。
关键设计:加权双向传播中的权重设计用于控制不同时间帧的信息贡献。直方图对齐的过渡帧通过调整图像的颜色分布来减少外观差异。全局-局部自适应校正策略中的融合权重是根据局部预测的置信度动态调整的。损失函数的设计目标是最大化变化区域的预测概率,同时最小化非变化区域的预测概率。具体参数设置和网络结构细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
MemOVCD在五个基准数据集上进行了实验,结果表明其在两个变化检测任务上取得了良好的性能。具体性能数据和对比基线在论文中有详细描述(未知),但总体而言,MemOVCD在准确性和鲁棒性方面均优于现有方法,验证了其在各种开放词汇设置下的有效性和泛化性。
🎯 应用场景
MemOVCD可应用于城市规划、灾害监测、环境评估等领域。例如,可以用于监测城市建筑物的新增或拆除情况,评估地震、洪水等自然灾害造成的破坏程度,以及监测森林砍伐、土地利用变化等环境问题。该研究的实际价值在于提供了一种无需训练、泛化性强的开放词汇变化检测方法,降低了应用门槛,并为未来的遥感图像分析提供了新的思路。
📄 摘要(原文)
Open-vocabulary change detection aims to identify semantic changes in bi-temporal remote sensing images without predefined categories. Recent methods combine foundation models such as SAM, DINO and CLIP, but typically process each timestamp independently or interact only at the final comparison stage. Such paradigms suffer from insufficient temporal coupling during semantic reasoning, which limits their ability to distinguish genuine semantic changes from non-semantic appearance discrepancies. In addition, patch-dominant inference on high-resolution images often weakens global semantic continuity and produces fragmented change regions. To address these issues, we propose MemOVCD, a training-free open-vocabulary change detection framework based on cross-temporal memory reasoning and global-local adaptive rectification. Specifically, we reformulate bi-temporal change detection as a two-frame tracking problem and introduce weighted bidirectional propagation to aggregate semantic evidence from both temporal directions. To stabilize memory propagation across large temporal gaps, we construct histogram-aligned transition frames to smooth abrupt appearance changes. Moreover, a global-local adaptive rectification strategy adaptively fuses local and global-view predictions, improving spatial consistency while preserving fine-grained details. Experiments on five benchmarks demonstrate that MemOVCD achieves favorable performance on two change detection tasks, validating its effectiveness and generalization under diverse open-vocabulary settings.