SemiCD-VL: Visual-Language Model Guidance Makes Better Semi-supervised Change Detector

📄 arXiv: 2405.04788v5 📥 PDF

作者: Kaiyu Li, Xiangyong Cao, Yupeng Deng, Jiayi Song, Junmin Liu, Deyu Meng, Zhi Wang

分类: cs.CV

发布日期: 2024-05-08 (更新: 2024-12-01)

备注: 13 pages, 6 figures


💡 一句话要点

提出SemiCD-VL,利用视觉语言模型指导半监督变化检测,提升小样本性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 半监督学习 变化检测 视觉语言模型 伪标签 对比学习

📋 核心要点

  1. 现有变化检测方法依赖大量标注数据,标注成本高昂,尤其多时相图像需要专家逐像素比较。
  2. SemiCD-VL利用视觉语言模型生成伪标签,为未标注数据提供额外监督信号,提升模型性能。
  3. 实验表明,SemiCD-VL在WHU-CD和LEVIR-CD数据集上,相比FixMatch基线有显著的IoU提升。

📝 摘要(中文)

变化检测(CD)旨在识别图像之间语义发生变化的像素。然而,对大量的像素级图像进行标注是劳动密集且成本高昂的,特别是对于多时相图像,需要人工专家进行逐像素比较。考虑到视觉语言模型(VLM)在zero-shot、开放词汇等任务上的出色表现,以及基于prompt的推理能力,利用VLM在有限的标注数据下实现更好的CD是有前景的。本文提出了一种基于VLM指导的半监督CD方法,即SemiCD-VL。SemiCD-VL的核心思想是利用VLM合成自由的变化标签,为未标注数据提供额外的监督信号。然而,目前几乎所有的VLM都是为单时相图像设计的,不能直接应用于双时相或多时相图像。为此,我们首先提出了一种基于VLM的混合变化事件生成(CEG)策略,为未标注的CD数据生成伪标签。由于这些VLM驱动的伪标签提供的额外监督信号可能与来自一致性正则化范式(例如FixMatch)的伪标签冲突,我们提出了双投影头来解耦不同的信号源。此外,我们通过两个辅助分割解码器显式地解耦了双时相图像的语义表示,这些解码器也由VLM指导。最后,为了使模型更充分地捕获变化表示,我们在辅助分支中引入了度量感知监督,通过特征级对比损失来实现。大量的实验表明了SemiCD-VL的优势。例如,SemiCD-VL在5%标签的情况下,在WHU-CD上将FixMatch基线提高了+5.3 IoU,在LEVIR-CD上提高了+2.4 IoU。此外,我们的CEG策略以无监督的方式实现了远超最先进的无监督CD方法的性能。

🔬 方法详解

问题定义:变化检测任务需要大量像素级标注数据,成本高昂。现有方法在小样本情况下性能不佳,难以满足实际应用需求。视觉语言模型在单时相图像理解方面表现出色,但缺乏直接应用于多时相变化检测的能力。

核心思路:利用视觉语言模型(VLM)生成伪标签,为半监督变化检测提供额外的监督信息。通过混合变化事件生成策略(CEG)生成更可靠的伪标签,并设计双投影头解耦不同来源的监督信号,避免冲突。

技术框架:SemiCD-VL包含以下主要模块:1) VLM-based Mixed Change Event Generation (CEG):生成伪标签;2) Dual Projection Head:解耦VLM伪标签和一致性正则化伪标签的监督信号;3) Auxiliary Segmentation Decoders:解耦双时相图像的语义表示,并由VLM指导;4) Metric-aware Supervision:通过特征级对比损失,增强模型对变化表示的捕获能力。整体流程是先用CEG生成伪标签,然后利用双投影头和辅助解码器进行训练,最后通过对比损失优化特征表示。

关键创新:1) 提出VLM-based Mixed Change Event Generation (CEG)策略,将VLM应用于多时相变化检测,生成高质量伪标签。2) 设计Dual Projection Head,有效解耦不同来源的监督信号,避免冲突,提升模型训练稳定性。3) 引入Metric-aware Supervision,通过特征级对比学习,增强模型对变化区域的特征表达能力。

关键设计:CEG策略通过prompt工程,引导VLM生成包含多种变化事件的描述,从而生成更丰富的伪标签。双投影头采用两个独立的线性层,分别处理VLM伪标签和一致性正则化伪标签的梯度信息。辅助分割解码器采用轻量级网络结构,以减少计算负担。对比损失采用InfoNCE损失函数,优化特征空间中的相似性和区分性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SemiCD-VL在WHU-CD数据集上,使用5%的标注数据,相比FixMatch基线提升了5.3%的IoU。在LEVIR-CD数据集上,使用5%的标注数据,相比FixMatch基线提升了2.4%的IoU。CEG策略在无监督变化检测任务中,性能远超当前最优的无监督方法。

🎯 应用场景

该研究成果可应用于遥感图像变化检测、城市规划、灾害监测、环境评估等领域。通过减少对大量标注数据的依赖,降低了变化检测的应用成本,加速了相关技术的落地。未来可进一步扩展到视频变化检测、医学图像分析等领域。

📄 摘要(原文)

Change Detection (CD) aims to identify pixels with semantic changes between images. However, annotating massive numbers of pixel-level images is labor-intensive and costly, especially for multi-temporal images, which require pixel-wise comparisons by human experts. Considering the excellent performance of visual language models (VLMs) for zero-shot, open-vocabulary, etc. with prompt-based reasoning, it is promising to utilize VLMs to make better CD under limited labeled data. In this paper, we propose a VLM guidance-based semi-supervised CD method, namely SemiCD-VL. The insight of SemiCD-VL is to synthesize free change labels using VLMs to provide additional supervision signals for unlabeled data. However, almost all current VLMs are designed for single-temporal images and cannot be directly applied to bi- or multi-temporal images. Motivated by this, we first propose a VLM-based mixed change event generation (CEG) strategy to yield pseudo labels for unlabeled CD data. Since the additional supervised signals provided by these VLM-driven pseudo labels may conflict with the pseudo labels from the consistency regularization paradigm (e.g. FixMatch), we propose the dual projection head for de-entangling different signal sources. Further, we explicitly decouple the bi-temporal images semantic representation through two auxiliary segmentation decoders, which are also guided by VLM. Finally, to make the model more adequately capture change representations, we introduce metric-aware supervision by feature-level contrastive loss in auxiliary branches. Extensive experiments show the advantage of SemiCD-VL. For instance, SemiCD-VL improves the FixMatch baseline by +5.3 IoU on WHU-CD and by +2.4 IoU on LEVIR-CD with 5% labels. In addition, our CEG strategy, in an un-supervised manner, can achieve performance far superior to state-of-the-art un-supervised CD methods.