SemiCD-VL: Visual-Language Model Guidance Makes Better Semi-supervised Change Detector

作者: Kaiyu Li, Xiangyong Cao, Yupeng Deng, Jiayi Song, Junmin Liu, Deyu Meng, Zhi Wang

分类: cs.CV

发布日期: 2024-05-08 (更新: 2024-12-01)

备注: 13 pages, 6 figures

💡 一句话要点

提出SemiCD-VL，利用视觉语言模型指导半监督变化检测，提升小样本性能。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 半监督学习 变化检测 视觉语言模型 伪标签 对比学习

📋 核心要点

现有变化检测方法依赖大量标注数据，标注成本高昂，尤其多时相图像需要专家逐像素比较。
SemiCD-VL利用视觉语言模型生成伪标签，为未标注数据提供额外监督信号，提升模型性能。
实验表明，SemiCD-VL在WHU-CD和LEVIR-CD数据集上，相比FixMatch基线有显著的IoU提升。

📝 摘要（中文）

变化检测(CD)旨在识别图像之间语义发生变化的像素。然而，对大量的像素级图像进行标注是劳动密集且成本高昂的，特别是对于多时相图像，需要人工专家进行逐像素比较。考虑到视觉语言模型(VLM)在zero-shot、开放词汇等任务上的出色表现，以及基于prompt的推理能力，利用VLM在有限的标注数据下实现更好的CD是有前景的。本文提出了一种基于VLM指导的半监督CD方法，即SemiCD-VL。SemiCD-VL的核心思想是利用VLM合成自由的变化标签，为未标注数据提供额外的监督信号。然而，目前几乎所有的VLM都是为单时相图像设计的，不能直接应用于双时相或多时相图像。为此，我们首先提出了一种基于VLM的混合变化事件生成(CEG)策略，为未标注的CD数据生成伪标签。由于这些VLM驱动的伪标签提供的额外监督信号可能与来自一致性正则化范式(例如FixMatch)的伪标签冲突，我们提出了双投影头来解耦不同的信号源。此外，我们通过两个辅助分割解码器显式地解耦了双时相图像的语义表示，这些解码器也由VLM指导。最后，为了使模型更充分地捕获变化表示，我们在辅助分支中引入了度量感知监督，通过特征级对比损失来实现。大量的实验表明了SemiCD-VL的优势。例如，SemiCD-VL在5%标签的情况下，在WHU-CD上将FixMatch基线提高了+5.3 IoU，在LEVIR-CD上提高了+2.4 IoU。此外，我们的CEG策略以无监督的方式实现了远超最先进的无监督CD方法的性能。

🔬 方法详解

问题定义：变化检测任务需要大量像素级标注数据，成本高昂。现有方法在小样本情况下性能不佳，难以满足实际应用需求。视觉语言模型在单时相图像理解方面表现出色，但缺乏直接应用于多时相变化检测的能力。

核心思路：利用视觉语言模型（VLM）生成伪标签，为半监督变化检测提供额外的监督信息。通过混合变化事件生成策略（CEG）生成更可靠的伪标签，并设计双投影头解耦不同来源的监督信号，避免冲突。

技术框架：SemiCD-VL包含以下主要模块：1) VLM-based Mixed Change Event Generation (CEG)：生成伪标签；2) Dual Projection Head：解耦VLM伪标签和一致性正则化伪标签的监督信号；3) Auxiliary Segmentation Decoders：解耦双时相图像的语义表示，并由VLM指导；4) Metric-aware Supervision：通过特征级对比损失，增强模型对变化表示的捕获能力。整体流程是先用CEG生成伪标签，然后利用双投影头和辅助解码器进行训练，最后通过对比损失优化特征表示。

关键创新：1) 提出VLM-based Mixed Change Event Generation (CEG)策略，将VLM应用于多时相变化检测，生成高质量伪标签。2) 设计Dual Projection Head，有效解耦不同来源的监督信号，避免冲突，提升模型训练稳定性。3) 引入Metric-aware Supervision，通过特征级对比学习，增强模型对变化区域的特征表达能力。

关键设计：CEG策略通过prompt工程，引导VLM生成包含多种变化事件的描述，从而生成更丰富的伪标签。双投影头采用两个独立的线性层，分别处理VLM伪标签和一致性正则化伪标签的梯度信息。辅助分割解码器采用轻量级网络结构，以减少计算负担。对比损失采用InfoNCE损失函数，优化特征空间中的相似性和区分性。

🖼️ 关键图片

📊 实验亮点

SemiCD-VL在WHU-CD数据集上，使用5%的标注数据，相比FixMatch基线提升了5.3%的IoU。在LEVIR-CD数据集上，使用5%的标注数据，相比FixMatch基线提升了2.4%的IoU。CEG策略在无监督变化检测任务中，性能远超当前最优的无监督方法。

🎯 应用场景

该研究成果可应用于遥感图像变化检测、城市规划、灾害监测、环境评估等领域。通过减少对大量标注数据的依赖，降低了变化检测的应用成本，加速了相关技术的落地。未来可进一步扩展到视频变化检测、医学图像分析等领域。

📄 摘要（原文）

Change Detection (CD) aims to identify pixels with semantic changes between images. However, annotating massive numbers of pixel-level images is labor-intensive and costly, especially for multi-temporal images, which require pixel-wise comparisons by human experts. Considering the excellent performance of visual language models (VLMs) for zero-shot, open-vocabulary, etc. with prompt-based reasoning, it is promising to utilize VLMs to make better CD under limited labeled data. In this paper, we propose a VLM guidance-based semi-supervised CD method, namely SemiCD-VL. The insight of SemiCD-VL is to synthesize free change labels using VLMs to provide additional supervision signals for unlabeled data. However, almost all current VLMs are designed for single-temporal images and cannot be directly applied to bi- or multi-temporal images. Motivated by this, we first propose a VLM-based mixed change event generation (CEG) strategy to yield pseudo labels for unlabeled CD data. Since the additional supervised signals provided by these VLM-driven pseudo labels may conflict with the pseudo labels from the consistency regularization paradigm (e.g. FixMatch), we propose the dual projection head for de-entangling different signal sources. Further, we explicitly decouple the bi-temporal images semantic representation through two auxiliary segmentation decoders, which are also guided by VLM. Finally, to make the model more adequately capture change representations, we introduce metric-aware supervision by feature-level contrastive loss in auxiliary branches. Extensive experiments show the advantage of SemiCD-VL. For instance, SemiCD-VL improves the FixMatch baseline by +5.3 IoU on WHU-CD and by +2.4 IoU on LEVIR-CD with 5% labels. In addition, our CEG strategy, in an un-supervised manner, can achieve performance far superior to state-of-the-art un-supervised CD methods.

SemiCD-VL: Visual-Language Model Guidance Makes Better Semi-supervised Change Detector

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理