Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model
作者: Zhuo Zheng, Stefano Ermon, Dongjun Kim, Liangpei Zhang, Yanfei Zhong
分类: cs.CV
发布日期: 2024-06-26
备注: The enhanced extension of our ICCV 2023 (Changen)
💡 一句话要点
提出Changen2:一种多时相遥感生成式变化基础模型,用于生成变化数据以训练变化检测模型。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感图像 变化检测 生成模型 扩散模型 自监督学习 基础模型 多时相图像
📋 核心要点
- 现有深度学习方法依赖大量标注的多时相遥感图像,而获取和标注此类数据成本高昂且耗时。
- Changen2通过模拟随机变化过程,生成多时相图像及其变化标签,从而低成本地创建训练数据。
- 实验表明,Changen2具有良好的时空可扩展性,并且预训练模型在零样本变化检测和迁移学习方面表现出色。
📝 摘要(中文)
深度视觉模型在理解地球表面时序动态方面取得了进展,但通常需要大量标注的多时相图像进行训练。然而,大规模收集、预处理和标注多时相遥感图像成本高昂且需要专业知识。本文提出基于生成模型的变化数据生成器Changen2,它廉价且自动,缓解了数据问题。核心思想是模拟随时间变化的随机变化过程,将其描述为概率图模型(GPCM),将复杂的模拟问题分解为变化事件模拟和语义变化合成两个更易处理的子问题。Changen2是一个具有分辨率可扩展扩散Transformer的GPCM,可以从标注或未标注的单时相图像生成图像时间序列及其语义和变化标签。Changen2是一个生成式变化基础模型,可以通过自监督大规模训练,并从未标注的单时相图像产生变化监督信号。与现有基础模型不同,Changen2合成变化数据来训练用于变化检测的特定任务基础模型。由此产生的模型具有固有的零样本变化检测能力和出色的可迁移性。实验表明,Changen2具有卓越的时空可扩展性,例如,在256$^2$像素单时相图像上训练的Changen2模型可以生成任意长度和1,024$^2$像素分辨率的时间序列。Changen2预训练模型表现出卓越的零样本性能(在LEVIR-CD上缩小了3%的性能差距,在S2Looking和SECOND上缩小了约10%,与完全监督的同类模型相比)以及跨多种变化任务的可迁移性。
🔬 方法详解
问题定义:论文旨在解决变化检测模型训练数据不足的问题。现有方法依赖于大量人工标注的多时相遥感图像,这限制了模型的泛化能力和应用范围。痛点在于数据获取成本高昂,且标注过程需要专业知识。
核心思路:论文的核心思路是利用生成模型模拟地球表面的随机变化过程,从而自动生成多时相遥感图像及其对应的变化标签。通过这种方式,可以低成本地获取大量训练数据,用于训练变化检测模型。这样设计的目的是为了摆脱对人工标注数据的依赖,提高模型的泛化能力和鲁棒性。
技术框架:Changen2的技术框架基于概率图模型(GPCM),将复杂的模拟问题分解为两个子问题:变化事件模拟和语义变化合成。首先,GPCM模拟不同类型的变化事件(例如,建筑物增加、植被减少)。然后,利用分辨率可扩展的扩散Transformer,根据模拟的变化事件,合成多时相遥感图像及其语义和变化标签。整体流程是从单时相图像开始,通过GPCM和扩散Transformer生成时间序列图像。
关键创新:Changen2的关键创新在于它是一个生成式变化基础模型,能够通过自监督学习从单时相图像中生成变化监督信号。与现有的基础模型不同,Changen2专注于合成变化数据,用于训练特定任务的变化检测模型。此外,Changen2采用分辨率可扩展的扩散Transformer,使其能够生成任意长度和分辨率的时间序列图像。
关键设计:Changen2的关键设计包括:1) 使用概率图模型(GPCM)来建模变化过程;2) 采用分辨率可扩展的扩散Transformer作为生成器;3) 利用自监督学习策略,从单时相图像中学习变化模式。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
Changen2在多个变化检测数据集上取得了显著的性能提升。例如,在LEVIR-CD数据集上,Changen2预训练模型与完全监督模型相比,性能差距缩小了3%。在S2Looking和SECOND数据集上,性能差距缩小了约10%。此外,Changen2还展示了卓越的时空可扩展性,能够在低分辨率图像上训练,并生成高分辨率的时间序列图像。
🎯 应用场景
Changen2可应用于多种遥感图像变化检测任务,例如城市扩张监测、自然灾害评估、森林砍伐监测等。该模型能够降低数据标注成本,提高变化检测模型的泛化能力和鲁棒性,从而为相关领域的应用提供更可靠的技术支持。未来,Changen2有望推动遥感图像智能解译的发展,为地球观测和环境监测做出贡献。
📄 摘要(原文)
Our understanding of the temporal dynamics of the Earth's surface has been advanced by deep vision models, which often require lots of labeled multi-temporal images for training. However, collecting, preprocessing, and annotating multi-temporal remote sensing images at scale is non-trivial since it is expensive and knowledge-intensive. In this paper, we present change data generators based on generative models, which are cheap and automatic, alleviating these data problems. Our main idea is to simulate a stochastic change process over time. We describe the stochastic change process as a probabilistic graphical model (GPCM), which factorizes the complex simulation problem into two more tractable sub-problems, i.e., change event simulation and semantic change synthesis. To solve these two problems, we present Changen2, a GPCM with a resolution-scalable diffusion transformer which can generate time series of images and their semantic and change labels from labeled or unlabeled single-temporal images. Changen2 is a generative change foundation model that can be trained at scale via self-supervision, and can produce change supervisory signals from unlabeled single-temporal images. Unlike existing foundation models, Changen2 synthesizes change data to train task-specific foundation models for change detection. The resulting model possesses inherent zero-shot change detection capabilities and excellent transferability. Experiments suggest Changen2 has superior spatiotemporal scalability, e.g., Changen2 model trained on 256$^2$ pixel single-temporal images can yield time series of any length and resolutions of 1,024$^2$ pixels. Changen2 pre-trained models exhibit superior zero-shot performance (narrowing the performance gap to 3% on LEVIR-CD and approximately 10% on both S2Looking and SECOND, compared to fully supervised counterparts) and transferability across multiple types of change tasks.