DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception

📄 arXiv: 2507.22346v1 📥 PDF

作者: Pei Deng, Wenqian Zhou, Hanlin Wu

分类: cs.CV

发布日期: 2025-07-30

备注: 12 pages, 5 figures. Submitted to IEEE Transactions on Geoscience and Remote Sensing (TGRS). Code and dataset are available at https://github.com/hanlinwu/DeltaVLM

🔗 代码/项目: GITHUB


💡 一句话要点

DeltaVLM:通过指令引导的差异感知实现交互式遥感图像变化分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像变化分析 视觉问答 多模态学习 交互式分析 指令跟随 双时相图像 视觉差异感知

📋 核心要点

  1. 现有遥感图像变化分析方法缺乏交互性,仅提供静态结果,无法满足用户query驱动的分析需求。
  2. DeltaVLM通过微调双时相视觉编码器、视觉差异感知模块和指令引导的Q-former,实现交互式变化分析。
  3. 实验表明,DeltaVLM在单轮描述和多轮交互式变化分析任务上均优于现有模型,达到SOTA水平。

📝 摘要(中文)

对多时相卫星图像中地物覆盖变化进行精确解读,对于现实场景至关重要。然而,现有方法通常只提供一次性的变化掩码或静态描述,限制了其支持交互式、查询驱动分析的能力。本文提出了遥感图像变化分析(RSICA)这一新范式,它结合了变化检测和视觉问答的优势,从而能够对双时相遥感图像中的变化进行多轮、指令引导的探索。为了支持这项任务,我们构建了ChangeChat-105k,这是一个大规模的指令跟随数据集,通过基于规则和GPT辅助的混合过程生成,涵盖六种交互类型:变化描述、分类、量化、定位、开放式问答和多轮对话。基于此数据集,我们提出了DeltaVLM,一个为交互式RSICA量身定制的端到端架构。DeltaVLM具有三个创新点:(1)一个微调的双时相视觉编码器,用于捕获时间差异;(2)一个具有跨语义关系测量(CSRM)机制的视觉差异感知模块,用于解释变化;(3)一个指令引导的Q-former,用于有效地从视觉变化中提取查询相关的差异信息,并将它们与文本指令对齐。我们使用冻结的大型语言模型在ChangeChat-105k上训练DeltaVLM,仅调整视觉和对齐模块以优化效率。大量的实验和消融研究表明,DeltaVLM在单轮描述和多轮交互式变化分析方面都取得了最先进的性能,优于现有的多模态大型语言模型和遥感视觉-语言模型。

🔬 方法详解

问题定义:论文旨在解决遥感图像变化分析中缺乏交互性的问题。现有方法通常只能提供一次性的变化检测结果或静态的文字描述,无法根据用户的具体查询进行深入分析和探索,限制了其在实际应用中的价值。

核心思路:论文的核心思路是结合变化检测和视觉问答的优势,构建一个能够进行多轮交互、指令引导的遥感图像变化分析系统。通过引入指令,系统可以根据用户的具体需求,提供更精确、更细致的变化信息。

技术框架:DeltaVLM的整体架构是一个端到端的视觉-语言模型,主要包含三个模块:1) 微调的双时相视觉编码器,用于提取双时相遥感图像的特征,并捕捉时间差异;2) 视觉差异感知模块,通过跨语义关系测量(CSRM)机制,解释图像中的变化;3) 指令引导的Q-former,用于从视觉变化中提取与用户查询相关的差异信息,并将视觉信息与文本指令对齐。

关键创新:DeltaVLM的关键创新在于其视觉差异感知模块和指令引导的Q-former。视觉差异感知模块通过CSRM机制,能够更准确地捕捉图像中的细微变化。指令引导的Q-former则能够根据用户的指令,有选择性地提取与查询相关的变化信息,从而提高系统的交互性和分析能力。与现有方法相比,DeltaVLM能够进行多轮交互,并根据用户的指令提供更精确的变化信息。

关键设计:DeltaVLM使用冻结的大型语言模型,只对视觉和对齐模块进行训练,以提高训练效率。ChangeChat-105k数据集包含六种交互类型:变化描述、分类、量化、定位、开放式问答和多轮对话。CSRM机制的具体实现细节(例如,如何计算跨语义关系)以及Q-former的具体结构和训练方式(例如,损失函数的设计)在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeltaVLM在ChangeChat-105k数据集上进行了广泛的实验,结果表明,DeltaVLM在单轮描述和多轮交互式变化分析任务上均取得了最先进的性能,优于现有的多模态大型语言模型和遥感视觉-语言模型。具体的性能数据和提升幅度需要在论文中查找(未知)。

🎯 应用场景

DeltaVLM在环境监测、城市规划、灾害评估等领域具有广泛的应用前景。通过交互式地分析遥感图像的变化,可以帮助用户更好地了解地物覆盖的变化情况,从而为决策提供支持。例如,可以用于监测森林砍伐、城市扩张、水体变化等,并评估自然灾害的影响。

📄 摘要(原文)

Accurate interpretation of land-cover changes in multi-temporal satellite imagery is critical for real-world scenarios. However, existing methods typically provide only one-shot change masks or static captions, limiting their ability to support interactive, query-driven analysis. In this work, we introduce remote sensing image change analysis (RSICA) as a new paradigm that combines the strengths of change detection and visual question answering to enable multi-turn, instruction-guided exploration of changes in bi-temporal remote sensing images. To support this task, we construct ChangeChat-105k, a large-scale instruction-following dataset, generated through a hybrid rule-based and GPT-assisted process, covering six interaction types: change captioning, classification, quantification, localization, open-ended question answering, and multi-turn dialogues. Building on this dataset, we propose DeltaVLM, an end-to-end architecture tailored for interactive RSICA. DeltaVLM features three innovations: (1) a fine-tuned bi-temporal vision encoder to capture temporal differences; (2) a visual difference perception module with a cross-semantic relation measuring (CSRM) mechanism to interpret changes; and (3) an instruction-guided Q-former to effectively extract query-relevant difference information from visual changes, aligning them with textual instructions. We train DeltaVLM on ChangeChat-105k using a frozen large language model, adapting only the vision and alignment modules to optimize efficiency. Extensive experiments and ablation studies demonstrate that DeltaVLM achieves state-of-the-art performance on both single-turn captioning and multi-turn interactive change analysis, outperforming existing multimodal large language models and remote sensing vision-language models. Code, dataset and pre-trained weights are available at https://github.com/hanlinwu/DeltaVLM.