DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception

作者: Pei Deng, Wenqian Zhou, Hanlin Wu

分类: cs.CV

发布日期: 2025-07-30

备注: 12 pages, 5 figures. Submitted to IEEE Transactions on Geoscience and Remote Sensing (TGRS). Code and dataset are available at https://github.com/hanlinwu/DeltaVLM

🔗 代码/项目: GITHUB

💡 一句话要点

DeltaVLM：通过指令引导的差异感知实现交互式遥感图像变化分析

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感图像变化分析 视觉问答 多模态学习 交互式分析 指令跟随 双时相图像 视觉差异感知

📋 核心要点

现有遥感图像变化分析方法缺乏交互性，仅提供静态结果，无法满足用户query驱动的分析需求。
DeltaVLM通过微调双时相视觉编码器、视觉差异感知模块和指令引导的Q-former，实现交互式变化分析。
实验表明，DeltaVLM在单轮描述和多轮交互式变化分析任务上均优于现有模型，达到SOTA水平。

📝 摘要（中文）

对多时相卫星图像中地物覆盖变化进行精确解读，对于现实场景至关重要。然而，现有方法通常只提供一次性的变化掩码或静态描述，限制了其支持交互式、查询驱动分析的能力。本文提出了遥感图像变化分析（RSICA）这一新范式，它结合了变化检测和视觉问答的优势，从而能够对双时相遥感图像中的变化进行多轮、指令引导的探索。为了支持这项任务，我们构建了ChangeChat-105k，这是一个大规模的指令跟随数据集，通过基于规则和GPT辅助的混合过程生成，涵盖六种交互类型：变化描述、分类、量化、定位、开放式问答和多轮对话。基于此数据集，我们提出了DeltaVLM，一个为交互式RSICA量身定制的端到端架构。DeltaVLM具有三个创新点：（1）一个微调的双时相视觉编码器，用于捕获时间差异；（2）一个具有跨语义关系测量（CSRM）机制的视觉差异感知模块，用于解释变化；（3）一个指令引导的Q-former，用于有效地从视觉变化中提取查询相关的差异信息，并将它们与文本指令对齐。我们使用冻结的大型语言模型在ChangeChat-105k上训练DeltaVLM，仅调整视觉和对齐模块以优化效率。大量的实验和消融研究表明，DeltaVLM在单轮描述和多轮交互式变化分析方面都取得了最先进的性能，优于现有的多模态大型语言模型和遥感视觉-语言模型。

🔬 方法详解

问题定义：论文旨在解决遥感图像变化分析中缺乏交互性的问题。现有方法通常只能提供一次性的变化检测结果或静态的文字描述，无法根据用户的具体查询进行深入分析和探索，限制了其在实际应用中的价值。

核心思路：论文的核心思路是结合变化检测和视觉问答的优势，构建一个能够进行多轮交互、指令引导的遥感图像变化分析系统。通过引入指令，系统可以根据用户的具体需求，提供更精确、更细致的变化信息。

技术框架：DeltaVLM的整体架构是一个端到端的视觉-语言模型，主要包含三个模块：1) 微调的双时相视觉编码器，用于提取双时相遥感图像的特征，并捕捉时间差异；2) 视觉差异感知模块，通过跨语义关系测量（CSRM）机制，解释图像中的变化；3) 指令引导的Q-former，用于从视觉变化中提取与用户查询相关的差异信息，并将视觉信息与文本指令对齐。

关键创新：DeltaVLM的关键创新在于其视觉差异感知模块和指令引导的Q-former。视觉差异感知模块通过CSRM机制，能够更准确地捕捉图像中的细微变化。指令引导的Q-former则能够根据用户的指令，有选择性地提取与查询相关的变化信息，从而提高系统的交互性和分析能力。与现有方法相比，DeltaVLM能够进行多轮交互，并根据用户的指令提供更精确的变化信息。

关键设计：DeltaVLM使用冻结的大型语言模型，只对视觉和对齐模块进行训练，以提高训练效率。ChangeChat-105k数据集包含六种交互类型：变化描述、分类、量化、定位、开放式问答和多轮对话。CSRM机制的具体实现细节（例如，如何计算跨语义关系）以及Q-former的具体结构和训练方式（例如，损失函数的设计）在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

DeltaVLM在ChangeChat-105k数据集上进行了广泛的实验，结果表明，DeltaVLM在单轮描述和多轮交互式变化分析任务上均取得了最先进的性能，优于现有的多模态大型语言模型和遥感视觉-语言模型。具体的性能数据和提升幅度需要在论文中查找（未知）。

🎯 应用场景

DeltaVLM在环境监测、城市规划、灾害评估等领域具有广泛的应用前景。通过交互式地分析遥感图像的变化，可以帮助用户更好地了解地物覆盖的变化情况，从而为决策提供支持。例如，可以用于监测森林砍伐、城市扩张、水体变化等，并评估自然灾害的影响。

📄 摘要（原文）

Accurate interpretation of land-cover changes in multi-temporal satellite imagery is critical for real-world scenarios. However, existing methods typically provide only one-shot change masks or static captions, limiting their ability to support interactive, query-driven analysis. In this work, we introduce remote sensing image change analysis (RSICA) as a new paradigm that combines the strengths of change detection and visual question answering to enable multi-turn, instruction-guided exploration of changes in bi-temporal remote sensing images. To support this task, we construct ChangeChat-105k, a large-scale instruction-following dataset, generated through a hybrid rule-based and GPT-assisted process, covering six interaction types: change captioning, classification, quantification, localization, open-ended question answering, and multi-turn dialogues. Building on this dataset, we propose DeltaVLM, an end-to-end architecture tailored for interactive RSICA. DeltaVLM features three innovations: (1) a fine-tuned bi-temporal vision encoder to capture temporal differences; (2) a visual difference perception module with a cross-semantic relation measuring (CSRM) mechanism to interpret changes; and (3) an instruction-guided Q-former to effectively extract query-relevant difference information from visual changes, aligning them with textual instructions. We train DeltaVLM on ChangeChat-105k using a frozen large language model, adapting only the vision and alignment modules to optimize efficiency. Extensive experiments and ablation studies demonstrate that DeltaVLM achieves state-of-the-art performance on both single-turn captioning and multi-turn interactive change analysis, outperforming existing multimodal large language models and remote sensing vision-language models. Code, dataset and pre-trained weights are available at https://github.com/hanlinwu/DeltaVLM.

DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理