Decoding the Delta: Unifying Remote Sensing Change Detection and Understanding with Multimodal Large Language Models

📄 arXiv: 2604.14044v1 📥 PDF

作者: Xiaohe Li, Jiahao Li, Kaixin Zhang, Yuqiang Fang, Leilei Lin, Hong Wang, Haohua Wu, Zide Fan

分类: cs.CV

发布日期: 2026-04-15


💡 一句话要点

提出Delta-LLaVA,统一遥感变化检测与理解的多模态大语言模型框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感变化检测 多模态大语言模型 视觉问答 时序分析 地球观测 变化理解 Delta-LLaVA

📋 核心要点

  1. 现有MLLM在遥感变化理解中存在“时间盲区”,缺乏多时相对比推理能力和精确空间定位能力。
  2. Delta-LLaVA通过变化增强注意力、变化分割和局部因果注意力三个模块,克服了传统MLLM的局限性。
  3. 实验表明,Delta-LLaVA在复杂变化推断和高精度边界定位方面显著优于现有方法,建立了统一框架。

📝 摘要(中文)

多模态大语言模型(MLLM)在通用视觉-语言任务中表现出色,但其在遥感变化理解中的应用受到“时间盲区”的阻碍。现有架构缺乏多时相对比推理的内在机制,并且难以进行精确的空间定位。为了解决这个问题,我们首先引入了Delta-QA,这是一个包含18万个视觉问答样本的综合基准。Delta-QA统一了双时相和三时相场景下的像素级分割和视觉问答,将变化解释构建为四个渐进的认知维度。在方法论上,我们提出了Delta-LLaVA,这是一个专门为多时相遥感解释量身定制的新型MLLM框架。它通过三个核心创新克服了朴素特征连接的局限性:一个系统地隔离和放大视觉差异的变化增强注意力模块,一个利用变化先验嵌入的变化分割模块,用于提取可区分的差异特征作为LLM的输入,以及防止跨时相上下文泄漏的局部因果注意力。大量实验表明,Delta-LLaVA在复杂变化推断和高精度边界定位方面明显优于领先的通用MLLM和专用分割模型,从而为地球观测智能建立了一个统一的框架。

🔬 方法详解

问题定义:遥感图像变化检测与理解任务旨在识别和解释不同时间点同一区域地物发生的改变。现有方法,特别是直接应用通用多模态大语言模型(MLLM),面临“时间盲区”问题,即缺乏有效利用多时相信息进行对比推理的能力,难以精确地定位和理解变化区域。简单的特征拼接无法充分挖掘时序差异,且容易引入跨时相的上下文干扰。

核心思路:Delta-LLaVA的核心思路是显式地增强模型对多时相遥感图像中变化信息的感知和推理能力。通过引入专门设计的模块,模型能够有效地提取、放大和利用时序差异特征,同时避免不必要的跨时相信息干扰,从而提升变化检测和理解的准确性和可靠性。这种设计理念旨在弥合通用MLLM与特定遥感任务之间的差距。

技术框架:Delta-LLaVA的整体框架包含以下几个主要模块:1) 变化增强注意力模块(Change-Enhanced Attention):用于系统地隔离和放大视觉差异。2) 变化分割模块(Change-SEG):利用变化先验嵌入提取可区分的差异特征,作为LLM的输入。3) 局部因果注意力(Local Causal Attention):防止跨时相上下文泄漏。整个流程首先通过变化增强注意力模块突出时序差异,然后利用变化分割模块提取差异特征,最后通过局部因果注意力机制防止信息泄露,并将处理后的特征输入到LLM中进行推理和问答。

关键创新:Delta-LLaVA的关键创新在于其针对多时相遥感图像变化理解任务定制的三个核心模块:变化增强注意力模块、变化分割模块和局部因果注意力机制。这些模块的设计目标是克服通用MLLM在处理时序数据时的局限性,显式地增强模型对变化信息的感知和推理能力。与现有方法相比,Delta-LLaVA能够更有效地提取和利用时序差异特征,同时避免不必要的跨时相信息干扰。

关键设计:变化增强注意力模块的具体实现方式未知,但其目标是突出不同时相图像之间的差异。变化分割模块可能采用了某种形式的变化先验嵌入,例如利用预训练的变化检测模型提取的特征作为先验信息。局部因果注意力机制的设计细节未知,但其核心思想是限制不同时相图像之间的信息交互,防止上下文泄漏。损失函数和网络结构等其他技术细节在论文中没有明确说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Delta-LLaVA在复杂变化推断和高精度边界定位方面明显优于领先的通用MLLM和专用分割模型。具体的性能数据和提升幅度在摘要中没有给出,但强调了其在统一遥感变化检测与理解方面的优势。Delta-QA数据集的构建也为该领域的研究提供了新的基准。

🎯 应用场景

Delta-LLaVA在灾害评估、城市规划、农业监测、环境保护等领域具有广泛的应用前景。通过自动识别和理解地物变化,可以为决策者提供及时、准确的信息支持,例如快速评估地震、洪水等自然灾害的影响范围,监测城市扩张和土地利用变化,评估农作物生长状况和产量,以及监测森林砍伐和环境污染等问题。该研究有助于推动地球观测智能的发展,提升遥感数据的应用价值。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) excel in general vision-language tasks, their application to remote sensing change understanding is hindered by a fundamental "temporal blindness". Existing architectures lack intrinsic mechanisms for multi-temporal contrastive reasoning and struggle with precise spatial grounding. To address this, we first introduce Delta-QA, a comprehensive benchmark comprising 180k visual question-answering samples. Delta-QA unifies pixel-level segmentation and visual question answering across bi- and tri-temporal scenarios, structuring change interpretation into four progressive cognitive dimensions. Methodologically, we propose Delta-LLaVA, a novel MLLM framework explicitly tailored for multi-temporal remote sensing interpretation. It overcomes the limitations of naive feature concatenation through three core innovations: a Change-Enhanced Attention module that systematically isolates and amplifies visual differences, a Change-SEG module utilizing Change Prior Embedding to extract differentiable difference features as input for the LLM, and Local Causal Attention to prevent cross-temporal contextual leakage. Extensive experiments demonstrate that Delta-LLaVA decisively outperforms leading generalist MLLMs and specialized segmentation models in complex change deduction and high-precision boundary localization, establishing a unified framework for earth observation intelligence.