BTCChat: Advancing Remote Sensing Bi-temporal Change Captioning with Multimodal Large Language Model

📄 arXiv: 2509.05895v1 📥 PDF

作者: Yujie Li, Wenjia Xu, Yuanben Zhang, Zhiwei Wei, Mugen Peng

分类: cs.CV

发布日期: 2025-09-07

备注: 5 pages, 2 figures Submitted to ICASSP 2026


💡 一句话要点

BTCChat:利用多模态大语言模型提升遥感双时相变化描述能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 双时相遥感 变化描述 多模态大语言模型 时间特征提取 空间语义变化

📋 核心要点

  1. 现有双时相遥感图像变化分析方法未能充分建模时间相关性和空间语义变化,阻碍视觉-语义对齐。
  2. BTCChat通过设计变化提取模块捕捉时间特征和空间语义变化,并引入提示增强机制关注空间细节。
  3. 实验结果表明,BTCChat在变化描述和视觉问答任务上达到了当前最优性能。

📝 摘要(中文)

双时相卫星图像支持城市发展监测和灾害评估等关键应用。虽然强大的多模态大语言模型(MLLM)已被应用于双时相变化分析,但先前的方法通过直接连接图像对进行处理,未能充分建模时间相关性和空间语义变化。这种缺陷阻碍了变化理解中的视觉-语义对齐,从而限制了当前方法的整体有效性。为了解决这个问题,我们提出了BTCChat,一种具有先进双时相变化理解能力的多时相MLLM。BTCChat支持双时相变化描述,并保留了单图像解释能力。为了更好地捕捉图像对中的时间特征和空间语义变化,我们设计了一个变化提取模块。此外,为了增强模型对空间细节的关注,我们引入了一种提示增强机制,将上下文线索融入到提示中,以提高模型性能。实验结果表明,BTCChat在变化描述和视觉问答任务上取得了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决双时相遥感图像变化描述任务中,现有方法无法有效建模时间相关性和空间语义变化的问题。现有方法通常直接拼接双时相图像,忽略了图像之间的时间关系和空间语义的演变,导致视觉-语义对齐困难,影响变化描述的准确性和完整性。

核心思路:论文的核心思路是通过设计专门的模块来提取双时相图像中的时间特征和空间语义变化,并利用提示增强机制引导模型关注关键的空间细节。通过更有效地建模图像对中的时间关系和空间语义演变,提升模型对变化的理解和描述能力。

技术框架:BTCChat的整体框架包括图像编码器、变化提取模块、多模态大语言模型和提示增强机制。首先,图像编码器将双时相图像转换为视觉特征。然后,变化提取模块利用这些特征来捕捉时间特征和空间语义变化。接下来,多模态大语言模型将视觉特征和文本提示结合起来,生成变化描述。最后,提示增强机制通过引入上下文线索来增强模型对空间细节的关注。

关键创新:论文的关键创新在于提出了变化提取模块和提示增强机制。变化提取模块能够有效地捕捉双时相图像中的时间特征和空间语义变化,而提示增强机制能够引导模型关注关键的空间细节,从而提升模型对变化的理解和描述能力。与现有方法相比,BTCChat能够更有效地建模双时相图像中的时间关系和空间语义演变。

关键设计:变化提取模块的具体结构未知,但其目标是提取时间特征和空间语义变化。提示增强机制的具体实现方式是将上下文线索融入到提示中,例如,可以提供关于图像中可能发生变化的区域或对象的提示。损失函数和网络结构等其他技术细节在论文中未详细说明。

📊 实验亮点

BTCChat在变化描述和视觉问答任务上取得了最先进的性能,表明其在双时相遥感图像变化理解方面具有显著优势。具体的性能数据和对比基线未在摘要中给出,但强调了其超越现有方法的表现。

🎯 应用场景

该研究成果可应用于城市发展监测、灾害评估、环境变化分析等领域。通过自动生成双时相遥感图像的变化描述,可以帮助用户快速了解地表变化情况,为决策提供支持。未来,该技术有望应用于更广泛的遥感图像分析任务,例如目标检测、图像分割等。

📄 摘要(原文)

Bi-temporal satellite imagery supports critical applications such as urban development monitoring and disaster assessment. Although powerful multimodal large language models (MLLMs) have been applied in bi-temporal change analysis, previous methods process image pairs through direct concatenation, inadequately modeling temporal correlations and spatial semantic changes. This deficiency hampers visual-semantic alignment in change understanding, thereby constraining the overall effectiveness of current approaches. To address this gap, we propose BTCChat, a multi-temporal MLLM with advanced bi-temporal change understanding capability. BTCChat supports bi-temporal change captioning and retains single-image interpretation capability. To better capture temporal features and spatial semantic changes in image pairs, we design a Change Extraction module. Moreover, to enhance the model's attention to spatial details, we introduce a Prompt Augmentation mechanism, which incorporates contextual clues into the prompt to enhance model performance. Experimental results demonstrate that BTCChat achieves state-of-the-art performance on change captioning and visual question answering tasks.