BTCChat: Advancing Remote Sensing Bi-temporal Change Captioning with Multimodal Large Language Model

作者: Yujie Li, Wenjia Xu, Yuanben Zhang, Zhiwei Wei, Mugen Peng

分类: cs.CV

发布日期: 2025-09-07 (更新: 2026-01-27)

备注: 5 pages, 2 figures; Accepted by ICASSP 2026

🔗 代码/项目: GITHUB

💡 一句话要点

BTCChat：利用多模态大语言模型提升遥感双时相变化描述能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 双时相遥感 变化描述 多模态大语言模型 时间相关性 空间语义变化

📋 核心要点

现有方法在处理双时相遥感图像变化描述时，简单拼接图像对，忽略了时间相关性和空间语义变化。
BTCChat通过设计变化提取模块，捕捉图像对中的时间特征和空间语义变化，提升模型对空间细节的关注。
实验结果表明，BTCChat在变化描述和视觉问答任务上均取得了state-of-the-art的性能。

📝 摘要（中文）

双时相卫星图像支持城市化监测和灾害评估等关键应用。虽然强大的多模态大语言模型（MLLM）已被应用于双时相变化分析，但先前的方法通过直接连接图像对进行处理，未能充分建模时间相关性和空间语义变化。这种缺陷阻碍了变化理解中的视觉-语义对齐，从而限制了当前方法的整体有效性。为了解决这一差距，我们提出了BTCChat，一种具有先进双时相变化理解能力的多时相MLLM。BTCChat支持双时相变化描述，并保留了单图像解释能力。为了更好地捕捉图像对中的时间特征和空间语义变化，我们设计了一个变化提取模块。此外，为了增强模型对空间细节的关注，我们引入了一种提示增强机制，该机制将上下文线索纳入提示中，以提高模型性能。实验结果表明，BTCChat在变化描述和视觉问答任务上实现了最先进的性能。

🔬 方法详解

问题定义：现有方法在处理双时相遥感图像变化描述任务时，通常直接将两个时相的图像进行拼接，然后输入到多模态大语言模型中。这种方法忽略了两个时相图像之间的时间相关性和空间语义变化，导致模型难以准确理解图像中的变化信息，从而影响了变化描述的准确性和完整性。

核心思路：BTCChat的核心思路是设计一个专门的变化提取模块，用于捕捉双时相图像之间的时间特征和空间语义变化。该模块能够有效地提取图像中的变化信息，并将其融入到多模态大语言模型中，从而提高模型对变化信息的理解能力。此外，还引入了提示增强机制，以增强模型对空间细节的关注。

技术框架：BTCChat的整体架构包含以下几个主要模块：图像编码器（用于提取图像特征）、变化提取模块（用于捕捉双时相图像之间的变化信息）、多模态大语言模型（用于生成变化描述）和提示增强模块（用于增强模型对空间细节的关注）。首先，图像编码器分别提取两个时相图像的特征。然后，变化提取模块利用提取的特征捕捉图像之间的变化信息。接着，多模态大语言模型将图像特征和变化信息作为输入，生成变化描述。最后，提示增强模块通过引入上下文线索来增强模型对空间细节的关注。

关键创新：BTCChat的关键创新在于变化提取模块和提示增强机制的设计。变化提取模块能够有效地捕捉双时相图像之间的时间特征和空间语义变化，而提示增强机制能够增强模型对空间细节的关注。这两个模块的结合使得BTCChat能够更准确、更完整地理解图像中的变化信息，从而生成更准确的变化描述。

关键设计：变化提取模块的具体实现方式未知，论文中可能使用了卷积神经网络、Transformer等技术来提取变化特征。提示增强机制的具体实现方式也未知，可能通过在prompt中加入空间位置信息或者其他上下文信息来引导模型关注空间细节。损失函数方面，可能使用了交叉熵损失函数或者其他适用于文本生成的损失函数。网络结构方面，多模态大语言模型可能采用了Transformer架构。

🖼️ 关键图片

📊 实验亮点

BTCChat在变化描述和视觉问答任务上取得了state-of-the-art的性能，表明其在双时相遥感图像理解方面具有显著优势。具体的性能数据和对比基线需要在论文中进一步查找，但摘要已经明确指出其优于现有方法。

🎯 应用场景

BTCChat在城市化监测、灾害评估、土地利用变化分析等领域具有广泛的应用前景。通过自动生成双时相遥感图像的变化描述，可以帮助用户快速了解地表变化情况，为决策提供支持。该研究的未来影响在于推动遥感图像智能解译技术的发展，提高遥感数据的利用效率。

📄 摘要（原文）

Bi-temporal satellite imagery supports critical applications such as urbanization monitoring and disaster assessment. Although powerful multimodal large language models~(MLLMs) have been applied in bi-temporal change analysis, previous methods process image pairs through direct concatenation, inadequately modeling temporal correlations and spatial semantic changes. This deficiency hampers visual-semantic alignment in change understanding, thereby constraining the overall effectiveness of current approaches. To address this gap, we propose BTCChat, a multi-temporal MLLM with advanced bi-temporal change understanding capability. BTCChat supports bi-temporal change captioning and retains single-image interpretation capability. To better capture temporal features and spatial semantic changes in image pairs, we design a Change Extraction module. Moreover, to enhance the model's attention to spatial details, we introduce a Prompt Augmentation mechanism, which incorporates contextual clues into the prompt to enhance model performance. Experimental results demonstrate that BTCChat achieves state-of-the-art performance on change captioning and visual question answering tasks. The code is available \href{https://github.com/IntelliSensing/BTCChat}{here}.

BTCChat: Advancing Remote Sensing Bi-temporal Change Captioning with Multimodal Large Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理