DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding

📄 arXiv: 2505.21076v2 📥 PDF

作者: Weihao Xuan, Junjue Wang, Heli Qi, Zihang Chen, Zhuo Zheng, Yanfei Zhong, Junshi Xia, Naoto Yokoya

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-10-26)

备注: NeurIPS 2025


💡 一句话要点

提出DVL-Suite评估多模态大语言模型在动态城市理解中的能力,并构建DVLChat提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 遥感图像 动态城市理解 指令调优 数据集构建

📋 核心要点

  1. 现有MLLM在长期地球观测分析中应用有限,尤其缺乏对多时相遥感图像的理解能力。
  2. 提出DVL-Suite,包含DVL-Bench和DVL-Instruct,用于评估和提升MLLM在动态城市理解中的能力。
  3. 构建DVLChat,一个基于DVL-Instruct指令调优的基线模型,能够进行图像级问答和像素级分割。

📝 摘要(中文)

多模态大语言模型(MLLMs)在视觉理解方面表现出色,但其在长期地球观测分析中的应用仍然有限,主要集中在单时相或双时相图像上。为了弥补这一差距,我们推出了DVL-Suite,这是一个综合框架,用于分析遥感图像中的长期城市动态。我们的套件包含来自美国42个主要城市2005年至2023年的14,871张高分辨率(1.0m)多时相图像,分为DVL-Bench和DVL-Instruct两部分。DVL-Bench包括六项城市理解任务,从基本的变化检测(像素级)到定量分析(区域级)和综合城市叙述(场景级),捕捉了包括扩张/转型模式、灾害评估和环境挑战在内的各种城市动态。我们评估了18个最先进的MLLM,揭示了它们在长期时间理解和定量分析方面的局限性。这些挑战促使我们创建了DVL-Instruct,这是一个专门的指令调优数据集,旨在增强模型在多时相地球观测方面的能力。在此数据集的基础上,我们开发了DVLChat,一个能够进行图像级问答和像素级分割的基线模型,通过语言交互促进对城市动态的全面理解。

🔬 方法详解

问题定义:现有方法在利用多模态大语言模型进行长期城市动态理解时,缺乏专门的数据集和评估基准。现有的MLLM主要集中于单时相或双时相图像,难以处理长时间序列遥感数据,并且在定量分析方面存在局限性。因此,需要一个能够全面评估和提升MLLM在多时相遥感图像理解能力的数据集和基准。

核心思路:论文的核心思路是构建一个包含多时相遥感图像和多样化任务的综合数据集DVL-Suite,用于评估现有MLLM在动态城市理解方面的能力,并利用该数据集进行指令调优,从而提升MLLM在多时相遥感图像理解方面的性能。通过构建DVL-Instruct数据集,并基于此训练DVLChat模型,实现图像级问答和像素级分割,从而全面理解城市动态。

技术框架:DVL-Suite包含两个主要组成部分:DVL-Bench和DVL-Instruct。DVL-Bench是一个评估基准,包含六个城市理解任务,涵盖像素级变化检测、区域级定量分析和场景级城市叙述。DVL-Instruct是一个指令调优数据集,用于提升MLLM在多时相地球观测方面的能力。基于DVL-Instruct,论文开发了DVLChat模型,该模型能够进行图像级问答和像素级分割,从而实现对城市动态的全面理解。

关键创新:该论文的关键创新在于构建了一个专门用于评估和提升MLLM在动态城市理解方面能力的数据集DVL-Suite。与现有数据集相比,DVL-Suite包含长时间序列的多时相遥感图像,并涵盖了多种城市理解任务,能够更全面地评估MLLM的性能。此外,通过构建DVL-Instruct数据集并训练DVLChat模型,论文展示了指令调优在提升MLLM在多时相遥感图像理解方面能力的有效性。

关键设计:DVL-Bench包含六个城市理解任务,包括像素级变化检测、区域级定量分析和场景级城市叙述,涵盖了城市扩张/转型模式、灾害评估和环境挑战等多种城市动态。DVL-Instruct数据集的设计考虑了多时相遥感图像的特点,并包含了多种指令,旨在提升MLLM在时间理解和定量分析方面的能力。DVLChat模型基于DVL-Instruct数据集进行指令调优,具体网络结构和损失函数等细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文评估了18个最先进的MLLM,揭示了它们在长期时间理解和定量分析方面的局限性。通过在DVL-Instruct数据集上训练DVLChat模型,显著提升了模型在多时相遥感图像理解方面的能力,实现了图像级问答和像素级分割,为动态城市理解提供了新的解决方案。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于城市规划、灾害监测、环境评估等领域。通过利用多模态大语言模型分析长期遥感数据,可以更准确地了解城市发展趋势、评估灾害影响、监测环境变化,为政府决策提供科学依据,并为相关行业提供技术支持。

📄 摘要(原文)

Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in visual understanding, but their application to long-term Earth observation analysis remains limited, primarily focusing on single-temporal or bi-temporal imagery. To address this gap, we introduce DVL-Suite, a comprehensive framework for analyzing long-term urban dynamics through remote sensing imagery. Our suite comprises 14,871 high-resolution (1.0m) multi-temporal images spanning 42 major cities in the U.S. from 2005 to 2023, organized into two components: DVL-Bench and DVL-Instruct. The DVL-Bench includes six urban understanding tasks, from fundamental change detection (pixel-level) to quantitative analyses (regional-level) and comprehensive urban narratives (scene-level), capturing diverse urban dynamics including expansion/transformation patterns, disaster assessment, and environmental challenges. We evaluate 18 state-of-the-art MLLMs and reveal their limitations in long-term temporal understanding and quantitative analysis. These challenges motivate the creation of DVL-Instruct, a specialized instruction-tuning dataset designed to enhance models' capabilities in multi-temporal Earth observation. Building upon this dataset, we develop DVLChat, a baseline model capable of both image-level question-answering and pixel-level segmentation, facilitating a comprehensive understanding of city dynamics through language interactions.