LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery

📄 arXiv: 2505.02829v1 📥 PDF

作者: Jerome Quenum, Wen-Han Hsieh, Tsung-Han Wu, Ritwik Gupta, Trevor Darrell, David M. Chan

分类: cs.AI

发布日期: 2025-05-05

备注: 28 pages, 10 figures, 19 tables

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

LISAt:面向卫星图像的语言指令分割助手,提升复杂场景理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像分割 视觉-语言模型 地理空间推理 多模态学习 Transformer 自然语言指令 数据集构建

📋 核心要点

  1. 现有视觉-语言模型在处理复杂遥感图像时表现不佳,难以理解用户复杂的分割意图。
  2. LISAt通过构建新的地理空间数据集GRES和PreGRES,并在此基础上进行训练,提升模型对遥感图像的理解和分割能力。
  3. 实验结果表明,LISAt在遥感描述和推理分割任务上显著优于现有模型,性能提升显著。

📝 摘要(中文)

本文提出了一种名为LISAt的视觉-语言模型,专门用于描述复杂的遥感场景、回答相关问题以及分割感兴趣的目标。现有的分割模型能够识别图像中预定义的对象,但对于需要推理的复杂用户查询(隐式地引用多个目标)的处理能力不足。虽然最近在推理分割方面的进展表明视觉-语言模型可以在开放域中运行并产生合理的结果,但实验表明这些模型在处理复杂的遥感图像时表现不佳。为了解决这个问题,作者构建了一个新的地理空间推理分割数据集GRES,包含9205张图像上的27615个标注,以及一个包含超过100万个问答对的多模态预训练数据集PreGRES。在这些数据集上训练的LISAt在遥感描述任务上优于现有的地理空间基础模型RS-GPT4V超过10.04%(BLEU-4),并在推理分割任务上超越了最先进的开放域模型143.36%(gIoU)。

🔬 方法详解

问题定义:现有的视觉-语言模型在处理复杂的遥感图像时,难以准确理解用户通过自然语言表达的分割意图,尤其是在需要进行推理的情况下。这些模型在遥感图像上的表现不佳,限制了其在地理空间领域的应用。

核心思路:LISAt的核心思路是构建一个专门针对遥感图像的视觉-语言模型,并通过大规模的地理空间数据集进行训练,使其能够更好地理解遥感图像的特征和用户意图。通过预训练和微调,模型能够学习到遥感图像的特定知识,从而提高分割的准确性和效率。

技术框架:LISAt的整体架构包含视觉编码器、文本编码器和分割解码器三个主要模块。视觉编码器负责提取遥感图像的视觉特征,文本编码器负责提取用户查询的文本特征,分割解码器则根据视觉和文本特征生成分割掩码。模型首先在PreGRES数据集上进行多模态预训练,然后在GRES数据集上进行微调,以适应遥感图像的推理分割任务。

关键创新:LISAt的关键创新在于其针对遥感图像的专门设计和训练策略。通过构建大规模的地理空间数据集,模型能够学习到遥感图像的特定知识,从而提高分割的准确性和效率。此外,LISAt还采用了多模态预训练的方法,利用大量的问答对来增强模型对遥感图像的理解能力。

关键设计:LISAt使用了Transformer架构作为其核心组件。视觉编码器和文本编码器都采用了Transformer编码器,分割解码器采用了Transformer解码器。损失函数包括分割损失(例如Dice Loss或交叉熵损失)和语言建模损失。在训练过程中,采用了数据增强技术,例如随机裁剪、旋转和颜色抖动,以提高模型的泛化能力。

🖼️ 关键图片

img_0

📊 实验亮点

LISAt在遥感描述任务上优于RS-GPT4V超过10.04%(BLEU-4),在推理分割任务上超越了最先进的开放域模型143.36%(gIoU)。这些显著的性能提升表明LISAt在遥感图像理解和分割方面具有显著优势,验证了其设计的有效性。

🎯 应用场景

LISAt可应用于多种遥感图像分析任务,如城市规划、灾害监测、农业估产和环境监测等。该模型能够根据用户的自然语言指令,快速准确地分割出感兴趣的目标,为决策者提供有力的支持。未来,LISAt有望成为遥感图像智能分析的重要工具。

📄 摘要(原文)

Segmentation models can recognize a pre-defined set of objects in images. However, models that can reason over complex user queries that implicitly refer to multiple objects of interest are still in their infancy. Recent advances in reasoning segmentation--generating segmentation masks from complex, implicit query text--demonstrate that vision-language models can operate across an open domain and produce reasonable outputs. However, our experiments show that such models struggle with complex remote-sensing imagery. In this work, we introduce LISAt, a vision-language model designed to describe complex remote-sensing scenes, answer questions about them, and segment objects of interest. We trained LISAt on a new curated geospatial reasoning-segmentation dataset, GRES, with 27,615 annotations over 9,205 images, and a multimodal pretraining dataset, PreGRES, containing over 1 million question-answer pairs. LISAt outperforms existing geospatial foundation models such as RS-GPT4V by over 10.04 % (BLEU-4) on remote-sensing description tasks, and surpasses state-of-the-art open-domain models on reasoning segmentation tasks by 143.36 % (gIoU). Our model, datasets, and code are available at https://lisat-bair.github.io/LISAt/