REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing

作者: Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir

分类: cs.CV, cs.AI

发布日期: 2025-11-21

备注: Code and data available at https://github.com/be-chen/REMSA

💡 一句话要点

REMSA：基于LLM的遥感领域基础模型自动选择Agent

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感 基础模型 大型语言模型 模型选择 自动化 数据库 上下文学习

📋 核心要点

遥感领域缺乏统一的遥感基础模型选择标准，文档分散、格式异构和部署约束各异，导致选择困难。
REMSA利用大型语言模型（LLM）作为Agent，结合遥感基础模型数据库（RS-FMD），实现基于自然语言查询的自动模型选择。
实验表明，REMSA在专家验证的遥感查询场景中，性能优于朴素Agent、密集检索和基于非结构化RAG的LLM。

📝 摘要（中文）

基础模型（FMs）在遥感（RS）领域的应用日益广泛，例如环境监测、灾害评估和土地利用制图。这些模型包括在单一数据模态上训练的单模态视觉编码器，以及在SAR、多光谱、高光谱和图像-文本数据组合上训练的多模态架构。它们支持各种RS任务，包括语义分割、图像分类、变化检测和视觉问答。然而，由于文档分散、格式异构和部署约束各异，选择合适的遥感基础模型（RSFM）仍然很困难。我们介绍了RSFM数据库（RS-FMD），这是一个结构化资源，涵盖了150多个RSFM，跨越多种数据模态、分辨率和学习范式。基于RS-FMD，我们提出了REMSA，这是第一个基于LLM的Agent，用于从自然语言查询中自动选择RSFM。REMSA解释用户需求，解决缺失的约束，使用上下文学习对候选模型进行排序，并提供透明的理由。我们还提出了一个包含75个专家验证的RS查询场景的基准，在以专家为中心的评估协议下生成900个配置。REMSA优于几个基线，包括朴素Agent、密集检索和基于非结构化RAG的LLM。它完全基于公开可用的元数据运行，不访问私有或敏感数据。

🔬 方法详解

问题定义：遥感领域中存在大量的基础模型，但由于缺乏统一的组织和检索方式，用户难以根据自身需求选择合适的模型。现有方法如人工搜索文档、手动比较模型性能等效率低下，且容易遗漏信息。因此，需要一种自动化的方法，能够根据用户的自然语言查询，快速准确地推荐合适的遥感基础模型。

核心思路：REMSA的核心思路是利用大型语言模型（LLM）的自然语言理解和推理能力，将用户的查询转化为对遥感基础模型数据库（RS-FMD）的检索条件。通过上下文学习，LLM能够理解用户的需求，并根据模型的元数据（如数据模态、分辨率、学习范式等）对候选模型进行排序。

技术框架：REMSA的整体架构包括以下几个主要模块：1) 用户查询解析模块：将用户的自然语言查询转化为结构化的需求表示。2) RSFM数据库（RS-FMD）：存储了遥感基础模型的元数据信息。3) LLM Agent：利用LLM进行模型选择和排序，基于上下文学习，根据用户需求和模型元数据进行推理。4) 结果展示模块：将选择结果以清晰的方式呈现给用户，并提供选择理由。

关键创新：REMSA的关键创新在于将LLM应用于遥感基础模型的自动选择。与传统的基于规则或检索的方法不同，REMSA能够理解用户的意图，并根据模型的语义信息进行选择。此外，REMSA还构建了一个结构化的遥感基础模型数据库（RS-FMD），为LLM提供了知识基础。

关键设计：REMSA的关键设计包括：1) RS-FMD的结构化设计，确保模型元数据的完整性和一致性。2) LLM Agent的上下文学习策略，通过少量示例引导LLM进行模型选择。3) 专家验证的基准数据集，用于评估REMSA的性能。

🖼️ 关键图片

📊 实验亮点

REMSA在包含75个专家验证的RS查询场景的基准测试中，优于多个基线方法，包括朴素Agent、密集检索和基于非结构化RAG的LLM。这表明REMSA能够有效地理解用户的需求，并根据模型的元数据进行准确的选择。具体性能数据未知，但结果表明REMSA具有显著的优势。

🎯 应用场景

REMSA可应用于各种遥感应用场景，如环境监测、灾害评估、土地利用规划等。它可以帮助用户快速找到合适的遥感基础模型，从而提高遥感数据处理和分析的效率。此外，REMSA还可以作为遥感领域知识库的入口，帮助用户了解和探索不同的遥感模型。

📄 摘要（原文）

Foundation Models (FMs) are increasingly used in remote sensing (RS) for tasks such as environmental monitoring, disaster assessment, and land-use mapping. These models include unimodal vision encoders trained on a single data modality and multimodal architectures trained on combinations of SAR, multispectral, hyperspectral, and image-text data. They support diverse RS tasks including semantic segmentation, image classification, change detection, and visual question answering. However, selecting an appropriate remote sensing foundation model (RSFM) remains difficult due to scattered documentation, heterogeneous formats, and varied deployment constraints. We introduce the RSFM Database (RS-FMD), a structured resource covering over 150 RSFMs spanning multiple data modalities, resolutions, and learning paradigms. Built on RS-FMD, we present REMSA, the first LLM-based agent for automated RSFM selection from natural language queries. REMSA interprets user requirements, resolves missing constraints, ranks candidate models using in-context learning, and provides transparent justifications. We also propose a benchmark of 75 expert-verified RS query scenarios, producing 900 configurations under an expert-centered evaluation protocol. REMSA outperforms several baselines, including naive agents, dense retrieval, and unstructured RAG-based LLMs. It operates entirely on publicly available metadata and does not access private or sensitive data.

REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理