A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs
作者: Yunkai Dang, Meiyi Zhu, Donghao Wang, Yizhuo Zhang, Jiacheng Yang, Qi Fan, Yuekun Yang, Wenbin Li, Feng Miao, Yang Gao
分类: cs.CV, cs.AI, cs.MM
发布日期: 2025-12-19
🔗 代码/项目: GITHUB
💡 一句话要点
提出RSHR-Bench:一个面向超高分辨率遥感多模态大语言模型的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感图像 多模态大语言模型 基准测试 超高分辨率 视觉理解 视觉问答 图像描述
📋 核心要点
- 现有遥感基准测试多依赖低分辨率图像,高分辨率基准存在推理任务设计缺陷,无法有效评估视觉理解能力。
- 提出RSHR-Bench,一个超高分辨率遥感基准,包含多种任务类型,并采用对抗过滤和人工验证减少语言先验的影响。
- 实验表明,现有视觉语言模型在超高分辨率遥感图像上仍存在性能差距,RSHR-Bench可有效评估模型能力。
📝 摘要(中文)
多模态大语言模型(MLLMs)在现有的遥感(RS)基准测试中表现出强大的感知和推理能力。然而,大多数先前的基准测试依赖于低分辨率图像,而一些高分辨率基准测试存在有缺陷的推理任务设计。我们发现,仅使用文本的LLM在不访问图像的情况下,在RS推理任务上的表现可以与多模态视觉语言模型相媲美,这揭示了当前基准测试与视觉理解的预期评估之间存在严重不匹配。为了实现可靠的评估,我们引入了RSHR-Bench,这是一个用于RS视觉理解和推理的超高分辨率基准。RSHR-Bench包含5,329张全景图像,长边至少为4,000像素,每张图像最多约3 x 10^8像素,来源于广泛使用的RS语料库和无人机数据集。我们设计了四个任务族:多项选择VQA、开放式VQA、图像描述和单图像评估。这些任务涵盖九个感知类别和四个推理类型,支持多轮和多图像对话。为了减少对语言先验的依赖,我们应用了强大的LLM进行对抗性过滤,然后进行严格的人工验证。总的来说,我们构建了3,864个VQA任务,3,913个图像描述任务和500个完全由人工编写或验证的单图像评估VQA对。对开源、闭源和RS专用VLM的评估表明,在超高分辨率场景中仍然存在性能差距。
🔬 方法详解
问题定义:现有遥感图像的视觉语言模型基准测试,要么分辨率过低,无法充分测试模型对细节的理解能力,要么推理任务设计存在缺陷,导致模型可以通过语言先验而非视觉理解来完成任务。这使得现有基准无法真实反映模型在超高分辨率遥感图像上的视觉理解和推理能力。
核心思路:为了解决现有基准的不足,RSHR-Bench的核心思路是构建一个超高分辨率的遥感图像数据集,并设计一系列需要视觉理解和推理的任务。同时,采用对抗性过滤和人工验证的方法,尽可能消除语言先验对模型性能的影响,从而更准确地评估模型的视觉能力。
技术框架:RSHR-Bench的构建流程主要包括以下几个阶段:1) 数据收集:从广泛使用的遥感语料库和无人机数据集中收集超高分辨率遥感图像。2) 任务设计:设计多项选择VQA、开放式VQA、图像描述和单图像评估等任务,涵盖九个感知类别和四个推理类型。3) 对抗性过滤:使用强大的LLM对生成的任务进行对抗性过滤,去除那些可以通过语言先验解决的任务。4) 人工验证:对过滤后的任务进行人工验证,确保任务的质量和准确性。
关键创新:RSHR-Bench最重要的技术创新点在于其超高分辨率的图像数据和对抗性过滤的任务生成方法。超高分辨率图像能够更好地测试模型对细节的感知能力,而对抗性过滤则可以有效减少语言先验对模型性能的影响,从而更准确地评估模型的视觉理解能力。
关键设计:RSHR-Bench的关键设计包括:1) 图像分辨率:图像长边至少为4000像素,保证图像包含足够的细节信息。2) 任务类型:包含多种任务类型,全面评估模型的感知和推理能力。3) 对抗性过滤:使用强大的LLM生成对抗样本,并对原始任务进行过滤。4) 人工验证:对过滤后的任务进行人工验证,确保任务的质量和准确性。
🖼️ 关键图片
📊 实验亮点
RSHR-Bench的实验结果表明,现有的开源、闭源和遥感专用视觉语言模型在超高分辨率遥感图像上仍然存在显著的性能差距。例如,在VQA任务上,模型的准确率普遍较低,表明模型难以理解图像中的复杂关系。这些结果突显了RSHR-Bench在评估和提升遥感图像视觉语言模型方面的重要性。
🎯 应用场景
RSHR-Bench可用于训练和评估遥感图像的视觉语言模型,提升模型在超高分辨率图像上的感知和推理能力。这对于城市规划、灾害监测、农业估产等领域具有重要意义,能够帮助人们更好地理解和利用遥感数据,做出更准确的决策。未来,该基准可以扩展到其他类型的遥感数据,例如多光谱图像和SAR图像。
📄 摘要(原文)
Multimodal large language models (MLLMs) demonstrate strong perception and reasoning performance on existing remote sensing (RS) benchmarks. However, most prior benchmarks rely on low-resolution imagery, and some high-resolution benchmarks suffer from flawed reasoning-task designs. We show that text-only LLMs can perform competitively with multimodal vision-language models on RS reasoning tasks without access to images, revealing a critical mismatch between current benchmarks and the intended evaluation of visual understanding. To enable faithful assessment, we introduce RSHR-Bench, a super-high-resolution benchmark for RS visual understanding and reasoning. RSHR-Bench contains 5,329 full-scene images with a long side of at least 4,000 pixels, with up to about 3 x 10^8 pixels per image, sourced from widely used RS corpora and UAV collections. We design four task families: multiple-choice VQA, open-ended VQA, image captioning, and single-image evaluation. These tasks cover nine perception categories and four reasoning types, supporting multi-turn and multi-image dialog. To reduce reliance on language priors, we apply adversarial filtering with strong LLMs followed by rigorous human verification. Overall, we construct 3,864 VQA tasks, 3,913 image captioning tasks, and 500 fully human-written or verified single-image evaluation VQA pairs. Evaluations across open-source, closed-source, and RS-specific VLMs reveal persistent performance gaps in super-high-resolution scenarios. Code: https://github.com/Yunkaidang/RSHR