Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind

📄 arXiv: 2505.12207v3 📥 PDF

作者: Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng

分类: cs.CV, cs.AI

发布日期: 2025-05-18 (更新: 2025-08-13)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出AgroMind农业遥感基准,评估并揭示大型多模态模型在农业场景理解中的局限性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 农业遥感 大型多模态模型 基准数据集 场景理解 空间推理

📋 核心要点

  1. 现有农业遥感基准数据集场景多样性不足,任务设计过于简单,无法全面评估LMM在农业领域的性能。
  2. 构建AgroMind基准,涵盖空间感知、对象理解、场景理解和场景推理四个维度,包含13种任务类型,并整合多源数据。
  3. 评估了20个开源和4个闭源LMM,揭示了LMM在空间推理和细粒度识别方面的性能差距,并发现人类表现甚至落后于部分LMM。

📝 摘要(中文)

大型多模态模型(LMMs)已在多个领域展现出能力,但农业遥感(RS)的综合基准仍然稀缺。现有的农业遥感基准在数据集的场景多样性不足和任务设计过于简单方面存在显著局限。为了弥合这一差距,我们引入了AgroMind,这是一个全面的农业遥感基准,涵盖四个任务维度:空间感知、对象理解、场景理解和场景推理,总共有13种任务类型,范围从作物识别和健康监测到环境分析。我们通过整合八个公共数据集和一个私人农田地块数据集来管理高质量的评估集,包含27,247个QA对和19,615张图像。该流程从多源数据预处理开始,包括收集、格式标准化和注释细化。然后,我们通过系统地定义任务来生成各种与农业相关的问题。最后,我们采用LMM进行推理,生成响应并执行详细检查。我们在AgroMind上评估了20个开源LMM和4个闭源模型。实验揭示了显著的性能差距,尤其是在空间推理和细粒度识别方面,值得注意的是,人类的表现落后于几个领先的LMM。通过为农业遥感建立标准化的评估框架,AgroMind揭示了LMM在领域知识方面的局限性,并突出了未来工作的关键挑战。数据和代码可在https://rssysu.github.io/AgroMind/上访问。

🔬 方法详解

问题定义:现有农业遥感数据集和任务设计无法充分评估大型多模态模型(LMMs)在农业场景理解方面的能力。现有数据集的场景多样性不足,任务设计过于简单,难以反映实际农业生产中的复杂问题。因此,需要一个更全面、更具挑战性的基准来评估LMMs在农业领域的性能。

核心思路:论文的核心思路是构建一个高质量、多样化的农业遥感基准AgroMind,该基准涵盖了农业遥感中重要的四个任务维度:空间感知、对象理解、场景理解和场景推理。通过设计多种类型的任务和收集多源数据,AgroMind能够更全面地评估LMMs在农业领域的性能,并揭示其局限性。

技术框架:AgroMind的构建流程主要包括以下几个阶段:1) 数据收集与预处理:整合了8个公共数据集和1个私人农田数据集,进行格式标准化和注释细化。2) 任务定义:系统地定义了13种与农业相关的任务类型,涵盖了四个任务维度。3) 问题生成:基于定义好的任务,生成了包含27,247个QA对和19,615张图像的评估集。4) 模型评估:使用LMMs进行推理,生成答案,并进行详细的性能分析。

关键创新:AgroMind的关键创新在于其综合性和多样性。它不仅涵盖了农业遥感中重要的四个任务维度,还包含了多种类型的任务,能够更全面地评估LMMs在农业领域的性能。此外,AgroMind还整合了多源数据,包括公共数据集和私人农田数据集,从而提高了数据集的多样性和代表性。

关键设计:在数据预处理阶段,论文采用了格式标准化和注释细化等技术,以保证数据的质量和一致性。在任务定义阶段,论文系统地定义了13种与农业相关的任务类型,并为每种任务设计了相应的评估指标。在模型评估阶段,论文采用了多种评估指标,包括准确率、召回率和F1值等,以全面评估LMMs的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在AgroMind基准上,研究团队评估了20个开源LMM和4个闭源模型。实验结果表明,LMMs在空间推理和细粒度识别方面存在显著的性能差距。值得注意的是,人类的表现甚至落后于几个领先的LMM,这表明LMM在某些农业遥感任务中具有超越人类的潜力,但也突出了LMM在领域知识方面的局限性。

🎯 应用场景

该研究成果可应用于智慧农业、精准农业等领域,帮助农民更好地进行作物监测、病虫害防治、产量预测等。通过提升LMMs在农业领域的理解能力,可以实现农业生产的智能化和自动化,提高农业生产效率和质量,促进农业可持续发展。

📄 摘要(原文)

Large Multimodal Models (LMMs) has demonstrated capabilities across various domains, but comprehensive benchmarks for agricultural remote sensing (RS) remain scarce. Existing benchmarks designed for agricultural RS scenarios exhibit notable limitations, primarily in terms of insufficient scene diversity in the dataset and oversimplified task design. To bridge this gap, we introduce AgroMind, a comprehensive agricultural remote sensing benchmark covering four task dimensions: spatial perception, object understanding, scene understanding, and scene reasoning, with a total of 13 task types, ranging from crop identification and health monitoring to environmental analysis. We curate a high-quality evaluation set by integrating eight public datasets and one private farmland plot dataset, containing 27,247 QA pairs and 19,615 images. The pipeline begins with multi-source data pre-processing, including collection, format standardization, and annotation refinement. We then generate a diverse set of agriculturally relevant questions through the systematic definition of tasks. Finally, we employ LMMs for inference, generating responses, and performing detailed examinations. We evaluated 20 open-source LMMs and 4 closed-source models on AgroMind. Experiments reveal significant performance gaps, particularly in spatial reasoning and fine-grained recognition, it is notable that human performance lags behind several leading LMMs. By establishing a standardized evaluation framework for agricultural RS, AgroMind reveals the limitations of LMMs in domain knowledge and highlights critical challenges for future work. Data and code can be accessed at https://rssysu.github.io/AgroMind/.