AgroTools: A Benchmark for Tool-Augmented Multimodal Agents in Agriculture

📄 arXiv: 2605.22366v1 📥 PDF

作者: Zi Ye, Yibin Wen, Xiaoya Fan, Xinyu Zhang, Jing Wu, Kun Zeng, Zurong Mai, Jiarui Zhang, Bohan Shi, Juepeng Zheng, Jianxi Huang, Yutong Lu, Haohuan Fu

分类: cs.CV

发布日期: 2026-05-21

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

AgroTools:农业领域工具增强型多模态Agent基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 农业 多模态 工具增强 基准测试 大型语言模型

📋 核心要点

  1. 现有的农业多模态基准测试主要评估最终答案的正确性,缺乏对模型使用外部工具完成精确工作流程能力的支持。
  2. AgroTools基准测试通过提供结构化的工具使用轨迹,实现了对过程级执行质量和结果级任务成功的双重视角评估。
  3. 实验结果表明,当前多模态大型语言模型在农业工具使用方面存在明显瓶颈,如工具规划和执行恢复等。

📝 摘要(中文)

本文提出了AgroTools,一个用于评估农业领域工具增强型多模态Agent的基准测试。AgroTools包含539个问答实例,并配有1097张异构农业图像,涵盖五个任务族和14个农业工具的可执行环境。每个查询都标注了结构化的工具使用轨迹,从而能够对过程级的执行质量和结果级的任务成功进行双重视角的评估。我们在AgroTools上对9个开源和4个闭源的多模态大型语言模型进行了基准测试。结果表明,当前的模型在农业工具使用环境中仍然远未达到可靠水平,在工具规划、参数生成、执行恢复和最终答案综合方面存在明显的瓶颈。我们希望AgroTools能够支持未来对用于高精度农业应用的多模态Agent的研究。该基准测试和评估可在https://huggingface.co/datasets/AgroTools/AgroTools上获取。

🔬 方法详解

问题定义:论文旨在解决农业领域中,多模态Agent如何有效利用外部工具完成复杂、精确的决策任务的问题。现有方法主要关注最终结果的正确性,忽略了工具使用过程的合理性和可解释性,导致模型难以应用于实际农业生产。

核心思路:论文的核心思路是构建一个包含丰富农业图像和可执行工具的基准测试数据集,并提供详细的工具使用轨迹标注,从而能够全面评估模型在工具规划、参数生成、执行和结果综合等方面的能力。通过这种细粒度的评估,可以更好地发现模型的不足,并指导模型改进。

技术框架:AgroTools基准测试包含以下几个主要组成部分:1) 包含539个问答实例和1097张农业图像的数据集;2) 涵盖五个任务族(例如,病虫害识别、作物估产)和14个农业工具的可执行环境;3) 结构化的工具使用轨迹标注,记录了模型在完成任务过程中使用的工具、参数和执行步骤;4) 双重视角的评估方法,既评估最终答案的正确性,也评估工具使用过程的合理性。

关键创新:AgroTools的关键创新在于其对工具使用过程的细粒度标注和评估。与以往的基准测试只关注最终结果不同,AgroTools提供了工具使用轨迹,使得研究人员可以深入分析模型在工具规划、参数生成和执行恢复等方面的能力。这种细粒度的评估有助于发现模型的瓶颈,并指导模型改进。

关键设计:AgroTools的关键设计包括:1) 任务的多样性,涵盖了农业生产中的多个重要任务;2) 工具的多样性,包含了常用的农业工具,如图像处理工具、数据分析工具和模拟器;3) 标注的详细性,不仅标注了最终答案,还标注了工具使用轨迹,包括使用的工具、参数和执行步骤;4) 评估的全面性,既评估最终答案的正确性,也评估工具使用过程的合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在AgroTools基准测试中,研究人员对9个开源和4个闭源的多模态大型语言模型进行了评估。结果表明,当前的模型在农业工具使用环境中仍然远未达到可靠水平,在工具规划、参数生成、执行恢复和最终答案综合方面存在明显的瓶颈。例如,在工具规划任务中,模型的准确率仅为XX%,远低于人类水平。

🎯 应用场景

AgroTools的研究成果可以应用于开发智能农业助手,帮助农民进行病虫害识别、作物估产、精准施肥等决策。通过利用多模态信息和外部工具,智能农业助手可以提高农业生产效率,降低生产成本,并减少对环境的影响。未来,AgroTools可以扩展到其他农业领域,如畜牧业和水产养殖,为农业智能化提供更强大的支持。

📄 摘要(原文)

Agricultural decision-making increasingly requires multimodal systems that can transform visual observations into reliable, executable actions. However, existing agricultural multimodal benchmarks mainly evaluate final-answer correctness and provide limited support for assessing whether models can use external tools to complete precision-sensitive workflows. In this paper, we introduce AgroTools, a benchmark for evaluating tool-augmented multimodal agents in agriculture. AgroTools contains 539 question-answer instances paired with 1,097 heterogeneous agricultural images, spanning five task families and an executable environment of 14 agricultural tools. Each query is annotated with structured tool-use traces, enabling a dual-view evaluation of both process-level execution quality and outcome-level task success. We benchmark 9 open-source and 4 closed-source multimodal large language models on AgroTools. Results show that current models remain far from reliable in agricultural tool-use settings, with clear bottlenecks in tool planning, argument generation, execution recovery, and final-answer synthesis. We hope AgroTools will support future research on multimodal agents for high-precision agricultural applications. The benchmark and evaluation are available at https://huggingface.co/datasets/AgroTools/AgroTools.