AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models

📄 arXiv: 2507.21773v1 📥 PDF

作者: Lian Yan, Haotian Wang, Chen Tang, Haifeng Liu, Tianyang Sun, Liangliang Liu, Yi Guan, Jingchi Jiang

分类: cs.CL

发布日期: 2025-07-29

备注: 36 pages, 22 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出 AgriEval:首个全面的中文农业大语言模型评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 农业 大语言模型 评测基准 中文数据集 知识推理 智能农业 能力评估

📋 核心要点

  1. 现有农业领域缺乏专门的训练数据和评估基准,阻碍了大语言模型在该领域的应用。
  2. AgriEval 通过构建包含多项选择和开放问答题的大规模高质量农业数据集,为LLM提供评测基准。
  3. 实验结果表明,现有LLM在AgriEval上表现不佳,低于60%准确率,揭示了农业LLM的巨大潜力。

📝 摘要(中文)

农业领域中,大型语言模型(LLMs)的部署受到训练数据和评估基准的缺乏的阻碍。为了缓解这个问题,我们提出了 AgriEval,这是第一个全面的中文农业基准,具有三个主要特征:(1)全面的能力评估。AgriEval 涵盖了六个主要的农业类别和农业内的 29 个子类别,解决了四个核心认知场景:记忆、理解、推理和生成。(2)高质量数据。该数据集来自大学级别的考试和作业,为评估 LLM 应用知识和做出专家式决策的能力提供了一个自然而稳健的基准。(3)多样化的格式和广泛的规模。AgriEval 包含 14,697 个多项选择题和 2,167 个开放式问答题,使其成为迄今为止最广泛的农业基准。我们还展示了 51 个开源和商业 LLM 的全面实验结果。实验结果表明,大多数现有 LLM 难以达到 60% 的准确率,突显了农业 LLM 的发展潜力。此外,我们进行了广泛的实验来研究影响模型性能的因素,并提出了改进策略。AgriEval 可在 https://github.com/YanPioneer/AgriEval/ 获得。

🔬 方法详解

问题定义:现有的大型语言模型在农业领域的应用面临缺乏高质量、全面的中文农业数据集和评估基准的挑战。这使得评估和提升LLM在农业知识理解、推理和生成方面的能力变得困难。现有方法无法有效衡量LLM在农业领域的专业知识和决策能力。

核心思路:AgriEval的核心思路是构建一个全面的、高质量的中文农业基准数据集,覆盖农业领域的多个方面和认知场景。通过该基准,可以系统地评估LLM在农业知识的记忆、理解、推理和生成能力,并为后续的模型优化提供指导。

技术框架:AgriEval的构建流程主要包括数据收集、数据清洗、数据标注和数据集划分。数据集涵盖六个主要农业类别和29个子类别,包含多项选择题和开放式问答题两种形式。评估过程包括将LLM的输出与标准答案进行比较,并计算准确率等指标。

关键创新:AgriEval的关键创新在于其数据集的全面性和高质量。它不仅覆盖了广泛的农业知识领域,而且数据来源于大学级别的考试和作业,保证了数据的专业性和难度。此外,AgriEval是首个针对中文农业领域的大规模LLM评估基准。

关键设计:AgriEval包含14,697个多项选择题和2,167个开放式问答题。数据集的划分方式未知,但推测可能采用了训练集、验证集和测试集的划分方式。评估指标主要采用准确率,针对开放式问答题可能需要人工评估或使用其他自然语言处理指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在对 51 个开源和商业 LLM 进行的实验中,大多数模型在 AgriEval 上的准确率低于 60%,表明现有 LLM 在农业领域的知识掌握和推理能力方面存在显著差距。这一结果突显了 AgriEval 作为评估和改进农业 LLM 的重要性,并揭示了该领域巨大的发展潜力。

🎯 应用场景

AgriEval 的潜在应用领域包括智能农业咨询、农业知识问答系统、农业教育和培训等。该基准可以促进开发更智能、更专业的农业LLM,帮助农民和农业专家做出更明智的决策,提高农业生产效率和可持续性。未来,可以基于 AgriEval 构建更强大的农业知识图谱和智能农业助手。

📄 摘要(原文)

In the agricultural domain, the deployment of large language models (LLMs) is hindered by the lack of training data and evaluation benchmarks. To mitigate this issue, we propose AgriEval, the first comprehensive Chinese agricultural benchmark with three main characteristics: (1) Comprehensive Capability Evaluation. AgriEval covers six major agriculture categories and 29 subcategories within agriculture, addressing four core cognitive scenarios: memorization, understanding, inference, and generation. (2) High-Quality Data. The dataset is curated from university-level examinations and assignments, providing a natural and robust benchmark for assessing the capacity of LLMs to apply knowledge and make expert-like decisions. (3) Diverse Formats and Extensive Scale. AgriEval comprises 14,697 multiple-choice questions and 2,167 open-ended question-and-answer questions, establishing it as the most extensive agricultural benchmark available to date. We also present comprehensive experimental results over 51 open-source and commercial LLMs. The experimental results reveal that most existing LLMs struggle to achieve 60% accuracy, underscoring the developmental potential in agricultural LLMs. Additionally, we conduct extensive experiments to investigate factors influencing model performance and propose strategies for enhancement. AgriEval is available at https://github.com/YanPioneer/AgriEval/.