General-purpose AI models can generate actionable knowledge on agroecological crop protection

📄 arXiv: 2512.11474v1 📥 PDF

作者: Kris A. G. Wyckhuys

分类: cs.AI, cs.CY, cs.IR

发布日期: 2025-12-12

备注: 33 pages, 3 figures, 3 tables, 1 supplementary table


💡 一句话要点

利用通用AI模型为农业生态作物保护生成可执行知识

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 农业生态 作物保护 生物防治 知识生成

📋 核心要点

  1. 现有农业生态作物保护知识分散,难以有效利用,阻碍了农场层面的决策。
  2. 利用大型语言模型(LLM)生成农业生态作物保护知识,并评估其准确性和实用性。
  3. DeepSeek在知识覆盖面和数据一致性上优于ChatGPT,但两者均存在幻觉问题,需人工监督。

📝 摘要(中文)

生成式人工智能(AI)具有将科学知识民主化并将其转化为清晰、可操作信息的潜力,但其在农业食品科学中的应用仍未被探索。本文验证了由基于网络或非基于网络的大型语言模型(LLM)生成的关于农业生态作物保护的科学知识,即DeepSeek与ChatGPT的免费版本。针对九种全球范围内具有限制性的害虫、杂草和植物病害,我们评估了每个LLM的事实准确性、数据一致性以及知识广度或数据完整性。总体而言,DeepSeek始终筛选了比ChatGPT大4.8-49.7倍的文献语料库,并报告了比ChatGPT多1.6-2.4倍的生物防治剂或管理解决方案。因此,DeepSeek报告的功效估计值高出21.6%,表现出更高的实验室到田间数据一致性,并显示出更真实的害虫身份和管理策略的影响。然而,两种模型都存在幻觉,即捏造虚构的试剂或参考文献,报告不合理的生态相互作用或结果,混淆新旧科学命名法,并遗漏关于关键试剂或解决方案的数据。尽管存在这些缺点,但两种LLM都正确报告了低分辨率的功效趋势。总而言之,当与严格的人工监督相结合时,LLM可能成为支持农场层面决策和释放科学创造力的强大工具。

🔬 方法详解

问题定义:论文旨在解决农业生态作物保护领域知识获取和利用效率低下的问题。现有方法依赖于人工查阅文献和专家经验,效率低下且难以覆盖所有相关信息。此外,现有方法难以保证信息的准确性和一致性,可能导致错误的决策。

核心思路:论文的核心思路是利用大型语言模型(LLM)自动生成农业生态作物保护领域的知识,并评估其质量。通过比较不同LLM的性能,探索LLM在农业领域的应用潜力。这种方法旨在提高知识获取的效率和覆盖面,并为农场层面的决策提供更可靠的信息支持。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择两个LLM:DeepSeek和ChatGPT;2) 针对九种全球范围内具有限制性的害虫、杂草和植物病害,向LLM提问,获取其生成的关于生物防治剂或管理解决方案的知识;3) 评估LLM生成知识的事实准确性、数据一致性以及知识广度或数据完整性;4) 比较不同LLM的性能,并分析其优缺点。

关键创新:该研究的关键创新在于首次将大型语言模型应用于农业生态作物保护领域,并系统地评估了其生成知识的质量。通过比较DeepSeek和ChatGPT的性能,揭示了LLM在农业领域的应用潜力和局限性。此外,该研究还提出了评估LLM生成知识质量的方法,为后续研究提供了参考。

关键设计:在评估LLM生成知识的质量时,研究人员采用了多种指标,包括事实准确性、数据一致性以及知识广度或数据完整性。为了评估事实准确性,研究人员将LLM生成的信息与已知的科学知识进行比较。为了评估数据一致性,研究人员比较了LLM在不同情境下生成的信息是否一致。为了评估知识广度或数据完整性,研究人员评估了LLM是否能够覆盖所有相关的生物防治剂或管理解决方案。

📊 实验亮点

实验结果表明,DeepSeek在知识覆盖面和数据一致性上优于ChatGPT,其筛选的文献语料库更大(4.8-49.7倍),报告的生物防治剂或管理解决方案更多(1.6-2.4倍),功效估计值更高(21.6%)。然而,两种模型都存在幻觉问题,需要人工监督。尽管如此,两种LLM都正确报告了低分辨率的功效趋势,表明其在农业生态作物保护领域具有一定的应用潜力。

🎯 应用场景

该研究成果可应用于农业生产的多个环节,例如病虫害预测、防治方案推荐、农药使用指导等。通过利用LLM生成的知识,农民可以更有效地进行作物保护,提高产量和质量,减少农药使用,实现可持续农业发展。此外,该研究还可为农业科研人员提供新的研究思路和工具。

📄 摘要(原文)

Generative artificial intelligence (AI) offers potential for democratizing scientific knowledge and converting this to clear, actionable information, yet its application in agri-food science remains unexplored. Here, we verify the scientific knowledge on agroecological crop protection that is generated by either web-grounded or non-grounded large language models (LLMs), i.e., DeepSeek versus the free-tier version of ChatGPT. For nine globally limiting pests, weeds, and plant diseases, we assessed the factual accuracy, data consistency, and breadth of knowledge or data completeness of each LLM. Overall, DeepSeek consistently screened a 4.8-49.7-fold larger literature corpus and reported 1.6-2.4-fold more biological control agents or management solutions than ChatGPT. As a result, DeepSeek reported 21.6% higher efficacy estimates, exhibited greater laboratory-to-field data consistency, and showed more realistic effects of pest identity and management tactics. However, both models hallucinated, i.e., fabricated fictitious agents or references, reported on implausible ecological interactions or outcomes, confused old and new scientific nomenclatures, and omitted data on key agents or solutions. Despite these shortcomings, both LLMs correctly reported low-resolution efficacy trends. Overall, when paired with rigorous human oversight, LLMs may pose a powerful tool to support farm-level decision-making and unleash scientific creativity.