Evaluating Digital Inclusiveness of Digital Agri-Food Tools Using Large Language Models: A Comparative Analysis Between Human and AI-Based Evaluations
作者: Githma Pewinya, Carolina Martins, Garcia Mariangel
分类: cs.CY, cs.CL
发布日期: 2026-04-07
💡 一句话要点
利用大语言模型评估数字农业工具的数字包容性,加速并扩展评估流程。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数字包容性 大型语言模型 农业科技 自动化评估 多维数字包容性指数
📋 核心要点
- 现有数字农业工具包容性评估依赖人工,耗时耗力,难以快速响应需求。
- 利用大语言模型(LLM)进行自动化评估,旨在加速并扩展数字包容性的评估流程。
- 实验对比了多种LLM在评估数字包容性方面的表现,验证了其在特定维度上近似专家判断的能力。
📝 摘要(中文)
确保数字包容性是农业食品系统中的关键优先事项,尤其是在全球南方,那里数字鸿沟依然存在。多维数字包容性指数(MDII)提供了一个全面的、以人为中心的框架来评估数字农业工具(agritools)的包容性。然而,当前的评估过程资源密集,通常需要数月才能完成。本研究探讨了大型语言模型(LLM)是否可以支持对数字包容性的快速、AI驱动的评估,以补充MDII现有的工作流程。通过比较分析,该研究将四种LLM(Grok、Gemini、GPT-4o 和 GPT-5)的性能与先前专家主导的评估进行基准测试。研究调查了模型与人类评分的一致性、对温度设置的敏感性以及潜在的偏差来源。研究结果表明,LLM可以生成在某些维度上近似专家判断的评估输出,但可靠性因模型和上下文而异。这项探索性工作为将GenAI集成到包容性数字发展监测中提供了早期证据,对在时间敏感或资源受限的环境中扩展评估具有重要意义。
🔬 方法详解
问题定义:论文旨在解决数字农业工具包容性评估过程中人工评估耗时耗力的问题。现有方法依赖专家进行多维度的评估,效率低下,难以满足快速迭代和大规模推广的需求。尤其是在资源有限的地区,这种评估方式的局限性更加明显。
核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,模拟专家评估的过程,实现对数字农业工具包容性的自动化评估。通过将MDII框架与LLM相结合,旨在降低评估成本,提高评估效率,并为包容性数字农业发展提供更及时的反馈。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的LLM模型(Grok、Gemini、GPT-4o 和 GPT-5);2) 构建包含数字农业工具描述和MDII评估标准的提示(Prompt);3) 利用LLM生成评估结果;4) 将LLM的评估结果与专家评估结果进行对比分析,评估LLM的性能。研究还考察了温度设置对LLM评估结果的影响,并分析了潜在的偏差来源。
关键创新:该研究的关键创新在于探索了利用LLM进行数字包容性评估的可能性,并验证了LLM在特定维度上近似专家判断的能力。这为自动化评估和大规模推广包容性数字农业工具提供了新的思路。此外,该研究还关注了LLM评估的可靠性和潜在偏差,为后续研究提供了参考。
关键设计:研究中,提示工程(Prompt Engineering)是关键设计之一,需要设计清晰明确的提示,引导LLM理解MDII评估标准并生成准确的评估结果。温度参数的设置也会影响LLM的生成结果,需要在可靠性和多样性之间进行权衡。此外,如何量化LLM评估结果与专家评估结果之间的差异,也是一个重要的技术细节。
📊 实验亮点
研究结果表明,LLM在某些维度上可以生成近似专家判断的评估输出,证明了LLM在数字包容性评估方面的潜力。不同LLM的表现存在差异,表明模型选择对评估结果有重要影响。温度设置对LLM的评估结果有显著影响,需要在可靠性和多样性之间进行权衡。该研究为将GenAI集成到包容性数字发展监测中提供了早期证据。
🎯 应用场景
该研究成果可应用于数字农业工具的快速评估和筛选,帮助决策者选择更具包容性的工具,促进数字农业的普及和发展。此外,该方法还可推广到其他领域的数字包容性评估,例如数字医疗、数字教育等,为构建更加公平和包容的数字社会提供支持。未来,可以结合用户反馈和实际使用数据,进一步优化LLM的评估模型,提高评估的准确性和可靠性。
📄 摘要(原文)
Ensuring digital inclusiveness is a critical priority in agri-food systems, particularly in the Global South, where digital divides persist. The Multidimensional Digital Inclusiveness Index (MDII) offers a comprehensive, human-led framework to assess how inclusive digital agricultural tools (agritools) are. However, the current evaluation process is resource intensive, often requiring months to complete. This study explores whether large language models (LLMs) can support a rapid, AI-enabled assessment of digital inclusiveness, complementing the MDII's existing workflow. Using a comparative analysis, the research benchmarks the performance of four LLMs (Grok, Gemini, GPT-4o, and GPT-5) against prior expert-led evaluations. The study investigates model alignment with human scores, sensitivity to temperature settings, and potential sources of bias. Findings suggest that LLMs can generate evaluative outputs that approximate expert judgment in some dimensions, though reliability varies across models and contexts. This exploratory work provides early evidence for the integration of GenAI into inclusive digital development monitoring, with implications for scaling evaluations in time-sensitive or resource-constrained environments.