AgriPestDatabase-v1.0: A Structured Insect Dataset for Training Agricultural Large Language Model
作者: Yagizhan Bilal Durak, Ahsan Ul Islam, Shahidul Islam, Ashley Morgan-Olvera, Iftekhar Ibne Basith, Syed Hasib Akhter Faruqui
分类: cs.AI
发布日期: 2026-03-24
备注: Accepted in Artificial Super Intelligence Conference 2026 (Sponsored by KSU PLOT & IEEE CIS)
💡 一句话要点
构建农业害虫知识库并微调轻量级LLM,为农业领域提供边缘设备决策支持
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 农业害虫管理 大型语言模型 边缘计算 知识库构建 LoRA微调
📋 核心要点
- 农业害虫管理缺乏高质量标注数据和专家支持,尤其是在网络不发达地区。
- 构建结构化昆虫信息数据集AgriPestDatabase-v1.0,并微调轻量级LLM以适应边缘设备。
- Mistral 7B在领域问答任务中表现最佳,通过率达88.9%,语义对齐度高。
📝 摘要(中文)
农业害虫管理越来越依赖于及时准确地获取专家知识,但高质量的标注数据和持续的专家支持仍然有限,特别是对于在互联网连接不稳定或没有互联网连接的农村地区运营的农民。与此同时,人工智能和大型语言模型(LLM)的快速发展为通过紧凑且可部署的系统直接向农业终端用户提供实用的决策支持工具创造了新的机会。本研究旨在(i)生成一个结构化的昆虫信息数据集AgriPestDatabase-v1.0,以及(ii)通过微调轻量级LLM(≤7B)来使其适应农业害虫管理中的边缘设备使用。文本数据收集通过审查和收集来自现有害虫数据库和已发表的关于九种选定害虫物种的手稿的信息来完成。然后,这些结构化报告由领域专家审查和验证。从这些报告中,我们构建了问答对,以支持模型训练和评估。将基于LoRA的微调方法应用于多个轻量级LLM并进行了评估。初步评估表明,Mistral 7B在特定领域的问答任务中达到了88.9%的通过率,大大优于Qwen 2.5 7B(63.9%)和LLaMA 3.1 8B(58.7%)。值得注意的是,Mistral表现出更高的语义对齐(嵌入相似度:0.865),尽管词汇重叠较低(BLEU:0.097),这表明语义理解和强大的推理能力比专业领域中的表面一致性更能预测任务成功。通过结合专家组织的数据、结构良好的问答对、语义质量控制和高效的模型适应,这项工作有助于为面向农民的农业决策支持工具提供支持,并证明了部署紧凑、高性能语言模型以提供实地害虫管理指导的可行性。
🔬 方法详解
问题定义:论文旨在解决农业害虫管理中专家知识获取困难的问题,尤其是在互联网不发达地区。现有方法依赖人工查询和专家咨询,效率低且成本高,难以满足农民对及时、准确信息的迫切需求。现有方法缺乏针对边缘设备优化的轻量级模型,难以在资源受限的环境中部署。
核心思路:论文的核心思路是构建一个结构化的农业害虫知识库,并利用该知识库微调轻量级大型语言模型(LLM),使其能够在边缘设备上提供实时的害虫管理决策支持。通过专家整理的数据、结构化的问答对以及语义质量控制,提高模型的准确性和可靠性。
技术框架:整体框架包括数据收集与构建、模型微调与评估两个主要阶段。数据收集阶段,从现有害虫数据库和已发表文献中收集信息,构建结构化报告,并由领域专家验证。然后,基于这些报告构建问答对。模型微调阶段,采用LoRA(Low-Rank Adaptation)方法对多个轻量级LLM进行微调。最后,通过领域特定的问答任务评估模型的性能。
关键创新:该论文的关键创新在于构建了一个结构化的农业害虫知识库AgriPestDatabase-v1.0,并证明了轻量级LLM在农业害虫管理边缘设备应用中的可行性。与现有方法相比,该方法能够提供更及时、准确、经济的决策支持,且无需依赖稳定的互联网连接。
关键设计:论文采用了LoRA进行模型微调,以减少计算资源需求。选择Mistral 7B、Qwen 2.5 7B和LLaMA 3.1 8B等轻量级模型进行实验。使用领域特定的问答对进行模型评估,并采用通过率、BLEU和嵌入相似度等指标来衡量模型的性能。特别关注语义对齐,而非仅仅是词汇重叠。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过微调的Mistral 7B模型在领域特定的问答任务中表现最佳,通过率达到88.9%,显著优于Qwen 2.5 7B(63.9%)和LLaMA 3.1 8B(58.7%)。Mistral 7B表现出更高的语义对齐度(0.865),表明其具有更强的语义理解和推理能力。
🎯 应用场景
该研究成果可应用于开发面向农民的农业决策支持工具,帮助农民及时识别和管理害虫,提高农作物产量和质量。该系统可在无网络或网络不稳定的地区部署,为偏远地区的农业生产提供技术支持。未来,可扩展到其他农业领域,如病害诊断、作物管理等。
📄 摘要(原文)
Agricultural pest management increasingly relies on timely and accurate access to expert knowledge, yet high quality labeled data and continuous expert support remain limited, particularly for farmers operating in rural regions with unstable/no internet connectivity. At the same time, the rapid growth of AI and LLMs has created new opportunities to deliver practical decision support tools directly to end users in agriculture through compact and deployable systems. This work addresses (i) generating a structured insect information dataset, and (ii) adapting a lightweight LLM model ($\leq$ 7B) by fine tuning it for edge device uses in agricultural pest management. The textual data collection was done by reviewing and collecting information from available pest databases and published manuscripts on nine selected pest species. These structured reports were then reviewed and validated by a domain expert. From these reports, we constructed Q/A pairs to support model training and evaluation. A LoRA-based fine-tuning approach was applied to multiple lightweight LLMs and evaluated. Initial evaluation shows that Mistral 7B achieves an 88.9\% pass rate on the domain-specific Q/A task, substantially outperforming Qwen 2.5 7B (63.9\%), and LLaMA 3.1 8B (58.7\%). Notably, Mistral demonstrates higher semantic alignment (embedding similarity: 0.865) despite lower lexical overlap (BLEU: 0.097), indicating that semantic understanding and robust reasoning are more predictive of task success than surface-level conformity in specialized domains. By combining expert organized data, well-structured Q/A pairs, semantic quality control, and efficient model adaptation, this work contributes towards providing support for farmer facing agricultural decision support tools and demonstrates the feasibility of deploying compact, high-performing language models for practical field-level pest management guidance.