AgriChain Visually Grounded Expert Verified Reasoning for Interpretable Agricultural Vision Language Models
作者: Hazza Mahmood, Yongqiang Yu, Rao Anwer
分类: cs.CV
发布日期: 2026-04-09
备注: 9 pages
期刊: LREC 2026
🔗 代码/项目: GITHUB
💡 一句话要点
AgriChain:基于视觉专家验证推理的可解释农业视觉语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 农业视觉语言模型 植物病害诊断 思维链推理 专家验证 可解释性AI
📋 核心要点
- 现有视觉语言模型在植物病害诊断中面临准确性和可解释性不足的挑战,难以满足实际农业需求。
- AgriChain通过构建专家验证的思维链推理数据集,并微调视觉语言模型,提升模型在农业领域的推理能力。
- 实验结果表明,该方法显著提高了植物病害诊断的准确率和可解释性,优于多个强大的基线模型。
📝 摘要(中文)
针对现实农业中视觉语言模型(VLMs)在植物病害诊断方面准确性和可解释性不足的挑战,本文提出了AgriChain数据集。该数据集包含约11,000张由专家整理的叶片图像,涵盖多种作物和病理,每张图像都配有(i)疾病标签,(ii)校准的置信度评分(高/中/低),以及(iii)专家验证的思维链(CoT)推理。草稿解释首先由GPT-4o生成,然后由专业农业工程师使用标准化描述符(例如,病变颜色、边缘和分布)进行验证。本文在AgriChain上微调了Qwen2.5-VL-3B,得到一个专门的模型AgriChain-VL3B,用于联合预测疾病并生成视觉基础推理。在一个包含1,000张图像的测试集上,本文的CoT监督模型实现了73.1%的top-1准确率(宏F1 = 0.466;加权F1 = 0.655),优于包括Gemini 1.5 Flash、Gemini 2.5 Pro和GPT-4o Mini在内的强大基线。生成的解释与专家推理紧密对齐,始终参考关键视觉线索。这些发现表明,专家验证的推理监督显著提高了准确性和可解释性,弥合了通用多模态模型与人类专业知识之间的差距,并推进了可信赖的、全球可部署的AI以实现可持续农业。
🔬 方法详解
问题定义:现有视觉语言模型在植物病害诊断任务中,缺乏足够的准确性和可解释性。模型难以提供可靠的推理过程,导致用户难以信任诊断结果,限制了其在实际农业生产中的应用。现有方法依赖于通用数据集,缺乏针对农业领域的专业知识和数据标注,导致模型性能不佳。
核心思路:本文的核心思路是利用专家知识来指导视觉语言模型的训练,从而提高模型在植物病害诊断任务中的准确性和可解释性。具体而言,通过构建一个包含专家验证的思维链推理的数据集,并利用该数据集对视觉语言模型进行微调,使模型能够学习到专家的推理过程,从而生成更准确、更可信的诊断结果。
技术框架:整体框架包含数据收集与标注、模型微调和评估三个主要阶段。首先,收集大量叶片图像,并由GPT-4o生成初步的思维链解释。然后,由专业农业工程师对这些解释进行验证和修改,确保解释的准确性和专业性。接着,使用AgriChain数据集对Qwen2.5-VL-3B模型进行微调,得到AgriChain-VL3B模型。最后,在一个独立的测试集上评估模型的性能,包括准确率、F1值和解释质量。
关键创新:最重要的技术创新点在于引入了专家验证的思维链推理作为监督信号。与传统的监督学习方法不同,本文不仅提供了疾病标签,还提供了专家对诊断过程的详细解释。这种专家验证的解释能够帮助模型更好地理解图像中的关键视觉线索,并生成更符合人类逻辑的推理过程。
关键设计:在数据标注方面,采用了标准化的描述符来描述病变特征,例如病变颜色、边缘和分布。在模型微调方面,使用了交叉熵损失函数来优化疾病分类的准确率,并使用语言模型损失函数来优化思维链解释的生成质量。此外,还使用了校准的置信度评分来指导模型的训练,使模型能够更好地识别不同难度的样本。
🖼️ 关键图片
📊 实验亮点
AgriChain-VL3B模型在包含1000张图像的测试集上实现了73.1%的top-1准确率,宏F1值为0.466,加权F1值为0.655。该模型显著优于Gemini 1.5 Flash、Gemini 2.5 Pro和GPT-4o Mini等基线模型。生成的解释与专家推理高度一致,能够准确地捕捉图像中的关键视觉线索,证明了专家验证的推理监督能够有效提升模型的性能和可解释性。
🎯 应用场景
该研究成果可应用于智能农业领域,为农民提供准确、可信的植物病害诊断服务。通过部署在移动设备或农业机器人上,可以帮助农民及时发现和处理病害,减少农药使用,提高作物产量和质量,促进可持续农业发展。未来,该技术还可扩展到其他农业领域,如虫害识别、作物生长监测等。
📄 摘要(原文)
Accurate and interpretable plant disease diagnosis remains a major challenge for vision-language models (VLMs) in real-world agriculture. We introduce AgriChain, a dataset of approximately 11,000 expert-curated leaf images spanning diverse crops and pathologies, each paired with (i) a disease label, (ii) a calibrated confidence score (High/Medium/Low), and (iii) an expert-verified chain-of-thought (CoT) rationale. Draft explanations were first generated by GPT-4o and then verified by a professional agricultural engineer using standardized descriptors (e.g., lesion color, margin, and distribution). We fine-tune Qwen2.5-VL-3B on AgriChain, resulting in a specialized model termed AgriChain-VL3B, to jointly predict diseases and generate visually grounded reasoning. On a 1,000-image test set, our CoT-supervised model achieves 73.1% top-1 accuracy (macro F1 = 0.466; weighted F1 = 0.655), outperforming strong baselines including Gemini 1.5 Flash, Gemini 2.5 Pro, and GPT-4o Mini. The generated explanations align closely with expert reasoning, consistently referencing key visual cues. These findings demonstrate that expert-verified reasoning supervision significantly enhances both accuracy and interpretability, bridging the gap between generic multimodal models and human expertise, and advancing trustworthy, globally deployable AI for sustainable agriculture. The dataset and code are publicly available at: https://github.com/hazzanabeel12-netizen/agrichain