A Vision-Language Foundation Model for Leaf Disease Identification
作者: Khang Nguyen Quoc, Lan Le Thi Thu, Luyl-Da Quach
分类: cs.CV
发布日期: 2025-05-11
DOI: 10.1016/j.eswa.2025.130084
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出SCOLD,一种用于叶片病害识别的视觉-语言基础模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 叶片病害识别 对比学习 软目标 智慧农业 细粒度分类 多模态融合
📋 核心要点
- 现有叶片病害识别方法难以有效融合图像和文本信息,且依赖通用数据集预训练,缺乏领域知识。
- SCOLD通过软目标对比学习,利用大规模植物图像-文本对进行预训练,提升模型泛化能力和鲁棒性。
- 实验表明,SCOLD在多个任务上优于现有视觉-语言模型,且参数量具有竞争力,无需过多微调。
📝 摘要(中文)
叶片病害识别在智慧农业中起着关键作用。然而,许多现有研究难以整合图像和文本模态,以弥补彼此的局限性。此外,许多方法依赖于使用受限数据集(如ImageNet)进行预训练,缺乏领域特定信息。我们提出了SCOLD(Soft-target COntrastive learning for Leaf Disease identification),一种上下文感知的视觉-语言基础模型,旨在解决农业任务中的这些挑战。SCOLD使用包含超过186,000个图像-文本对的植物叶片图像和相应症状描述的语料库进行开发,这些数据对齐到97个独特的概念。通过任务无关的预训练,SCOLD利用上下文软目标,通过平滑标签来减轻对比学习中的过度自信,从而提高模型在细粒度分类任务中的泛化性和鲁棒性。实验结果表明,SCOLD在零样本和少样本分类、图像-文本检索和图像分类等多个基准测试中,优于现有的视觉-语言模型,如OpenAI-CLIP-L、BioCLIP和SigLIP2,同时保持了具有竞争力的参数规模。消融研究进一步突出了SCOLD相对于同类模型的有效性。该方法显著推进了农业视觉-语言基础模型的发展,以最少或无需监督微调即可提供强大的性能。这项工作为未来研究使用长文本和简化上下文训练的模型、涉及类别模糊的任务以及用于智能植物病害诊断的多模态系统奠定了坚实的基础。
🔬 方法详解
问题定义:现有叶片病害识别方法面临的挑战在于如何有效融合图像和文本两种模态的信息,以克服单一模态的局限性。此外,许多方法依赖于在ImageNet等通用数据集上进行预训练,这些数据集缺乏农业领域的特定知识,导致模型在实际应用中表现不佳。现有方法容易出现过拟合,泛化能力不足,难以处理细粒度的分类任务。
核心思路:SCOLD的核心思路是利用大规模的植物叶片图像和对应的症状描述文本,构建一个上下文感知的视觉-语言基础模型。通过软目标对比学习,SCOLD能够学习到图像和文本之间的细粒度关联,并减轻对比学习中的过度自信问题。这种方法旨在提高模型在细粒度分类任务中的泛化性和鲁棒性,使其能够更好地适应实际应用场景。
技术框架:SCOLD的整体框架包括图像编码器和文本编码器,用于分别提取图像和文本的特征。然后,通过对比学习的方式,将图像和文本的特征映射到同一个语义空间中。为了减轻对比学习中的过度自信问题,SCOLD引入了软目标,即使用概率分布代替硬标签,从而平滑标签,提高模型的泛化能力。整个框架通过大规模的植物图像-文本对进行预训练,然后在特定任务上进行微调。
关键创新:SCOLD的关键创新在于引入了软目标对比学习,用于减轻对比学习中的过度自信问题。传统的对比学习通常使用硬标签,即只将正样本的相似度设置为1,负样本的相似度设置为0。这种方式容易导致模型过度自信,从而影响泛化能力。SCOLD通过使用概率分布作为目标,平滑了标签,从而减轻了过度自信问题,提高了模型的泛化能力。
关键设计:SCOLD的关键设计包括:1) 使用大规模的植物图像-文本对进行预训练,以获取领域特定知识;2) 引入软目标对比学习,以减轻对比学习中的过度自信问题;3) 使用Transformer作为图像和文本编码器,以提取更丰富的特征;4) 使用余弦相似度作为对比学习的相似度度量,以提高模型的鲁棒性。损失函数采用对比损失,并结合软目标进行调整。
🖼️ 关键图片
📊 实验亮点
SCOLD在多个叶片病害识别基准测试中取得了显著的性能提升。在零样本分类任务中,SCOLD优于OpenAI-CLIP-L、BioCLIP和SigLIP2等现有视觉-语言模型。在少样本分类任务中,SCOLD也表现出强大的竞争力。此外,SCOLD在图像-文本检索和图像分类任务中也取得了优异的成绩,证明了其在多模态理解和细粒度分类方面的优势。消融实验进一步验证了软目标对比学习的有效性。
🎯 应用场景
SCOLD在智慧农业领域具有广泛的应用前景,可用于植物病害的快速诊断、精准防治和智能化管理。该模型能够帮助农民和农业专家快速识别叶片病害,从而采取及时的防治措施,减少农作物损失,提高农业生产效率。此外,SCOLD还可以应用于植物生长监测、农产品质量检测等领域,为实现农业现代化提供技术支持。
📄 摘要(原文)
Leaf disease identification plays a pivotal role in smart agriculture. However, many existing studies still struggle to integrate image and textual modalities to compensate for each other's limitations. Furthermore, many of these approaches rely on pretraining with constrained datasets such as ImageNet, which lack domain-specific information. We propose SCOLD (Soft-target COntrastive learning for Leaf Disease identification), a context-aware vision-language foundation model tailored to address these challenges for agricultural tasks. SCOLD is developed using a diverse corpus of plant leaf images and corresponding symptom descriptions, comprising over 186,000 image-caption pairs aligned with 97 unique concepts. Through task-agnostic pretraining, SCOLD leverages contextual soft targets to mitigate overconfidence in contrastive learning by smoothing labels, thereby improving model generalization and robustness on fine-grained classification tasks. Experimental results demonstrate that SCOLD outperforms existing vision-language models such as OpenAI-CLIP-L, BioCLIP, and SigLIP2 across several benchmarks, including zero-shot and few-shot classification, image-text retrieval, and image classification, while maintaining a competitive parameter footprint. Ablation studies further highlight SCOLD's effectiveness in contrast to its counterparts. The proposed approach significantly advances the agricultural vision-language foundation model, offering strong performance with minimal or no supervised fine-tuning. This work lays a solid groundwork for future research on models trained with long-form and simplified contexts, tasks involving class ambiguity, and multi-modal systems for intelligent plant disease diagnostics. The code for this study is available at https://huggingface.co/enalis/scold