Benchmarking In-the-wild Multimodal Disease Recognition and A Versatile Baseline

📄 arXiv: 2408.03120v1 📥 PDF

作者: Tianqi Wei, Zhi Chen, Zi Huang, Xin Yu

分类: cs.CV

发布日期: 2024-08-06


💡 一句话要点

提出野外多模态植物病害识别数据集与多原型融合基线模型,解决类间差异小、类内差异大的难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 植物病害识别 多模态学习 野外环境 数据集构建 原型学习 少样本学习 无监督学习

📋 核心要点

  1. 现有植物病害识别模型在实验室环境下表现良好,但在野外图像中性能显著下降,面临类间差异小、类内差异大的挑战。
  2. 论文提出多模态数据集,包含图像和文本描述,并设计多原型融合基线模型,利用文本信息缓解类间差异小、类内差异大的问题。
  3. 实验表明,该数据集对现有方法构成挑战,基线模型在疾病分类和少样本/无训练识别方面表现出潜力,未来仍有提升空间。

📝 摘要(中文)

现有的植物病害分类模型在识别实验室环境下的病害图像方面取得了显著的性能。然而,它们在分类野外图像时的性能通常会显著下降。我们观察到,野外植物图像可能在不同疾病之间表现出相似的外观(即,类间差异小),而同一种疾病可能看起来截然不同(即,类内差异大)。受此启发,我们提出了一个野外多模态植物病害识别数据集,该数据集包含最大数量的疾病类别,并且为每种疾病提供了基于文本的描述。特别地,新提供的文本描述被引入以提供文本模态中的丰富信息,并促进解决类间差异小和类内差异大问题的野外疾病分类。因此,我们提出的数据集可以被认为是评估真实世界中疾病识别方法的理想测试平台。此外,我们进一步提出了一个强大而通用的基线,该基线通过给定类的多个原型来建模文本描述和视觉数据。通过融合多模态原型在分类中的贡献,我们的基线可以有效地解决类间差异小和类内差异大的问题。值得注意的是,我们的基线模型不仅可以分类疾病,还可以在少样本或无训练场景中识别疾病。广泛的基准测试结果表明,我们提出的野外多模态数据集为植物病害识别任务带来了许多新的挑战,并且未来还有很大的改进空间。

🔬 方法详解

问题定义:现有植物病害识别模型在实验室环境下表现良好,但在实际野外场景中,由于光照、角度、遮挡等因素的影响,以及不同疾病外观相似、同种疾病外观差异大的问题,导致模型性能显著下降。现有方法缺乏对野外环境的适应性,并且忽略了文本描述等辅助信息。

核心思路:论文的核心思路是利用多模态信息(图像和文本)来提升野外植物病害识别的准确性。通过引入文本描述,可以为模型提供更丰富的语义信息,从而区分外观相似的疾病。同时,采用多原型融合的方法,可以更好地建模类内差异,提升模型的鲁棒性。

技术框架:整体框架包含两个主要部分:一是构建野外多模态植物病害数据集,包含图像和文本描述;二是提出多原型融合基线模型。该模型首先分别提取图像和文本特征,然后为每个类别学习多个原型表示,最后通过融合多模态原型的信息进行疾病分类。该框架支持疾病分类、少样本学习和无训练识别等多种任务。

关键创新:论文的关键创新在于:1) 提出了一个大规模的野外多模态植物病害数据集,为研究野外环境下的疾病识别提供了数据基础;2) 提出了多原型融合的基线模型,有效地利用了图像和文本信息,缓解了类间差异小、类内差异大的问题;3) 该模型具有良好的泛化能力,可以应用于少样本和无训练场景。

关键设计:在数据集构建方面,收集了大量野外植物病害图像,并为每种疾病编写了详细的文本描述。在模型设计方面,采用了预训练的图像和文本编码器提取特征,并使用对比学习的方法学习原型表示。分类时,采用加权融合的方式,将不同原型的信息进行整合。损失函数包括分类损失和对比学习损失,用于优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了一个全新的野外多模态植物病害数据集,并提供了一个强大的基线模型。实验结果表明,该数据集对现有方法提出了新的挑战,基线模型在疾病分类任务上取得了有竞争力的结果,并且在少样本和无训练场景下也表现出良好的性能。具体性能数据未知,但论文强调了未来仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于智能农业领域,帮助农民快速准确地识别植物病害,及时采取防治措施,减少农作物损失,提高农业生产效率。此外,该技术还可用于植物病害监测、预警和溯源,为农业可持续发展提供技术支持。

📄 摘要(原文)

Existing plant disease classification models have achieved remarkable performance in recognizing in-laboratory diseased images. However, their performance often significantly degrades in classifying in-the-wild images. Furthermore, we observed that in-the-wild plant images may exhibit similar appearances across various diseases (i.e., small inter-class discrepancy) while the same diseases may look quite different (i.e., large intra-class variance). Motivated by this observation, we propose an in-the-wild multimodal plant disease recognition dataset that contains the largest number of disease classes but also text-based descriptions for each disease. Particularly, the newly provided text descriptions are introduced to provide rich information in textual modality and facilitate in-the-wild disease classification with small inter-class discrepancy and large intra-class variance issues. Therefore, our proposed dataset can be regarded as an ideal testbed for evaluating disease recognition methods in the real world. In addition, we further present a strong yet versatile baseline that models text descriptions and visual data through multiple prototypes for a given class. By fusing the contributions of multimodal prototypes in classification, our baseline can effectively address the small inter-class discrepancy and large intra-class variance issues. Remarkably, our baseline model can not only classify diseases but also recognize diseases in few-shot or training-free scenarios. Extensive benchmarking results demonstrate that our proposed in-the-wild multimodal dataset sets many new challenges to the plant disease recognition task and there is a large space to improve for future works.