FruitEnsemble: MLLM-Guided Arbitration for Heterogeneous ensemble in Fine-Grained Fruit Recognition

📄 arXiv: 2605.20892v1 📥 PDF

作者: Enhui Yu, Junhui Li, Ruitong Lu, Jialu Li, Youshan Zhang

分类: cs.CV

发布日期: 2026-05-20

备注: 10 pages,6 figures,submitted to CVPR 2026

期刊: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) 2026


💡 一句话要点

FruitEnsemble:MLLM引导的异构集成方法,用于细粒度水果识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细粒度识别 水果分类 多模态融合 模型集成 大型语言模型 农业视觉 动态推理

📋 核心要点

  1. 细粒度水果识别面临数据集匮乏和类间相似度高的挑战,现有方法泛化能力有限。
  2. FruitEnsemble通过异构模型集成生成候选,并用MLLM进行视觉验证,提升识别精度。
  3. 实验表明,FruitEnsemble在水果分类上达到70.49%的准确率,超越现有方法。

📝 摘要(中文)

细粒度水果分类是农业计算机视觉中一项关键但具有挑战性的任务,主要受限于高质量数据集的严重短缺以及类间高度的视觉相似性。为了应对这些挑战,我们首先构建了一个包含306个水果类别和116,233个样本的综合数据集。此外,我们提出了一种实用的两阶段动态推理框架FruitEnsemble,旨在克服静态单模型架构的泛化局限性。在第一阶段,FruitEnsemble采用经过验证集校准的异构骨干网络加权集成,以生成一个鲁棒的Top-3候选池。为了处理困难样本,我们引入了一种专家仲裁机制:当集成置信度低于0.6时,将触发多模态大型语言模型(MLLM),通过使用思维链(CoT)推理整合外部植物学描述来执行严格的视觉验证。此外,我们使用感知困难样本的联合损失优化了训练流程。大量实验表明,FruitEnsemble实现了70.49%的分类准确率,优于现有的最先进模型。我们的框架为现实世界的农业视觉分拣和质量检验任务提供了一种高效、面向部署的解决方案。

🔬 方法详解

问题定义:细粒度水果识别任务旨在区分视觉上相似的不同水果品种。现有方法受限于高质量数据集的缺乏,以及模型泛化能力不足,难以有效处理类间差异细微的样本。静态的单模型架构难以适应复杂多变的水果图像特征,导致识别精度不高。

核心思路:FruitEnsemble的核心思路是结合异构模型的优势,并通过多模态信息融合来提升识别精度。首先,利用多个不同结构的神经网络进行集成,以获得更鲁棒的预测结果。然后,针对难以区分的样本,引入多模态大型语言模型(MLLM),利用其对外部知识的理解能力,进行视觉验证和推理,从而提高识别的准确性。

技术框架:FruitEnsemble是一个两阶段的动态推理框架。第一阶段是基于验证集校准的异构模型集成,多个不同骨干网络的模型对输入图像进行预测,并根据验证集上的性能进行加权融合,生成Top-3候选类别。第二阶段是专家仲裁机制,当集成模型的置信度低于阈值(0.6)时,触发MLLM进行视觉验证。MLLM通过Chain-of-Thought (CoT) 推理,结合外部植物学描述,对候选类别进行逐一验证,最终给出预测结果。

关键创新:该论文的关键创新在于引入了MLLM进行专家仲裁,将视觉信息与外部知识相结合,有效提升了细粒度识别的准确性。与传统的单模型或静态集成方法不同,FruitEnsemble能够根据样本的难易程度动态调整推理策略,从而更好地适应复杂场景。

关键设计:在模型集成阶段,使用验证集对不同骨干网络的权重进行校准,以获得最佳的集成效果。在MLLM仲裁阶段,使用Chain-of-Thought (CoT) 推理,引导MLLM逐步分析图像特征和外部知识,从而提高推理的准确性。此外,论文还使用了感知困难样本的联合损失函数,以优化模型的训练过程,提高对困难样本的识别能力。具体损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FruitEnsemble在包含306个水果类别的数据集上实现了70.49%的分类准确率,超越了现有的最先进模型。该框架通过异构模型集成和MLLM仲裁,有效提升了细粒度水果识别的精度,为实际应用提供了可靠的解决方案。具体的基线模型和提升幅度未知。

🎯 应用场景

FruitEnsemble可应用于农业领域的视觉分拣和质量检测,例如自动识别水果品种、检测水果缺陷等。该技术能够提高农业生产效率,降低人工成本,并提升产品质量。未来,该框架可扩展到其他细粒度识别任务,如植物病虫害识别、食品安全检测等。

📄 摘要(原文)

Fine-grained fruit classification is a critical yet challenging task in agricultural computer vision, primarily hindered by a severe shortage of high-quality datasets and the high visual similarity between classes. To address these challenges, we first constructed a comprehensive dataset comprising 306 fruit categories with 116,233 samples. Moreover, we propose FruitEnsemble, a practical two-stage dynamic inference framework designed to overcome the generalization limitations of static single-model architectures. In the first stage, FruitEnsemble employs a validation-calibrated weighted ensemble of heterogeneous backbones to generate a robust Top-3 candidate pool. To tackle difficult samples, we introduce an expert arbitration mechanism: when ensemble confidence falls below 0.6, a multimodal large language model (MLLM) is triggered to perform rigorous visual verification by integrating external botanical descriptions using Chain-of-Thought (CoT) reasoning. Furthermore, we optimized the training pipeline with a hard sample-aware joint loss. Extensive experiments demonstrate that FruitEnsemble achieves a classification accuracy of 70.49\% and outperforms existing state-of-the-art models. Our framework provides an efficient, deployment-oriented solution for real-world agricultural visual sorting and quality inspection tasks.