AgroVG: A Large-Scale Multi-Source Benchmark for Agricultural Visual Grounding
作者: Haocheng Li, Juepeng Zheng, Zenghao Yang, Kaiqi Du, Guilong Xiao, Gengmeng Pu, Haohuan Fu, Jianxi Huang
分类: cs.CV, cs.AI
发布日期: 2026-05-21
备注: 45 pages,12 figures
💡 一句话要点
AgroVG:用于农业视觉定位的大规模多源基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 农业视觉定位 视觉定位 基准数据集 集合预测 多模态学习
📋 核心要点
- 农业视觉定位面临目标小、遮挡多、形状不规则等挑战,现有方法难以有效处理多目标和目标缺失的情况。
- AgroVG数据集将农业视觉定位形式化为广义集合预测,要求模型返回所有匹配目标或在无目标时退出。
- 实验表明,现有模型在AgroVG数据集上表现不佳,多目标定位和掩码预测的性能仍有较大提升空间。
📝 摘要(中文)
本文提出了AgroVG,一个用于农业视觉定位的多源基准数据集。农业视觉定位旨在根据自然语言描述定位图像中的物体,是选择性除草、疾病监测和靶向收获等农业AI应用的基础能力。由于农业目标通常较小、重复、遮挡或形状不规则,且指令可能指向图像中的一个、多个或没有物体,因此可靠地评估农业视觉定位仍然具有挑战性。AgroVG将农业定位形式化为广义集合预测:给定图像和指代表达式,模型必须返回所有匹配的目标实例,或者在没有目标时选择退出。AgroVG包含来自十个源数据集的10,071个标注图像-查询对,涵盖六个目标类别:作物/杂草、水果、麦穗、害虫、植物病害和树冠。它支持跨所有六个类别的边界框定位(T1)和具有可靠实例级像素注释的源上的实例掩码定位(T2),查询涵盖单目标、多目标和目标缺失的情况。AgroVG还为框集匹配和查询级掩码覆盖提供了特定于任务的协议。对涵盖闭源MLLM、开源VLM和专用定位系统的26种模型配置的零样本评估表明,仍然存在差距:最佳多目标Set-$F_1$仅达到0.35,并且IoU@0.75的最佳正查询掩码成功率低于0.17。
🔬 方法详解
问题定义:农业视觉定位旨在根据自然语言描述在图像中定位目标物体。现有方法在处理农业场景时面临诸多挑战,例如目标物体尺寸小、重复出现、存在遮挡、形状不规则等。此外,查询语句可能指向图像中的单个目标、多个目标,甚至可能不存在目标,这使得现有方法难以同时保证定位精度、目标集合的完整性以及对目标缺失情况的有效处理。
核心思路:AgroVG的核心思路是将农业视觉定位问题转化为一个广义的集合预测问题。这意味着模型不仅需要定位图像中存在的与查询语句相关的目标物体,还需要能够判断图像中是否根本不存在符合查询语句的目标物体。通过这种方式,AgroVG能够更全面地评估模型在农业视觉定位任务中的性能。
技术框架:AgroVG数据集包含来自十个不同来源的图像和查询语句对,涵盖了六个不同的农业目标类别。数据集支持两种类型的定位任务:边界框定位和实例掩码定位。对于每个图像和查询语句对,数据集提供了所有相关目标的边界框或实例掩码标注。此外,AgroVG还定义了用于评估模型性能的特定协议,包括框集匹配和查询级别的掩码覆盖率。
关键创新:AgroVG的关键创新在于其多源性、大规模性和对广义集合预测问题的形式化。与现有的农业视觉定位数据集相比,AgroVG涵盖了更广泛的农业场景和目标类别,并且提供了更全面的评估指标。通过将农业视觉定位问题转化为广义集合预测问题,AgroVG能够更准确地评估模型在实际应用中的性能。
关键设计:AgroVG数据集的设计考虑了农业场景的特殊性。例如,数据集中包含了大量具有挑战性的图像,例如目标物体尺寸小、重复出现、存在遮挡等。此外,数据集还包含了多种类型的查询语句,例如描述单个目标、多个目标或不存在目标的查询语句。为了评估模型在不同情况下的性能,AgroVG定义了特定的评估协议,例如框集匹配和查询级别的掩码覆盖率。
🖼️ 关键图片
📊 实验亮点
对26种模型配置的零样本评估显示,现有模型在AgroVG数据集上表现不佳。最佳多目标Set-$F_1$仅为0.35,表明多目标定位能力不足。IoU@0.75下的最佳正查询掩码成功率低于0.17,说明精确掩码预测仍有很大提升空间。这些结果突显了农业视觉定位领域的挑战,并为未来的研究方向提供了指导。
🎯 应用场景
AgroVG数据集的潜在应用领域包括精准农业、智能农业机器人、农作物病虫害监测与防治等。该数据集能够促进农业视觉定位算法的研发,提高农业生产效率,降低生产成本,并减少农药的使用,实现可持续农业发展。未来,基于AgroVG的研究有望推动农业智能化转型。
📄 摘要(原文)
Visual grounding, the task of localizing objects described by natural-language expressions, is a foundational capability for agricultural AI systems, enabling applications such as selective weeding, disease monitoring, and targeted harvesting. Reliable evaluation of agricultural visual grounding remains challenging because agricultural targets are often small, repetitive, occluded, or irregularly shaped, and instructions may refer to one, many, or no objects in an image. Evaluating this capability therefore requires jointly testing localization accuracy, target-set completeness, and existence-aware abstention. To address these challenges, we introduce \textbf{AgroVG}, a multi-source benchmark that formulates agricultural grounding as generalized set prediction: given an image and a referring expression, a model must return all matching target instances or abstain when no target is present. AgroVG contains 10{,}071 annotation-grounded image-query pairs from ten source datasets across six target families: crop/weed, fruit, wheat head, pest, plant disease, and tree canopy. It supports bounding-box grounding (T1) across all six families and instance-mask grounding (T2) on sources with reliable instance-level pixel annotations, with queries covering single-target, multi-target, and target-absent regimes. AgroVG further provides task-specific protocols for box-set matching and query-level mask coverage. Zero-shot evaluation of 26 model configurations spanning closed-source MLLMs, open-source VLMs, and specialized grounding systems reveals persistent gaps: the best multi-target Set-$F_1$ reaches only 0.35, and the best positive-query mask success rate at IoU@0.75 remains below 0.17. Data and code are available at https://anonymous.4open.science/r/AgroVG-5172/ .