Automated Segmentation and Tracking of Group Housed Pigs Using Foundation Models
作者: Ye Bi, Bimala Acharya, David Rosero, Juan Steibel
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
利用Foundation Model实现猪群的自动分割与跟踪,提升畜牧业智能化水平
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Foundation Model 猪只跟踪 视频分割 精准畜牧 长时间跟踪 目标检测 Grounded-SAM Grounding-DINO
📋 核心要点
- 现有畜牧业智能化方案依赖大量标注数据和重复训练,难以适应不同农场环境。
- 利用预训练视觉-语言Foundation Model作为通用视觉骨干,结合模块化后处理实现农场特定适应。
- 实验表明,该系统在长时间视频中能稳定跟踪猪群个体,显著提升跟踪精度和身份一致性。
📝 摘要(中文)
本研究提出了一种以Foundation Model(FM)为中心的自动化监测猪群的工作流程,旨在减少对任务特定监督学习的依赖,并利用大规模学习的通用视觉表征。在精准畜牧养殖中,现有流程主要依赖需要大量标注数据、重复训练和农场特定调整的监督学习模型。本研究首先应用Grounding-DINO在1418张标注图像上建立基线检测性能。由于夜视和严重遮挡条件下检测精度下降,因此集成了时间跟踪逻辑。基于这些检测结果,评估了Grounded-SAM2在550个一分钟视频片段上的短期视频分割效果。经过后处理,超过80%的4927个活跃轨迹完全正确,剩余误差主要来自不准确的掩码或重复标签。为了支持长时间内身份一致性,进一步开发了长期跟踪流程,集成了初始化、跟踪、匹配、掩码细化、重识别和事后质量控制。该系统在连续132分钟的视频上进行了评估,并在整个过程中保持了稳定的身份。在132个均匀采样的真实帧上,系统实现了0.83的平均区域相似度(J)、0.92的轮廓精度(F)、0.87的J&F、0.99的MOTA和90.7%的MOTP,且没有身份切换。总而言之,这项工作展示了FM先验知识如何与轻量级的任务特定逻辑相结合,从而在猪生产中实现可扩展、标签高效和长时间的监测。
🔬 方法详解
问题定义:论文旨在解决在群体圈养的猪只视频中,如何实现自动、准确且长时间的个体分割与跟踪问题。现有方法依赖于大量的标注数据,并且在光照条件变化(如夜视)和遮挡情况下性能显著下降,难以适应实际农场环境的复杂性。此外,长时间跟踪中身份漂移问题也难以解决。
核心思路:论文的核心思路是利用预训练的Foundation Model(FM)的强大视觉表征能力,结合轻量级的任务特定模块,构建一个可扩展、标签高效的猪只分割与跟踪系统。通过FM提取通用视觉特征,减少对大量标注数据的依赖,并通过模块化设计,灵活适应不同农场环境。
技术框架:整体框架包含以下几个主要模块:1) 基于Grounding-DINO的猪只检测;2) 基于Grounded-SAM2的短期视频分割与跟踪;3) 长时间跟踪流程,包括初始化、跟踪、匹配、掩码细化、重识别和事后质量控制。Grounding-DINO用于初始化检测,Grounded-SAM2用于短时分割,长时间跟踪流程则负责维护个体身份一致性。
关键创新:论文的关键创新在于将预训练的视觉-语言Foundation Model(Grounding-DINO和Grounded-SAM2)应用于猪只的自动分割与跟踪,并设计了一套完整的长时间跟踪流程。与传统方法相比,该方法减少了对大量标注数据的需求,并且具有更好的泛化能力和鲁棒性。
关键设计:在长时间跟踪流程中,采用了多种策略来保证身份一致性,包括:1) 基于外观特征的重识别模块,用于在跟踪失败后重新找回个体;2) 事后质量控制模块,用于检测和纠正跟踪错误;3) 掩码细化模块,用于提高分割精度。此外,论文还针对夜视和遮挡等问题,对模型进行了微调和优化。
🖼️ 关键图片
📊 实验亮点
该系统在132分钟的连续视频上进行了评估,实现了0.83的平均区域相似度(J)、0.92的轮廓精度(F)、0.87的J&F、0.99的MOTA和90.7%的MOTP,且没有身份切换。这些结果表明,该系统能够准确、稳定地跟踪猪群个体,并在长时间内保持身份一致性,显著优于传统方法。
🎯 应用场景
该研究成果可应用于精准畜牧养殖领域,实现对猪群的自动化监测和管理。通过实时跟踪个体猪只的行为和健康状况,可以及时发现异常情况,提高养殖效率,降低疾病风险。此外,该方法还可以推广到其他畜禽养殖场景,具有广阔的应用前景。
📄 摘要(原文)
Foundation models (FM) are reshaping computer vision by reducing reliance on task-specific supervised learning and leveraging general visual representations learned at scale. In precision livestock farming, most pipelines remain dominated by supervised learning models that require extensive labeled data, repeated retraining, and farm-specific tuning. This study presents an FM-centered workflow for automated monitoring of group-housed nursery pigs, in which pretrained vision-language FM serve as general visual backbones and farm-specific adaptation is achieved through modular post-processing. Grounding-DINO was first applied to 1,418 annotated images to establish a baseline detection performance. While detection accuracy was high under daytime conditions, performance degraded under night-vision and heavy occlusion, motivating the integration of temporal tracking logic. Building on these detections, short-term video segmentation with Grounded-SAM2 was evaluated on 550 one-minute video clips; after post-processing, over 80% of 4,927 active tracks were fully correct, with most remaining errors arising from inaccurate masks or duplicated labels. To support identity consistency over an extended time, we further developed a long-term tracking pipeline integrating initialization, tracking, matching, mask refinement, re-identification, and post-hoc quality control. This system was evaluated on a continuous 132-minute video and maintained stable identities throughout. On 132 uniformly sampled ground-truth frames, the system achieved a mean region similarity (J) of 0.83, contour accuracy (F) of 0.92, J&F of 0.87, MOTA of 0.99, and MOTP of 90.7%, with no identity switches. Overall, this work demonstrates how FM prior knowledge can be combined with lightweight, task-specific logic to enable scalable, label-efficient, and long-duration monitoring in pig production.