Monitoring Horses in Stalls: From Object to Event Detection

📄 arXiv: 2510.17409v1 📥 PDF

作者: Dmitrii Galimzianov, Viacheslav Vyshegorodtsev, Ivan Nezhivykh

分类: cs.CV

发布日期: 2025-10-20

备注: 12 pages, 4 figures, 4 tables


💡 一句话要点

提出基于YOLOv11和BoT-SORT的马厩马匹行为监测系统,用于早期健康问题检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 马匹监测 目标检测 多目标跟踪 YOLOv11 BoT-SORT 行为识别 智慧畜牧业

📋 核心要点

  1. 现有马厩监测依赖人工,耗时耗力,难以实现健康问题的早期预警。
  2. 利用YOLOv11和BoT-SORT,结合物体轨迹和空间关系,实现马匹和人员的自动检测与行为识别。
  3. 自建数据集并使用CLIP和GroundingDINO辅助标注,系统能区分五种事件类型,初步验证了马匹行为监测的有效性。

📝 摘要(中文)

本研究提出了一种基于视觉的马厩马匹行为监测原型系统,旨在自动检测和跟踪马厩内的马匹和人员,从而及早发现健康和福利问题。该系统利用YOLOv11进行目标检测,BoT-SORT进行多目标跟踪,并通过物体轨迹和马厩内的空间关系推断事件状态。为了支持开发,我们构建了一个自定义数据集,并借助基础模型CLIP和GroundingDINO进行标注。该系统能够区分五种事件类型,并考虑了摄像头的盲区。定性评估表明,该系统在马匹相关事件的检测方面表现可靠,但由于数据稀缺,人员检测方面存在局限性。这项工作为马科动物设施中的实时行为监测奠定了基础,对动物福利和马厩管理具有重要意义。

🔬 方法详解

问题定义:该论文旨在解决马厩环境中人工监测马匹行为效率低、成本高的问题。现有方法难以实现对马匹健康和福利问题的早期预警,需要一种自动化的、实时的监测系统。现有方法的痛点在于缺乏有效的目标检测和跟踪技术,以及对马匹行为事件的准确识别能力。

核心思路:论文的核心思路是利用计算机视觉技术,特别是目标检测和多目标跟踪技术,自动识别马厩中的马匹和人员,并根据它们的行为轨迹和空间关系推断出特定的事件状态。通过这种方式,可以实现对马匹行为的实时监测,从而及早发现潜在的健康问题。

技术框架:该系统的整体框架包括以下几个主要模块:1) 数据集构建:构建包含马匹和人员的图像数据集,并使用CLIP和GroundingDINO辅助标注。2) 目标检测:使用YOLOv11检测图像中的马匹和人员。3) 多目标跟踪:使用BoT-SORT跟踪检测到的目标,生成目标的轨迹信息。4) 事件推断:根据目标的轨迹和空间关系,推断出预定义的事件类型,例如站立、躺卧、进食等。5) 盲区处理:考虑摄像头的盲区,避免因盲区导致的事件误判。

关键创新:该论文的关键创新在于将YOLOv11和BoT-SORT应用于马厩环境下的马匹行为监测,并结合物体轨迹和空间关系进行事件推断。与传统的人工监测方法相比,该系统能够实现自动化、实时监测,大大提高了监测效率。此外,使用CLIP和GroundingDINO辅助标注,降低了数据集构建的成本。

关键设计:在目标检测方面,选择了YOLOv11,因为它具有较高的检测精度和速度。在多目标跟踪方面,选择了BoT-SORT,因为它在处理遮挡和身份切换方面表现良好。在事件推断方面,定义了五种常见的马匹行为事件,并根据实际情况设置了相应的阈值和规则。此外,还考虑了摄像头的盲区,并采取相应的措施来避免误判。

📊 实验亮点

该系统在马匹相关事件的检测方面表现出可靠的性能,能够有效区分预定义的五种事件类型。定性评估表明,该系统能够准确识别马匹的站立、躺卧等行为。虽然在人员检测方面由于数据稀缺存在局限性,但整体结果表明该系统具有良好的应用潜力。

🎯 应用场景

该研究成果可应用于智慧畜牧业,实现对马匹等动物的健康和福利进行实时监测,及时发现异常行为,减少人工干预,提高养殖效率和动物福利水平。未来可扩展到其他动物养殖场景,并结合传感器数据,实现更全面的智能化管理。

📄 摘要(原文)

Monitoring the behavior of stalled horses is essential for early detection of health and welfare issues but remains labor-intensive and time-consuming. In this study, we present a prototype vision-based monitoring system that automates the detection and tracking of horses and people inside stables using object detection and multi-object tracking techniques. The system leverages YOLOv11 and BoT-SORT for detection and tracking, while event states are inferred based on object trajectories and spatial relations within the stall. To support development, we constructed a custom dataset annotated with assistance from foundation models CLIP and GroundingDINO. The system distinguishes between five event types and accounts for the camera's blind spots. Qualitative evaluation demonstrated reliable performance for horse-related events, while highlighting limitations in detecting people due to data scarcity. This work provides a foundation for real-time behavioral monitoring in equine facilities, with implications for animal welfare and stable management.