PlayClass: Automated Play Behaviour Classification in Poultry

📄 arXiv: 2605.27304v1 📥 PDF

作者: Prince Ravi Leow, Neil Scheidwasser, Rebecca Oscarsson, Per Jensen, Samir Bhatt, David Alejandro Duchêne

分类: cs.CV

发布日期: 2026-05-26

备注: Accepted at CV4Animals Workshop @ CVPR 2026


💡 一句话要点

PlayClass:一种用于家禽玩耍行为自动分类的流水线方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 家禽福利 行为识别 视频分析 目标跟踪 深度学习 基础模型 自动化监测

📋 核心要点

  1. 现有动物福利监测侧重负面指标,忽略了玩耍等积极行为,限制了对动物全面福利的评估。
  2. PlayClass利用YOLO引导的SAM跟踪减少身份错误,并结合图像/视频基础模型的嵌入进行玩耍行为分类。
  3. 实验表明,V-JEPA 2.1结合手工特征表现最佳,宏平均F1值达到77.0,验证了该方法的可行性。

📝 摘要(中文)

动物福利的自动监测主要集中在负面指标上,而玩耍等积极福利行为的研究不足。为了解决这个问题,我们提出了PlayClass,一个从俯视视角拍摄的家禽圈舍视频中进行玩耍行为分类的流水线。该流水线利用SAM 3通过YOLO引导的块边界进行长时间跟踪,以最大限度地减少基于点的提示中的身份错误,并利用来自图像和视频基础模型的冻结嵌入进行玩耍动作分类。虽然仅从跟踪掩码中提取的手工运动特征就获得了具有竞争力的准确性,但V-JEPA 2.1在所有模型规模上始终优于所有其他骨干网络,当与手工特征结合时,达到了77.0的宏平均F$_1$。尽管如此,由于玩耍亚型与非玩耍行为和鸟类间的遮挡共享相似的运动学特征,该数据集仍然具有挑战性。总的来说,我们的工作为家禽玩耍行为分类的自动化框架提供了令人鼓舞的证据。

🔬 方法详解

问题定义:论文旨在解决家禽玩耍行为自动分类的问题。现有方法主要关注动物的负面福利指标,缺乏对玩耍等积极行为的有效识别和量化。这使得全面评估家禽的福利水平变得困难。此外,玩耍行为的亚型与非玩耍行为在运动学特征上存在相似性,且鸟类间的遮挡也增加了分类的难度。

核心思路:论文的核心思路是利用深度学习技术,结合长时间跟踪和基础模型的嵌入,自动识别和分类家禽的玩耍行为。通过YOLO引导的SAM跟踪,减少身份错误,提高跟踪的准确性。然后,利用图像和视频基础模型的冻结嵌入,提取玩耍行为的特征,并进行分类。

技术框架:PlayClass流水线主要包含以下几个阶段:1) 视频输入:从俯视视角拍摄的家禽圈舍视频。2) 目标检测与跟踪:使用YOLO进行目标检测,然后利用SAM 3进行长时间跟踪,并通过YOLO引导的块边界来减少身份错误。3) 特征提取:从跟踪的掩码中提取手工运动特征,并利用图像和视频基础模型(如V-JEPA 2.1)提取冻结嵌入。4) 行为分类:将提取的特征输入到分类器中,进行玩耍行为的分类。

关键创新:论文的关键创新在于:1) 提出了一个完整的家禽玩耍行为自动分类流水线,填补了该领域的研究空白。2) 利用YOLO引导的SAM跟踪,有效地减少了长时间跟踪中的身份错误。3) 探索了图像和视频基础模型在玩耍行为分类中的应用,并验证了V-JEPA 2.1的有效性。

关键设计:在跟踪阶段,使用YOLO检测到的目标边界框来引导SAM的提示,从而减少身份切换。在特征提取阶段,使用了多种手工运动特征,如速度、加速度等。同时,使用了V-JEPA 2.1等视频基础模型提取视频特征。分类器使用了常见的机器学习模型,如支持向量机(SVM)或随机森林(Random Forest)。论文中没有明确提及损失函数和网络结构的具体细节,可能使用了基础模型自带的损失函数和网络结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,V-JEPA 2.1在所有模型规模上均优于其他骨干网络,当与手工特征结合时,宏平均F1值达到了77.0。这表明V-JEPA 2.1能够有效地提取玩耍行为的特征,并提高分类的准确性。此外,实验还验证了YOLO引导的SAM跟踪的有效性,能够减少长时间跟踪中的身份错误。

🎯 应用场景

该研究成果可应用于家禽养殖业,实现对家禽福利的自动监测和评估。通过识别和量化玩耍行为,可以更全面地了解家禽的福利水平,并为改善养殖环境和管理措施提供依据。此外,该方法也可推广到其他动物的行为研究中,为动物行为学研究提供新的工具和方法。

📄 摘要(原文)

Automated monitoring of animal welfare has largely targeted negative indicators, leaving positive welfare behaviours such as play underexplored. To address this gap, we present PlayClass, a pipeline for play-behaviour classification in poultry from top-down pen video. The pipeline leverages long-duration tracking with SAM 3 via YOLO-guided chunk boundaries to minimise identity errors in point-based prompting, and frozen embeddings from image and video foundation models for play action classification. Although handcrafted motion features from tracked masks alone achieved competitive accuracy, V-JEPA 2.1 consistently outperformed all other backbones across model scales, reaching 77.0 macro-averaged F$_1$ when combined with handcrafted features. Despite this result, the dataset remains challenging due to play sub-types sharing similar kinematic profiles with non-play and inter-bird occlusion. Overall, our work provides encouraging evidence towards automated frameworks for play behaviour classification in poultry.