Cattle-CLIP: A Multimodal Framework for Cattle Behaviour Recognition

作者: Huimin Liu, Jing Gao, Daria Baran, AxelX Montout, Neill W Campbell, Andrew W Dowsey

分类: cs.CV

发布日期: 2025-10-10

备注: 16 pages, 10 figures, submitted to Computers and Electronics in Agriculture

💡 一句话要点

Cattle-CLIP：利用多模态学习框架进行牛行为识别，提升数据稀缺场景下的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 牛行为识别 多模态学习 CLIP模型 少样本学习 智慧畜牧业 视频分析 时间序列分析

📋 核心要点

现有基于视频的动物行为识别方法在数据稀缺场景下表现不佳，难以满足实际应用需求。
Cattle-CLIP利用CLIP模型的多模态学习能力，结合视频和文本信息，提升行为识别的准确性和泛化性。
实验结果表明，Cattle-CLIP在CattleBehaviours6数据集上取得了优异的性能，尤其在少样本学习中表现突出。

📝 摘要（中文）

本文提出了一种名为Cattle-CLIP的多模态深度学习框架，用于牛的行为识别。该框架通过结合语义信息来提升基于视频的视觉特征识别性能。Cattle-CLIP基于大规模图像-语言模型CLIP进行改进，并添加了时间整合模块。为了解决预训练模型所使用的网络数据与真实牛群监控视频之间的领域差距，本文引入了定制的数据增强策略和专门设计的文本提示。Cattle-CLIP在全监督和少样本学习场景下进行了评估，特别关注数据稀缺的行为识别——这是畜牧业监控中一个重要但未被充分探索的目标。为了评估该方法，本文发布了CattleBehaviours6数据集，该数据集包含六种室内行为：进食、饮水、站立-自我梳理、站立-反刍、躺卧-自我梳理和躺卧-反刍。该数据集包含从John Oldacre Centre奶牛场研究平台收集的1905个片段，该平台饲养了200头荷斯坦-弗里斯兰奶牛。实验表明，Cattle-CLIP在监督设置下，六种行为的总体准确率达到96.1%，其中进食、饮水和站立-反刍行为的召回率接近100%，并在少样本场景下表现出强大的泛化能力，突出了多模态学习在农业和动物行为分析中的潜力。

🔬 方法详解

问题定义：论文旨在解决牛行为识别问题，尤其是在数据量有限的情况下，如何提高行为识别的准确性和鲁棒性。现有的方法通常依赖于大量的标注数据，并且在领域迁移性方面存在不足，难以适应真实养殖环境中的复杂场景。

核心思路：论文的核心思路是利用预训练的CLIP模型，将视觉信息和文本信息进行融合，从而提高模型对牛行为的理解能力。CLIP模型在大规模图像-文本数据集上进行训练，具有强大的特征提取能力和泛化能力。通过将CLIP模型迁移到牛行为识别任务中，可以有效地解决数据稀缺问题。

技术框架：Cattle-CLIP框架主要包含三个模块：视频编码器、文本编码器和时间整合模块。视频编码器用于提取视频帧的视觉特征，文本编码器用于提取行为描述的文本特征。时间整合模块用于将视频帧的特征进行整合，从而获得视频序列的整体表示。框架首先使用视频编码器和文本编码器分别提取视频和文本特征，然后计算视频和文本特征之间的相似度，最后根据相似度进行行为分类。

关键创新：论文的关键创新在于将CLIP模型应用于牛行为识别任务，并提出了定制的数据增强策略和文本提示方法。通过数据增强，可以有效地扩充训练数据集，提高模型的泛化能力。通过文本提示，可以引导模型关注与行为相关的关键信息，提高模型的识别准确率。

关键设计：论文使用了Transformer作为视频编码器和文本编码器的基本结构。时间整合模块采用了一种基于注意力机制的循环神经网络。损失函数采用了对比学习损失，鼓励模型学习到视频和文本之间的对应关系。数据增强策略包括随机裁剪、旋转、颜色抖动等。文本提示方法包括使用不同的关键词来描述行为。

📊 实验亮点

Cattle-CLIP在CattleBehaviours6数据集上取得了显著的成果。在全监督设置下，总体准确率达到96.1%，进食、饮水和站立-反刍行为的召回率接近100%。在少样本学习场景下，Cattle-CLIP也表现出强大的泛化能力，证明了其在数据稀缺场景下的有效性。相较于传统方法，Cattle-CLIP在准确率和鲁棒性方面均有显著提升。

🎯 应用场景

Cattle-CLIP可应用于智慧畜牧业，实现对牛群健康状况、生产效率和福利水平的实时监测。通过自动识别牛的异常行为，可以及时发现疾病、受伤或其他问题，从而减少损失并提高养殖效益。此外，该技术还可以用于研究牛的行为模式，为改善养殖管理提供科学依据。

📄 摘要（原文）

Cattle behaviour is a crucial indicator of an individual animal health, productivity and overall well-being. Video-based monitoring, combined with deep learning techniques, has become a mainstream approach in animal biometrics, and it can offer high accuracy in some behaviour recognition tasks. We present Cattle-CLIP, a multimodal deep learning framework for cattle behaviour recognition, using semantic cues to improve the performance of video-based visual feature recognition. It is adapted from the large-scale image-language model CLIP by adding a temporal integration module. To address the domain gap between web data used for the pre-trained model and real-world cattle surveillance footage, we introduce tailored data augmentation strategies and specialised text prompts. Cattle-CLIP is evaluated under both fully-supervised and few-shot learning scenarios, with a particular focus on data-scarce behaviour recognition - an important yet under-explored goal in livestock monitoring. To evaluate the proposed method, we release the CattleBehaviours6 dataset, which comprises six types of indoor behaviours: feeding, drinking, standing-self-grooming, standing-ruminating, lying-self-grooming and lying-ruminating. The dataset consists of 1905 clips collected from our John Oldacre Centre dairy farm research platform housing 200 Holstein-Friesian cows. Experiments show that Cattle-CLIP achieves 96.1% overall accuracy across six behaviours in a supervised setting, with nearly 100% recall for feeding, drinking and standing-ruminating behaviours, and demonstrates robust generalisation with limited data in few-shot scenarios, highlighting the potential of multimodal learning in agricultural and animal behaviour analysis.

Cattle-CLIP: A Multimodal Framework for Cattle Behaviour Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册