MARINE: A Computer Vision Model for Detecting Rare Predator-Prey Interactions in Animal Videos
作者: Zsófia Katona, Seyed Sahand Mohammadi Ziabari, Fatemeh Karimi Nejadasl
分类: cs.CV
发布日期: 2024-07-25 (更新: 2024-08-05)
备注: This is an MSc thesis by Zsofia Katona, supervised by the two other authors
💡 一句话要点
MARINE:用于检测动物视频中罕见捕食者-猎物交互的计算机视觉模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动物行为识别 捕食行为检测 视频分析 DINOv2 运动信息 时间动作检测
📋 核心要点
- 现有动作识别模型在人类动作数据集上表现良好,但在动物视频,特别是罕见捕食行为检测方面效果不佳。
- MARINE模型利用基于运动的帧选择策略,并结合DINOv2特征提取和可训练分类头,提升动物动作识别能力。
- 实验表明,MARINE在珊瑚礁和动物王国数据集上,捕食行为识别准确率显著优于VideoMAE,并在时间动作检测任务中取得较好AP。
📝 摘要(中文)
捕食者和猎物之间的遭遇在生态系统中起着至关重要的作用,但由于其稀有性,很难在视频记录中检测到。尽管动作识别(AR)和时间动作检测(AD)方面的进展,特别是基于Transformer的模型和视觉基础模型,在人类动作数据集上取得了高性能,但动物视频的研究相对不足。本文提出了MARINE模型,通过基于运动的帧选择(专为快速动物动作设计)和使用可训练分类头的DINOv2特征提取来进行动作识别,从而弥补了这一差距。在鱼类视频的捕食者攻击识别中,MARINE优于VideoMAE,无论是在小型且特定的珊瑚礁数据集(准确率分别为81.53%和52.64%),还是在更广泛的动物王国数据集的子集上(准确率分别为94.86%和83.14%)。在动物王国数据集的代表性样本上的多标签设置中,MARINE实现了23.79%的mAP,使其在现有基准中处于中等水平。此外,在珊瑚礁数据集上的AD任务中,MARINE实现了80.78%的AP(而VideoMAE为34.89%),尽管t-IoU阈值降低至25%。因此,尽管仍有改进空间,MARINE提供了一个有效的入门框架,可应用于动物记录的AR和AD任务,从而有助于自然生态系统的研究。
🔬 方法详解
问题定义:论文旨在解决动物视频中罕见捕食者-猎物交互行为难以检测的问题。现有方法,特别是针对人类动作设计的模型,在处理快速、不规则的动物动作时表现不佳,难以准确识别和定位这些关键事件。现有方法缺乏对动物行为特点的针对性优化,导致性能瓶颈。
核心思路:MARINE的核心思路是结合运动信息进行帧选择,并利用预训练的视觉模型DINOv2提取特征,然后通过一个可训练的分类头进行动作识别。这种设计旨在利用动物动作的快速性和显著运动特征,同时借助DINOv2强大的表征能力,提高模型对罕见事件的敏感性和识别准确率。
技术框架:MARINE模型主要包含两个阶段:1) 基于运动的帧选择:通过计算视频帧之间的光流或运动幅度,选择包含显著运动信息的帧,减少计算量并突出关键帧。2) 动作识别:使用DINOv2提取所选帧的视觉特征,然后将这些特征输入到可训练的分类头中进行动作分类。分类头可以是简单的全连接层或更复杂的网络结构。
关键创新:MARINE的关键创新在于结合了运动信息进行帧选择,并将其与DINOv2特征提取相结合。与直接使用所有帧进行特征提取的方法相比,基于运动的帧选择可以显著减少计算量,并突出显示包含关键动作信息的帧。此外,利用DINOv2预训练的强大表征能力,可以提高模型对各种动物行为的泛化能力。
关键设计:在帧选择方面,可以采用不同的运动估计方法,如光流法或帧差法,并设置阈值来选择运动幅度超过阈值的帧。分类头的网络结构和损失函数可以根据具体任务进行调整。例如,可以使用交叉熵损失函数进行多分类任务,并采用数据增强技术来提高模型的鲁棒性。t-IoU阈值设置为25%用于时间动作检测任务。
🖼️ 关键图片
📊 实验亮点
MARINE在珊瑚礁数据集和动物王国数据集上,捕食行为识别准确率分别达到81.53%和94.86%,显著优于VideoMAE(分别为52.64%和83.14%)。在珊瑚礁数据集上的时间动作检测任务中,MARINE的AP达到80.78%(t-IoU阈值为25%),而VideoMAE仅为34.89%。这些结果表明,MARINE在动物视频动作识别和时间动作检测方面具有显著优势。
🎯 应用场景
MARINE模型可应用于生态监测、野生动物保护和动物行为学研究等领域。通过自动检测动物视频中的捕食行为,可以帮助研究人员了解生态系统的动态变化、评估物种间的相互作用,并为保护濒危物种提供数据支持。该模型还可用于分析动物的社会行为、觅食策略等,从而深入了解动物的生存和进化。
📄 摘要(原文)
Encounters between predator and prey play an essential role in ecosystems, but their rarity makes them difficult to detect in video recordings. Although advances in action recognition (AR) and temporal action detection (AD), especially transformer-based models and vision foundation models, have achieved high performance on human action datasets, animal videos remain relatively under-researched. This thesis addresses this gap by proposing the model MARINE, which utilizes motion-based frame selection designed for fast animal actions and DINOv2 feature extraction with a trainable classification head for action recognition. MARINE outperforms VideoMAE in identifying predator attacks in videos of fish, both on a small and specific coral reef dataset (81.53\% against 52.64\% accuracy), and on a subset of the more extensive Animal Kingdom dataset (94.86\% against 83.14\% accuracy). In a multi-label setting on a representative sample of Animal Kingdom, MARINE achieves 23.79\% mAP, positioning it mid-field among existing benchmarks. Furthermore, in an AD task on the coral reef dataset, MARINE achieves 80.78\% AP (against VideoMAE's 34.89\%) although at a lowered t-IoU threshold of 25\%. Therefore, despite room for improvement, MARINE offers an effective starter framework to apply to AR and AD tasks on animal recordings and thus contribute to the study of natural ecosystems.