CNN Based Flank Predictor for Quadruped Animal Species

📄 arXiv: 2406.13588v1 📥 PDF

作者: Vanessa Suessle, Marco Heurich, Colleen T. Downs, Andreas Weinmann, Elke Hergenroether

分类: cs.CV

发布日期: 2024-06-19

期刊: Workshop Camera Traps, AI and Ecology 2023


💡 一句话要点

提出基于CNN的侧翼预测器,用于提升四足动物个体识别准确率

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 四足动物识别 侧翼预测 卷积神经网络 迁移学习 动物姿态估计

📋 核心要点

  1. 现有方法难以准确识别具有双边不对称视觉标记的四足动物个体,影响种群数量估计等任务。
  2. 利用迁移学习,在CNN图像分类架构上训练侧翼预测器,自动预测四足动物的可见侧翼。
  3. 在不同场景下评估模型,最佳模型在欧亚猞猁数据集上达到88.70%的准确率,验证了有效性。

📝 摘要(中文)

本文研究旨在解决四足动物因身体视觉标记的双边不对称性导致的个体识别难题,尤其是在种群数量估计等任务中。通过在流行的CNN图像分类架构上进行迁移学习,训练了一个侧翼预测器,用于预测图像中四足哺乳动物物种的可见侧翼。数据标签自动从现有的动物姿态估计数据集中导出。模型训练分两个阶段进行,采用不同程度的再训练。开发的模型在已知和未知环境的不同未知四足动物物种的场景中进行了评估。在真实场景中,使用来自巴伐利亚森林国家公园相机陷阱的手动标记的欧亚猞猁(Lynx lynx)数据集来评估模型。最佳模型基于EfficientNetV2骨干网络,在复杂的栖息地中对未知物种猞猁实现了88.70%的准确率。

🔬 方法详解

问题定义:论文旨在解决四足动物个体识别中,由于动物身体两侧视觉标记不对称,导致难以准确识别个体的问题。现有方法通常需要人工标注或复杂的图像处理,效率低且容易出错。尤其是在野生动物研究中,需要自动化的个体识别方法来估计种群数量和追踪动物行为。

核心思路:论文的核心思路是利用深度学习中的迁移学习,将预训练的CNN模型应用于侧翼预测任务。通过在大量动物图像数据上进行预训练,模型可以学习到通用的图像特征,然后通过在特定物种的数据集上进行微调,使其能够准确预测动物的可见侧翼。这种方法可以有效利用现有数据,减少训练时间和计算资源。

技术框架:整体框架包括数据准备、模型选择、模型训练和模型评估四个主要阶段。首先,从现有的动物姿态估计数据集中自动提取侧翼标签。然后,选择流行的CNN图像分类架构(如EfficientNetV2)作为骨干网络。接下来,采用两阶段训练策略,首先在大量数据上进行预训练,然后在目标物种的数据集上进行微调。最后,在不同场景下评估模型的性能,包括已知和未知物种、已知和未知环境。

关键创新:该论文的关键创新在于将迁移学习应用于四足动物的侧翼预测任务,并提出了一种自动生成侧翼标签的方法。与传统的手工标注方法相比,该方法可以大大提高数据标注的效率。此外,通过两阶段训练策略,可以有效利用现有数据,提高模型的泛化能力。

关键设计:模型训练采用两阶段策略。第一阶段,在大量动物图像数据上进行预训练,学习通用的图像特征。第二阶段,在目标物种的数据集上进行微调,优化模型参数。损失函数采用交叉熵损失函数,优化器采用Adam优化器。EfficientNetV2作为骨干网络,具有高效的计算性能和良好的特征提取能力。数据增强技术,如随机旋转、缩放和平移,被用于提高模型的鲁棒性。

📊 实验亮点

实验结果表明,基于EfficientNetV2骨干网络的模型在欧亚猞猁数据集上取得了88.70%的准确率,优于其他模型。该模型在复杂的栖息地中表现出色,表明其具有良好的泛化能力。此外,该研究还验证了自动生成侧翼标签的有效性,为大规模动物个体识别提供了新的思路。

🎯 应用场景

该研究成果可应用于野生动物保护、生态监测和动物行为研究等领域。通过自动识别动物个体,可以更准确地估计种群数量、追踪动物迁徙路线和研究动物行为模式。此外,该技术还可以应用于动物园管理和宠物识别等场景,提高管理效率和服务质量。未来,该技术有望与其他传感器技术相结合,实现更全面的动物行为监测和分析。

📄 摘要(原文)

The bilateral asymmetry of flanks of animals with visual body marks that uniquely identify an individual, complicates tasks like population estimations. Automatically generated additional information on the visible side of the animal would improve the accuracy for individual identification. In this study we used transfer learning on popular CNN image classification architectures to train a flank predictor that predicts the visible flank of quadruped mammalian species in images. We automatically derived the data labels from existing datasets originally labeled for animal pose estimation. We trained the models in two phases with different degrees of retraining. The developed models were evaluated in different scenarios of different unknown quadruped species in known and unknown environments. As a real-world scenario, we used a dataset of manually labeled Eurasian lynx (Lynx lynx) from camera traps in the Bavarian Forest National Park to evaluate the model. The best model, trained on an EfficientNetV2 backbone, achieved an accuracy of 88.70 % for the unknown species lynx in a complex habitat.