Deep in the Jungle: Towards Automating Chimpanzee Population Estimation

📄 arXiv: 2601.22917v1 📥 PDF

作者: Tom Raynes, Otto Brookes, Timm Haucke, Lukas Bösch, Anne-Sophie Crunchant, Hjalmar Kühl, Sara Beery, Majid Mirmehdi, Tilo Burghardt

分类: cs.CV

发布日期: 2026-01-30


💡 一句话要点

提出基于单目深度估计的黑猩猩种群数量自动化评估方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 种群数量评估 相机陷阱 野生动物保护 黑猩猩 距离采样 计算机视觉

📋 核心要点

  1. 传统大猿种群评估依赖人工测量动物到相机的距离,耗时费力,限制了评估效率和规模。
  2. 本研究提出利用单目深度估计(MDE)模型自动估计距离,结合距离采样策略推断种群密度和丰度。
  3. 实验表明,DPT模型优于Depth Anything,但两种模型均存在系统偏差,且动物检测失败是精度瓶颈。

📝 摘要(中文)

本研究探索了一种利用计算机视觉的单目深度估计(MDE)管线,直接应用于大猿保护的生态相机陷阱工作流程中的替代方案,旨在自动化评估未标记种群的丰度和密度。该方法依赖于动物到相机距离的测量,而传统方法需要大量人工标注。我们使用包含野生黑猩猩种群的220个相机陷阱视频数据集,结合了Dense Prediction Transformers和Depth Anything两种MDE模型,以及多种距离采样策略,生成检测距离估计,并由此推断种群密度和丰度。与手动标注的真实距离的比较分析表明,校准后的DPT始终优于Depth Anything。然而,两种模型都表现出系统性偏差,倾向于高估检测距离,从而低估密度和丰度。动物检测失败是限制估计精度的主要因素。总体而言,这项工作表明,MDE驱动的相机陷阱距离采样是人工距离估计的可行替代方案,所提出的方法产生的种群估计值与传统方法获得的估计值相差在22%以内。

🔬 方法详解

问题定义:论文旨在解决野生动物种群数量估计中,依赖人工测量动物到相机距离的难题。传统方法需要耗费大量人力进行视频分析和标注,效率低下且容易出错,限制了种群监测的范围和频率。

核心思路:论文的核心思路是利用计算机视觉中的单目深度估计(MDE)技术,自动从相机陷阱视频中估计动物到相机的距离。通过将深度估计与距离采样策略相结合,可以推断出种群密度和丰度,从而替代耗时的人工测量。

技术框架:整体流程包括:1) 使用相机陷阱采集视频数据;2) 利用动物检测模型识别视频中的黑猩猩;3) 使用单目深度估计模型(DPT或Depth Anything)估计每个检测到的黑猩猩到相机的距离;4) 应用距离采样策略,基于估计的距离数据推断种群密度和丰度;5) 将结果与人工标注的真实距离进行比较,评估模型性能。

关键创新:该研究的关键创新在于将单目深度估计技术引入到野生动物种群数量评估领域,并探索了两种不同的MDE模型(DPT和Depth Anything)在该任务中的适用性。此外,论文还分析了模型偏差和误差来源,为后续研究提供了指导。

关键设计:论文的关键设计包括:1) 选择了Dense Prediction Transformers (DPT) 和 Depth Anything 这两种不同的单目深度估计模型,以评估其在复杂森林环境下的性能;2) 采用了多种距离采样策略,以提高种群密度和丰度推断的准确性;3) 使用真实世界的相机陷阱视频数据集进行实验,并与人工标注的真实距离进行比较,以评估模型的实际性能。

📊 实验亮点

实验结果表明,经过校准的DPT模型在距离估计精度和下游密度/丰度推断方面均优于Depth Anything。尽管两种模型都存在系统性偏差,但基于MDE的相机陷阱距离采样方法能够将种群估计值控制在传统人工方法的22%以内,验证了其可行性。

🎯 应用场景

该研究成果可应用于野生动物保护领域,实现对濒危物种种群数量的自动化、高效监测。通过降低人工成本和提高数据分析效率,可以更频繁、更大规模地进行种群评估,为保护策略的制定和实施提供更可靠的数据支持。此外,该方法还可以推广到其他野生动物的种群监测中。

📄 摘要(原文)

The estimation of abundance and density in unmarked populations of great apes relies on statistical frameworks that require animal-to-camera distance measurements. In practice, acquiring these distances depends on labour-intensive manual interpretation of animal observations across large camera trap video corpora. This study introduces and evaluates an only sparsely explored alternative: the integration of computer vision-based monocular depth estimation (MDE) pipelines directly into ecological camera trap workflows for great ape conservation. Using a real-world dataset of 220 camera trap videos documenting a wild chimpanzee population, we combine two MDE models, Dense Prediction Transformers and Depth Anything, with multiple distance sampling strategies. These components are used to generate detection distance estimates, from which population density and abundance are inferred. Comparative analysis against manually derived ground-truth distances shows that calibrated DPT consistently outperforms Depth Anything. This advantage is observed in both distance estimation accuracy and downstream density and abundance inference. Nevertheless, both models exhibit systematic biases. We show that, given complex forest environments, they tend to overestimate detection distances and consequently underestimate density and abundance relative to conventional manual approaches. We further find that failures in animal detection across distance ranges are a primary factor limiting estimation accuracy. Overall, this work provides a case study that shows MDE-driven camera trap distance sampling is a viable and practical alternative to manual distance estimation. The proposed approach yields population estimates within 22% of those obtained using traditional methods.