TerraIncognita: A Dynamic Benchmark for Species Discovery Using Frontier Models
作者: Shivani Chiranjeevi, Hossein Zaremehrjerdi, Zi K. Deng, Talukder Z. Jubery, Ari Grele, Arti Singh, Asheesh K Singh, Soumik Sarkar, Nirav Merchant, Harold F. Greeney, Baskar Ganapathysubramanian, Chinmay Hegde
分类: cs.CV, cs.LG
发布日期: 2025-05-29
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
TerraIncognita:一个用于物种发现的动态基准,利用前沿模型识别未知昆虫物种。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 物种发现 动态基准 多模态模型 分布外检测 分层分类 昆虫识别 生物多样性
📋 核心要点
- 当前昆虫物种发现方法依赖手动,速度慢,且受限于分类学专业知识,无法满足快速保护需求。
- TerraIncognita基准测试通过结合已知和未知昆虫图像,评估模型在物种识别、OOD检测和可解释性方面的能力。
- 实验表明,现有模型在Order级别表现良好,但在Species级别性能显著下降,揭示了细粒度物种识别的挑战。
📝 摘要(中文)
全球生物多样性的快速丧失,尤其是在昆虫中,代表着一场紧迫的生态危机。目前昆虫物种发现的方法是手动的、缓慢的,并且受到分类学专业知识的严重限制,阻碍了及时的保护行动。我们推出了TerraIncognita,这是一个动态基准,旨在评估最先进的多模态模型,以解决从图像数据中识别未知、可能未被描述的昆虫物种这一具有挑战性的问题。我们的基准数据集结合了专家注释的昆虫物种图像(这些物种可能为前沿AI模型所知)以及稀有和鲜为人知的物种的图像(这些物种几乎没有公开可用的图像)。这些图像是从未被充分探索的生物多样性热点地区收集的,真实地模拟了生态学家面临的开放世界发现场景。该基准评估模型在分层分类学分类中的熟练程度、检测和避免代表新物种的分布外(OOD)样本的能力,以及生成与专家分类学知识相符的解释的能力。值得注意的是,性能最佳的模型在已知物种的Order级别上实现了超过90%的F1分数,但在Species级别上降至2%以下,突出了从粗到细分类预测(Order→Family→Genus→Species)的难度梯度。TerraIncognita将定期更新,并通过承诺每季度扩展数据集(包括已知和新物种),将为前沿AI方法的纵向基准测试提供一个不断发展的平台。所有TerraIncognita数据、结果和未来更新都可以在https://baskargroup.github.io/TerraIncognita/上找到。
🔬 方法详解
问题定义:论文旨在解决昆虫物种快速发现的问题,现有方法依赖人工,效率低下,且对分类学专家依赖性强。这阻碍了对生物多样性丧失的及时响应和保护措施的实施。现有方法在处理未知或罕见物种时表现不佳,难以适应开放世界的物种发现场景。
核心思路:论文的核心思路是构建一个动态的基准数据集TerraIncognita,用于评估和提升AI模型在昆虫物种识别方面的能力。该基准包含已知和未知物种的图像,并侧重于评估模型在分层分类、分布外检测和可解释性方面的性能。通过定期更新数据集,TerraIncognita旨在推动AI模型在物种发现领域的持续发展。
技术框架:TerraIncognita基准测试包含以下主要模块:1) 数据收集:从生物多样性热点地区收集昆虫图像,包括已知和未知物种。2) 数据标注:由专家对图像进行分层分类学标注(Order, Family, Genus, Species)。3) 模型评估:使用多种指标评估模型在物种识别、OOD检测和可解释性方面的性能。4) 数据更新:定期添加新的图像和物种,以保持基准的动态性和挑战性。
关键创新:TerraIncognita的关键创新在于其动态性和对未知物种的关注。与传统的静态数据集不同,TerraIncognita定期更新,以模拟真实的物种发现场景。此外,该基准特别关注模型对分布外样本(即未知物种)的检测能力,这对于实际应用至关重要。另一个创新点是评估模型的可解释性,鼓励模型提供与专家知识相符的解释。
关键设计:TerraIncognita的关键设计包括:1) 分层分类学结构:使用Order, Family, Genus, Species等多层级分类,评估模型在不同粒度上的识别能力。2) OOD检测:评估模型区分已知和未知物种的能力,使用专门的指标进行评估。3) 可解释性评估:鼓励模型提供解释,并与专家知识进行对比,评估解释的合理性。4) 数据集更新策略:制定定期更新数据集的策略,包括添加新的图像和物种,以保持基准的动态性和挑战性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在Order级别上能达到90%以上的F1分数,但在Species级别上性能急剧下降至2%以下,突显了细粒度物种识别的难度。该结果表明,现有模型在处理已知物种的粗粒度分类方面表现良好,但在识别未知或罕见物种方面仍有很大的提升空间。TerraIncognita基准的推出,将有助于推动相关算法的改进。
🎯 应用场景
该研究成果可应用于生物多样性监测、生态保护、农业病虫害防治等领域。通过自动化物种识别,可以加速生物多样性评估,提高生态保护效率。在农业领域,可以快速识别害虫,减少农药使用,实现可持续农业发展。未来,结合无人机、移动设备等平台,可实现大规模、实时的物种监测。
📄 摘要(原文)
The rapid global loss of biodiversity, particularly among insects, represents an urgent ecological crisis. Current methods for insect species discovery are manual, slow, and severely constrained by taxonomic expertise, hindering timely conservation actions. We introduce TerraIncognita, a dynamic benchmark designed to evaluate state-of-the-art multimodal models for the challenging problem of identifying unknown, potentially undescribed insect species from image data. Our benchmark dataset combines a mix of expertly annotated images of insect species likely known to frontier AI models, and images of rare and poorly known species, for which few/no publicly available images exist. These images were collected from underexplored biodiversity hotspots, realistically mimicking open-world discovery scenarios faced by ecologists. The benchmark assesses models' proficiency in hierarchical taxonomic classification, their capability to detect and abstain from out-of-distribution (OOD) samples representing novel species, and their ability to generate explanations aligned with expert taxonomic knowledge. Notably, top-performing models achieve over 90\% F1 at the Order level on known species, but drop below 2\% at the Species level, highlighting the sharp difficulty gradient from coarse to fine taxonomic prediction (Order $\rightarrow$ Family $\rightarrow$ Genus $\rightarrow$ Species). TerraIncognita will be updated regularly, and by committing to quarterly dataset expansions (of both known and novel species), will provide an evolving platform for longitudinal benchmarking of frontier AI methods. All TerraIncognita data, results, and future updates are available \href{https://baskargroup.github.io/TerraIncognita/}{here}.