DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

作者: Jiawei Wang, Ming Lei, Yaning Yang, Xinyan Lin, Yuquan Le, Qiwei Ma, Zhiwei Xu, Zheqi Lv, Yuchen Ang, Zhe Quan, Tat-Seng Chua

分类: cs.CV, cs.CL, cs.IR, cs.MM

发布日期: 2026-04-27

备注: 13 pages, 6 figures, 9 tables

💡 一句话要点

DeepTaxon：一种可解释的检索增强多模态框架，用于统一物种识别与发现

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 物种识别 物种发现 检索增强 多模态学习 链式思考 生物多样性 可解释性 零样本学习

📋 核心要点

现有物种识别方法将识别和发现视为独立问题，忽略了开放世界中未知物种的发现需求，限制了模型的泛化能力。
DeepTaxon通过检索增强的多模态框架，将物种识别和发现统一起来，利用检索到的视觉证据进行可解释的推理。
实验表明，DeepTaxon在物种识别和发现方面均取得了显著提升，并展现出良好的零样本迁移能力和可扩展性。

📝 摘要（中文）

在生物学中，识别数以万计的视觉相似物种，并在开放世界环境中发现未知物种，是生物多样性研究中的一项根本挑战。目前的方法将识别和发现视为独立问题，分类模型假定为封闭集合，而发现则依赖于基于阈值的拒绝。本文提出了DeepTaxon，一个检索增强的多模态框架，通过对检索到的视觉证据进行可解释的推理，统一了物种识别和发现。给定一个查询图像，DeepTaxon从检索索引中检索出前k个候选物种，每个物种有n个示例图像，并执行链式思考比较推理。关键在于，我们将发现重新定义为一个显式的、基于检索的决策问题，而不是一个隐式的参数记忆问题。当且仅当检索索引缺乏足够的识别证据时，样本才是新的，因此每次检索自然会产生分类或发现标签，而无需手动注释，从而为两项任务提供自动监督。我们通过在合成的检索增强数据上进行监督微调，然后在困难样本上进行强化学习来训练该框架，将高召回率检索转化为可扩展到大规模分类词汇的高精度决策。在大型分布内基准和六个分布外数据集上的大量实验表明，在识别和发现方面都取得了持续的改进。消融研究进一步揭示了候选计数k和示例计数n的有效测试时缩放、对未见域的强大零样本迁移以及跨检索编码器的一致性能，从而为生物多样性研究建立了一个可解释的解决方案。

🔬 方法详解

问题定义：论文旨在解决生物多样性研究中物种识别和未知物种发现的难题。现有方法通常将这两个任务分开处理，物种识别依赖于封闭集合的分类模型，而物种发现则依赖于阈值判断，缺乏统一的框架和可解释性。此外，现有方法难以有效利用大规模物种图像数据，且在开放世界环境中泛化能力有限。

核心思路：DeepTaxon的核心思路是将物种发现问题转化为一个基于检索的决策问题。通过构建大规模物种图像检索索引，模型可以检索与查询图像相似的候选物种。如果检索索引中缺乏足够的证据支持识别，则判定为新物种。这种方法将物种发现从隐式的参数记忆问题转化为显式的检索决策问题，提高了可解释性和泛化能力。

技术框架：DeepTaxon的整体框架包括以下几个主要模块：1) 图像编码器：用于提取查询图像和检索到的候选物种图像的视觉特征。2) 检索索引：存储大规模物种图像的视觉特征，用于快速检索相似物种。3) 链式思考推理模块：对检索到的候选物种图像进行比较推理，判断查询图像属于已知物种还是新物种。4) 决策模块：根据推理结果，输出物种识别或发现的标签。框架通过监督微调和强化学习进行训练，优化检索和决策的性能。

关键创新：DeepTaxon的关键创新在于：1) 统一了物种识别和发现任务，提出了一个统一的框架。2) 将物种发现问题转化为基于检索的决策问题，提高了可解释性和泛化能力。3) 利用链式思考推理模块，对检索到的视觉证据进行可解释的推理。4) 提出了自动监督方法，无需手动标注即可训练模型。

关键设计：DeepTaxon的关键设计包括：1) 使用预训练的视觉Transformer作为图像编码器，提取高质量的视觉特征。2) 构建大规模物种图像检索索引，提高检索效率。3) 设计链式思考推理模块，模拟人类专家进行物种鉴定的过程。4) 使用监督微调和强化学习相结合的训练方法，优化模型性能。具体损失函数包括交叉熵损失和强化学习奖励函数，用于优化分类精度和发现新物种的能力。

🖼️ 关键图片

📊 实验亮点

DeepTaxon在大型分布内基准和六个分布外数据集上进行了广泛的实验，结果表明，在物种识别和发现方面均取得了持续的改进。消融研究表明，候选计数k和示例计数n的增加可以有效提升模型性能。此外，DeepTaxon展现出强大的零样本迁移能力，可以有效应用于未见过的领域。实验还表明，DeepTaxon的性能不受检索编码器的影响，具有良好的鲁棒性。

🎯 应用场景

DeepTaxon具有广泛的应用前景，可用于生物多样性监测、生态环境保护、农业病虫害防治等领域。该研究有助于提高物种识别的准确性和效率，加速新物种的发现，为生物多样性研究提供有力支持。未来，该技术可应用于移动设备，实现随时随地的物种识别和发现。

📄 摘要（原文）

Identifying species in biology among tens of thousands of visually similar taxa while discovering unknown species in open-world environments remains a fundamental challenge in biodiversity research. Current methods treat identification and discovery as separate problems, with classification models assuming closed sets and discovery relying on threshold-based rejection. Here we present DeepTaxon, a retrieval-augmented multimodal framework that unifies species identification and discovery through interpretable reasoning over retrieved visual evidence. Given a query image, DeepTaxon retrieves the top-$k$ candidate species with $n$ exemplar images each from a retrieval index and performs chain-of-thought comparative reasoning. Critically, we redefine discovery as an explicit, retrieval-based decision problem rather than an implicit parametric memory problem. A sample is novel if and only if the retrieval index lacks sufficient evidence for identification, so each retrieval naturally yields a classification or discovery label without manual annotation, thereby providing automatic supervision for both tasks. We train the framework via supervised fine-tuning on synthetic retrieval-augmented data, followed by reinforcement learning on hard samples, converting high-recall retrieval into high-precision decisions that scale to massive taxonomic vocabularies. Extensive experiments on a large-scale in-distribution benchmark and six out-of-distribution datasets demonstrate consistent improvements in both identification and discovery. Ablation studies further reveal effective test-time scaling with candidate count $k$ and exemplar count $n$, strong zero-shot transfer to unseen domains, and consistent performance across retrieval encoders, establishing an interpretable solution for biodiversity research.

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理