BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning

作者: Jianyang Gu, Samuel Stevens, Elizabeth G Campolongo, Matthew J Thompson, Net Zhang, Jiaman Wu, Andrei Kopanev, Zheda Mai, Alexander E. White, James Balhoff, Wasila Dahdul, Daniel Rubenstein, Hilmar Lapp, Tanya Berger-Wolf, Wei-Lun Chao, Yu Su

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-05-29 (更新: 2025-10-23)

备注: NeurIPS 2025 Spotlight; Project page: https://imageomics.github.io/bioclip-2/

💡 一句话要点

BioCLIP 2：通过分层对比学习扩展生物视觉模型，涌现新能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 生物视觉 对比学习 大规模数据集 分层学习 涌现能力 生物多样性 表征学习

📋 核心要点

现有生物视觉模型缺乏大规模数据训练，难以捕捉生物多样性和复杂性，限制了其泛化能力。
BioCLIP 2通过构建大规模生物图像数据集TreeOfLife-200M，并采用分层对比学习，提升模型对生物特征的理解。
实验表明，BioCLIP 2在栖息地分类和特征预测等生物视觉任务中表现出色，验证了其嵌入空间的生物学意义。

📝 摘要（中文）

大规模训练的基础模型展现出卓越的涌现行为，学习到超出其初始训练目标的新能力。本文通过大规模对比视觉-语言训练，在生物视觉模型中发现了这种涌现行为。为此，作者构建了TreeOfLife-200M数据集，包含2.14亿张生物体图像，是迄今为止最大、最多样化的生物有机体图像数据集。然后，在TreeOfLife-200M上训练BioCLIP 2来区分不同的物种。尽管训练目标狭窄，但BioCLIP 2在应用于各种生物视觉任务（如栖息地分类和特征预测）时，表现出非凡的准确性。作者识别了BioCLIP 2学习到的嵌入空间中的涌现属性。在物种间层面，不同物种的嵌入分布与功能和生态意义（例如，喙的大小和栖息地）紧密对齐。在物种内层面，物种内变异（例如，生命阶段和性别）非但没有减少，反而被保留并在与物种间区分正交的子空间中更好地分离。作者提供了正式的证明和分析，以解释为什么分层监督和对比目标鼓励这些涌现属性。至关重要的是，结果表明，这些属性随着更大规模的训练数据变得越来越重要，从而产生具有生物学意义的嵌入空间。

🔬 方法详解

问题定义：现有生物视觉模型在处理大规模、多样化的生物图像数据时面临挑战。它们难以捕捉物种间和物种内的细微差异，导致在各种生物视觉任务中的性能受限。此外，缺乏有效的学习范式来利用大规模数据中的潜在信息，进一步阻碍了模型的发展。

核心思路：本文的核心思路是通过大规模对比视觉-语言训练，学习一个具有生物学意义的嵌入空间。该嵌入空间能够区分不同的物种，同时保留物种内的变异信息。通过分层监督和对比目标，模型能够更好地理解生物特征，并在各种生物视觉任务中表现出色。

技术框架：BioCLIP 2的整体框架包括以下几个主要模块：1) 大规模生物图像数据集TreeOfLife-200M的构建；2) 基于对比学习的视觉-语言模型训练；3) 分层监督机制的引入，以区分物种间和物种内的差异；4) 嵌入空间的分析和可视化，以验证其生物学意义。

关键创新：本文最重要的技术创新点在于发现了通过大规模分层对比学习，生物视觉模型能够涌现出新的能力。具体来说，模型学习到的嵌入空间不仅能够区分不同的物种，还能保留物种内的变异信息，并与功能和生态意义紧密对齐。这种涌现行为是现有方法所不具备的。

关键设计：在关键设计方面，本文采用了对比学习的目标函数，鼓励模型学习区分不同的物种。同时，引入了分层监督机制，以区分物种间和物种内的差异。此外，作者还对嵌入空间进行了详细的分析和可视化，以验证其生物学意义。具体的参数设置和网络结构等技术细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

BioCLIP 2在各种生物视觉任务中表现出非凡的准确性，例如栖息地分类和特征预测。实验结果表明，该模型学习到的嵌入空间与功能和生态意义紧密对齐，能够区分不同的物种，并保留物种内的变异信息。随着训练数据规模的扩大，这些涌现属性变得越来越重要，从而产生具有生物学意义的嵌入空间。（具体性能数据未知）

🎯 应用场景

BioCLIP 2在生物多样性研究、生态保护、物种鉴定和生物特征预测等领域具有广泛的应用前景。它可以帮助科学家更好地理解生物之间的关系，预测物种的分布和演化，并为生态保护提供决策支持。此外，该模型还可以应用于生物医学领域，例如疾病诊断和药物研发。

📄 摘要（原文）

Foundation models trained at scale exhibit remarkable emergent behaviors, learning new capabilities beyond their initial training objectives. We find such emergent behaviors in biological vision models via large-scale contrastive vision-language training. To achieve this, we first curate TreeOfLife-200M, comprising 214 million images of living organisms, the largest and most diverse biological organism image dataset to date. We then train BioCLIP 2 on TreeOfLife-200M to distinguish different species. Despite the narrow training objective, BioCLIP 2 yields extraordinary accuracy when applied to various biological visual tasks such as habitat classification and trait prediction. We identify emergent properties in the learned embedding space of BioCLIP 2. At the inter-species level, the embedding distribution of different species aligns closely with functional and ecological meanings (e.g., beak sizes and habitats). At the intra-species level, instead of being diminished, the intra-species variations (e.g., life stages and sexes) are preserved and better separated in subspaces orthogonal to inter-species distinctions. We provide formal proof and analyses to explain why hierarchical supervision and contrastive objectives encourage these emergent properties. Crucially, our results reveal that these properties become increasingly significant with larger-scale training data, leading to a biologically meaningful embedding space.

BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理