TaxaAdapter: Vision Taxonomy Models are Key to Fine-grained Image Generation over the Tree of Life

📄 arXiv: 2603.26128v1 📥 PDF

作者: Mridul Khurana, Amin Karimi Monsefi, Justin Lee, Medha Sawhney, David Carlyn, Julia Chae, Jianyang Gu, Rajiv Ramnath, Sara Beery, Wei-Lun Chao, Anuj Karpatne, Cheng Zhang

分类: cs.CV

发布日期: 2026-03-27


💡 一句话要点

TaxaAdapter:利用视觉分类模型实现生命之树上的细粒度图像生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细粒度图像生成 视觉分类模型 文本到图像生成 扩散模型 生物多样性 物种识别 多模态学习

📋 核心要点

  1. 现有文本到图像生成模型难以捕捉物种间细微的视觉差异,导致生成图像在物种身份上不够准确。
  2. TaxaAdapter通过将视觉分类模型(VTM)的嵌入信息注入到文本到图像扩散模型中,从而指导细粒度物种生成。
  3. 实验表明,TaxaAdapter在形态保真度和物种身份准确性方面优于现有方法,并具有良好的泛化能力。

📝 摘要(中文)

在生命之树上准确生成图像极具挑战,地球上存在超过1000万个不同的物种,它们之间的视觉差异可能非常细微。尽管文本到图像合成取得了显著进展,但现有模型通常无法捕捉定义物种身份的细粒度视觉线索,即使其输出看起来具有照片真实感。为此,我们提出TaxaAdapter,一种简单轻量级的方法,它结合了视觉分类模型(VTM),如BioCLIP,来指导细粒度物种生成。我们的方法将VTM嵌入注入到冻结的文本到图像扩散模型中,提高物种级别的保真度,同时保留对姿势、风格和背景等属性的灵活文本控制。大量实验表明,TaxaAdapter始终优于强大的基线,提高了形态保真度和物种身份准确性,并且架构更简洁,训练方法更清晰。为了更好地评估这些改进,我们还引入了一种基于多模态大型语言模型的指标,该指标总结了来自生成图像和真实图像的特征级描述,从而提供了更易于解释的形态一致性度量。此外,我们观察到TaxaAdapter表现出强大的泛化能力,能够在具有挑战性的情况下实现物种合成,例如只有少量训练图像的少样本物种,甚至是在训练期间未见过的物种。总的来说,我们的结果表明VTM是可扩展的细粒度物种生成的关键要素。

🔬 方法详解

问题定义:论文旨在解决现有文本到图像生成模型在生成细粒度物种图像时,无法准确捕捉物种间细微视觉差异的问题。现有方法生成的图像虽然逼真,但在物种身份的准确性上存在不足,尤其是在物种视觉特征非常相似的情况下。

核心思路:论文的核心思路是将预训练的视觉分类模型(VTM)的知识融入到文本到图像生成过程中。VTM能够有效区分不同的物种,因此将其嵌入信息作为额外的条件,引导生成器生成更符合物种特征的图像。这种方法利用了VTM强大的判别能力,弥补了文本到图像模型在细粒度视觉特征理解上的不足。

技术框架:TaxaAdapter的整体框架包括一个冻结的文本到图像扩散模型和一个视觉分类模型(VTM)。首先,使用VTM提取输入文本描述对应图像的视觉特征嵌入。然后,将这些嵌入信息注入到扩散模型的UNet架构中,作为额外的条件信息。扩散模型根据文本描述和VTM嵌入生成图像。

关键创新:该方法最关键的创新在于将视觉分类模型的知识有效地融入到文本到图像生成过程中。通过将VTM的嵌入信息注入到扩散模型中,TaxaAdapter能够生成更符合物种特征的图像,提高了生成图像在物种身份上的准确性。此外,该方法具有良好的泛化能力,能够处理少样本甚至未见过的物种。

关键设计:TaxaAdapter的关键设计包括:1) 使用预训练的BioCLIP作为VTM,因为它在生物图像分类方面表现出色。2) 将VTM嵌入信息注入到扩散模型的多个层级中,以便更好地引导图像生成。3) 冻结扩散模型的参数,只训练Adapter模块,从而降低了训练成本并保持了文本控制的灵活性。4) 引入基于多模态大型语言模型的指标,用于更准确地评估生成图像的形态一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TaxaAdapter在形态保真度和物种身份准确性方面显著优于现有方法。例如,在物种身份准确性方面,TaxaAdapter相比基线方法提升了XX%。此外,TaxaAdapter还表现出强大的泛化能力,能够在少样本甚至未见过的物种上生成高质量的图像。基于多模态大型语言模型的评估指标也验证了TaxaAdapter在形态一致性方面的优势。

🎯 应用场景

TaxaAdapter在生物多样性研究、教育、保护和艺术创作等领域具有广泛的应用前景。它可以用于生成各种动植物的逼真图像,帮助研究人员更好地了解物种的形态特征和进化关系。此外,该方法还可以用于创建虚拟生物博物馆、生成个性化的生物艺术作品等。

📄 摘要(原文)

Accurately generating images across the Tree of Life is difficult: there are over 10M distinct species on Earth, many of which differ only by subtle visual traits. Despite the remarkable progress in text-to-image synthesis, existing models often fail to capture the fine-grained visual cues that define species identity, even when their outputs appear photo-realistic. To this end, we propose TaxaAdapter, a simple and lightweight approach that incorporates Vision Taxonomy Models (VTMs) such as BioCLIP to guide fine-grained species generation. Our method injects VTM embeddings into a frozen text-to-image diffusion model, improving species-level fidelity while preserving flexible text control over attributes such as pose, style, and background. Extensive experiments demonstrate that TaxaAdapter consistently improves morphology fidelity and species-identity accuracy over strong baselines, with a cleaner architecture and training recipe. To better evaluate these improvements, we also introduce a multimodal Large Language Model-based metric that summarizes trait-level descriptions from generated and real images, providing a more interpretable measure of morphological consistency. Beyond this, we observe that TaxaAdapter exhibits strong generalization capabilities, enabling species synthesis in challenging regimes such as few-shot species with only a handful of training images and even species unseen during training. Overall, our results highlight that VTMs are a key ingredient for scalable, fine-grained species generation.