BotaCLIP: Contrastive Learning for Botany-Aware Representation of Earth Observation Data
作者: Selene Cerna, Sara Si-Moussi, Wilfried Thuiller, Hadrien Hendrikx, Vincent Miele
分类: cs.CV, cs.AI
发布日期: 2025-11-26
💡 一句话要点
BotaCLIP:通过对比学习实现地球观测数据的植物学感知表征
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对比学习 地球观测 植物学 领域知识 表征学习
📋 核心要点
- 现有方法难以将领域知识有效融入预训练的地球观测模型,限制了其在生态学等领域的应用。
- BotaCLIP通过对比学习,将高分辨率航拍图像与植物群落调查数据对齐,从而使模型具备植物学感知能力。
- 实验表明,BotaCLIP在植物存在预测、蝴蝶出现建模和土壤营养群丰度估计等任务中均优于现有方法。
📝 摘要(中文)
基础模型已展现出学习跨图像、文本和音频等多种模态的丰富、可迁移表征的卓越能力。在现代机器学习流程中,这些表征通常取代原始数据,作为下游任务的主要输入。本文致力于解决如何调整预训练基础模型以注入领域特定知识的挑战,而无需从头开始重新训练或产生巨大的计算成本。为此,我们引入了BotaCLIP,这是一个轻量级多模态对比框架,通过将高分辨率航空图像与植物群落调查数据对齐,来调整预训练的地球观测基础模型(DOFA)。与通用嵌入不同,BotaCLIP通过对比学习和缓解灾难性遗忘的正则化策略,将生态结构内在化。训练完成后,生成的嵌入可作为下游预测器的可迁移表征。受生物多样性建模中实际应用的驱动,我们在三个生态任务中评估了BotaCLIP表征:植物存在预测、蝴蝶出现建模和土壤营养群丰度估计。结果表明,相对于DOFA和监督基线,性能得到了持续提升。更广泛地说,这项工作展示了领域感知的模型调整如何将专家知识注入到数据稀缺的环境中,从而实现节俭的表征学习。
🔬 方法详解
问题定义:论文旨在解决如何将领域知识(特别是植物学知识)有效地融入到预训练的地球观测基础模型中,以便更好地应用于生态学相关任务。现有的通用表征学习方法缺乏对特定领域知识的理解,直接应用效果不佳。从头开始训练领域特定模型成本高昂,且难以利用已有的预训练模型。
核心思路:论文的核心思路是利用对比学习,将高分辨率航拍图像与植物群落调查数据进行对齐,从而使模型学习到图像与植物学信息之间的关联。通过这种方式,模型能够理解图像中的植物分布和生态结构,从而具备植物学感知能力。这种方法避免了从头开始训练模型,降低了计算成本,并能有效利用预训练模型的通用表征能力。
技术框架:BotaCLIP的整体框架包含以下几个主要模块:1) 图像编码器:使用预训练的地球观测基础模型(DOFA)作为图像编码器,提取航拍图像的特征。2) 文本编码器:使用一个简单的线性层将植物群落调查数据编码为向量表示。3) 对比学习模块:使用对比损失函数,促使来自同一地点的图像和文本嵌入在嵌入空间中靠近,而来自不同地点的嵌入则远离。4) 正则化模块:为了缓解灾难性遗忘,引入正则化项,保持预训练模型的通用表征能力。
关键创新:BotaCLIP的关键创新在于:1) 提出了一个轻量级的对比学习框架,能够有效地将领域知识注入到预训练的地球观测模型中。2) 通过对比学习,使模型能够学习到图像与植物学信息之间的关联,从而具备植物学感知能力。3) 引入正则化策略,缓解了灾难性遗忘问题,保持了预训练模型的通用表征能力。
关键设计:在对比学习中,使用了InfoNCE损失函数,该函数通过softmax操作计算正样本对的相似度与其他负样本对的相似度之间的比例,从而优化模型。正则化项采用L2正则化,作用于DOFA模型的参数,防止模型参数发生过大的变化。图像编码器采用DOFA模型,文本编码器采用线性层。训练过程中,使用了Adam优化器,学习率设置为1e-4,batch size设置为64。
📊 实验亮点
实验结果表明,BotaCLIP在植物存在预测、蝴蝶出现建模和土壤营养群丰度估计等任务中均取得了显著的性能提升。例如,在植物存在预测任务中,BotaCLIP的AUC指标比DOFA提高了5%-10%,表明其能够更准确地预测植物的分布情况。此外,BotaCLIP在数据稀缺的情况下也能表现出良好的泛化能力。
🎯 应用场景
BotaCLIP在生物多样性建模、生态环境监测、精准农业等领域具有广泛的应用前景。它可以用于预测植物分布、评估生态系统健康状况、优化农作物种植方案等。通过将领域知识融入地球观测数据分析中,BotaCLIP能够为生态环境保护和可持续发展提供更准确、更可靠的信息支持。
📄 摘要(原文)
Foundation models have demonstrated a remarkable ability to learn rich, transferable representations across diverse modalities such as images, text, and audio. In modern machine learning pipelines, these representations often replace raw data as the primary input for downstream tasks. In this paper, we address the challenge of adapting a pre-trained foundation model to inject domain-specific knowledge, without retraining from scratch or incurring significant computational costs. To this end, we introduce BotaCLIP, a lightweight multimodal contrastive framework that adapts a pre-trained Earth Observation foundation model (DOFA) by aligning high-resolution aerial imagery with botanical relevés. Unlike generic embeddings, BotaCLIP internalizes ecological structure through contrastive learning with a regularization strategy that mitigates catastrophic forgetting. Once trained, the resulting embeddings serve as transferable representations for downstream predictors. Motivated by real-world applications in biodiversity modeling, we evaluated BotaCLIP representations in three ecological tasks: plant presence prediction, butterfly occurrence modeling, and soil trophic group abundance estimation. The results showed consistent improvements over those derived from DOFA and supervised baselines. More broadly, this work illustrates how domain-aware adaptation of foundation models can inject expert knowledge into data-scarce settings, enabling frugal representation learning.