Multi-label classification for multi-temporal, multi-spatial coral reef condition monitoring using vision foundation model with adapter learning

作者: Xinlei Shao, Hongruixuan Chen, Fan Zhao, Kirsty Magson, Jundong Chen, Peiran Li, Jiaqi Wang, Jun Sasaki

分类: cs.CV

发布日期: 2025-03-29

期刊: Marine Pollution Bulletin, Vol. 223, Article 119054, 2026

DOI: 10.1016/j.marpolbul.2025.119054

💡 一句话要点

提出基于DINOv2-LoRA的珊瑚礁多标签分类方法，用于多时空条件下的珊瑚礁监测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 珊瑚礁监测 多标签分类 视觉基础模型 DINOv2 LoRA 适配器学习 迁移学习

📋 核心要点

传统深度学习模型在处理复杂水下珊瑚礁图像时，难以兼顾高精度和泛化性，限制了珊瑚礁状况的有效监测。
利用DINOv2视觉基础模型和LoRA适配器学习，在保证精度的同时，显著降低了计算资源需求和碳排放。
实验表明，DINOv2-LoRA模型在多时空条件下表现出卓越的泛化能力，匹配率达到64.77%，优于传统模型。

📝 摘要（中文）

珊瑚礁生态系统提供重要的生态服务，但面临气候变化和人类活动的严重威胁。深度学习的进步使得珊瑚礁状况的自动分类成为可能，但传统深度模型在处理复杂的水下生态图像时难以达到高性能。视觉基础模型以其高精度和跨领域泛化能力，提供了有希望的解决方案。然而，微调这些模型需要大量的计算资源，并导致高碳排放。为了解决这些挑战，诸如低秩适应(LoRA)之类的适配器学习方法应运而生。本研究介绍了一种将DINOv2视觉基础模型与LoRA微调方法相结合的方法。该方法利用在泰国涛岛15个潜水点通过水下调查收集的多时相现场图像，所有图像均根据公民科学保护项目中使用的通用标准进行标记。实验结果表明，DINOv2-LoRA模型的准确率更高，匹配率为64.77%，而最佳传统模型的匹配率为60.34%。此外，采用LoRA将可训练参数从1100M减少到5.91M。在不同时间和空间设置下进行的迁移学习实验突出了DINOv2-LoRA在不同季节和地点的卓越泛化能力。本研究首次探索了基础模型在多时空设置下对珊瑚礁状况进行多标签分类的有效适应性。该方法推进了珊瑚礁状况的分类，并为监测、保护和管理珊瑚礁生态系统提供了一种工具。

🔬 方法详解

问题定义：论文旨在解决珊瑚礁生态监测中，传统深度学习模型在处理复杂水下图像时精度不足，且视觉基础模型微调成本过高的问题。现有方法难以兼顾高精度、泛化性和计算效率，限制了珊瑚礁状况的有效监测和保护。

核心思路：论文的核心思路是利用视觉基础模型DINOv2强大的特征提取能力，并通过LoRA（Low-Rank Adaptation）适配器学习方法，在少量参数下实现模型的微调。这样既能利用预训练模型的知识，又能避免全参数微调带来的高计算成本。

技术框架：整体框架包括以下几个阶段：1) 数据收集：收集泰国涛岛15个潜水点的多时相珊瑚礁图像数据，并按照公民科学标准进行多标签标注。2) 模型构建：使用DINOv2作为视觉基础模型，并添加LoRA适配器层。3) 模型训练：使用标注数据对LoRA适配器进行微调，固定DINOv2主干网络的参数。4) 模型评估：在不同时间和空间设置下进行迁移学习实验，评估模型的泛化能力和分类精度。

关键创新：论文的关键创新在于将视觉基础模型DINOv2与LoRA适配器学习相结合，用于珊瑚礁多标签分类。与传统深度学习模型相比，DINOv2具有更强的特征提取能力和跨领域泛化性。与全参数微调相比，LoRA显著降低了计算成本和碳排放。这是首次探索基础模型在多时空设置下对珊瑚礁状况进行多标签分类的有效适应性。

关键设计：LoRA适配器的具体实现方式未知，但其核心思想是在预训练模型的每一层添加少量可训练的低秩矩阵，通过优化这些低秩矩阵来适应特定任务。损失函数采用适用于多标签分类的损失函数，例如二元交叉熵损失。DINOv2模型的具体参数设置沿用原始论文的设置。

🖼️ 关键图片

📊 实验亮点

DINOv2-LoRA模型在珊瑚礁多标签分类任务中取得了显著的性能提升，匹配率达到64.77%，优于最佳传统模型的60.34%。同时，LoRA的使用将可训练参数从1100M大幅降低到5.91M，显著降低了计算成本。迁移学习实验表明，该模型在不同时间和空间条件下具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于珊瑚礁生态系统的自动监测和评估，为珊瑚礁保护和管理提供决策支持。通过部署水下相机和搭载DINOv2-LoRA模型的计算设备，可以实现对大范围珊瑚礁区域的快速、准确评估，及时发现珊瑚礁的健康状况变化，并采取相应的保护措施。该方法还可推广到其他水下生态系统的监测。

📄 摘要（原文）

Coral reef ecosystems provide essential ecosystem services, but face significant threats from climate change and human activities. Although advances in deep learning have enabled automatic classification of coral reef conditions, conventional deep models struggle to achieve high performance when processing complex underwater ecological images. Vision foundation models, known for their high accuracy and cross-domain generalizability, offer promising solutions. However, fine-tuning these models requires substantial computational resources and results in high carbon emissions. To address these challenges, adapter learning methods such as Low-Rank Adaptation (LoRA) have emerged as a solution. This study introduces an approach integrating the DINOv2 vision foundation model with the LoRA fine-tuning method. The approach leverages multi-temporal field images collected through underwater surveys at 15 dive sites at Koh Tao, Thailand, with all images labeled according to universal standards used in citizen science-based conservation programs. The experimental results demonstrate that the DINOv2-LoRA model achieved superior accuracy, with a match ratio of 64.77%, compared to 60.34% achieved by the best conventional model. Furthermore, incorporating LoRA reduced the trainable parameters from 1,100M to 5.91M. Transfer learning experiments conducted under different temporal and spatial settings highlight the exceptional generalizability of DINOv2-LoRA across different seasons and sites. This study is the first to explore the efficient adaptation of foundation models for multi-label classification of coral reef conditions under multi-temporal and multi-spatial settings. The proposed method advances the classification of coral reef conditions and provides a tool for monitoring, conserving, and managing coral reef ecosystems.

Multi-label classification for multi-temporal, multi-spatial coral reef condition monitoring using vision foundation model with adapter learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理