Cross-modal learning for plankton recognition

📄 arXiv: 2603.16427v1 📥 PDF

作者: Joona Kareinen, Veikka Immonen, Tuomas Eerola, Lumi Haraguchi, Lasse Lensu, Kaisa Kraft, Sanna Suikkanen, Heikki Kälviäinen

分类: cs.CV

发布日期: 2026-03-17

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于跨模态自监督学习的浮游生物识别方法,利用图像和光学测量数据提升识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态学习 自监督学习 浮游生物识别 对比学习 图像识别 光学测量 多模态融合

📋 核心要点

  1. 现有浮游生物识别主要依赖有监督学习,标注成本高昂,且忽略了光学测量数据。
  2. 利用对比学习思想,通过判断图像和光学剖面是否来自同一粒子进行自监督训练。
  3. 实验表明,该方法仅需少量标注数据即可达到高识别精度,并优于图像自监督基线。

📝 摘要(中文)

本文提出了一种自监督跨模态协调方法,旨在利用多模态数据和大量未标记的浮游生物数据来构建浮游生物识别模型。自动成像仪器能够大规模地持续收集浮游生物图像数据。目前,自动浮游生物图像识别方法主要依赖于有监督方法,这需要耗费大量人力进行标注。另一方面,一些现代浮游生物成像仪器除了图像信息外,还提供光学测量数据,如散射和荧光剖面,但这些数据目前尚未被广泛应用于浮游生物识别。本文探索了使用这些测量数据来指导学习过程的可能性,而无需手动标注。受对比语言-图像预训练概念的启发,我们仅使用二元监督信息(指示给定的图像和剖面是否来自同一粒子)来训练两种模态的编码器。对于浮游生物识别,我们采用少量已标记的已知浮游生物物种图库,并结合 $k$-NN 分类器。这种方法产生了一个本质上是多模态的识别模型,即能够利用从图像和剖面数据中提取的信息。实验结果表明,该方法在仅需少量标记图像的情况下,即可实现较高的识别精度,并且优于仅使用图像的自监督基线方法。代码已开源。

🔬 方法详解

问题定义:论文旨在解决浮游生物自动识别中,有监督学习依赖大量标注数据的问题,以及如何有效利用浮游生物成像仪器提供的光学测量数据(如散射和荧光剖面)的问题。现有方法主要依赖图像信息,忽略了光学测量数据,且标注成本高昂。

核心思路:论文的核心思路是利用跨模态自监督学习,将图像和光学测量数据结合起来,通过对比学习的方式,学习图像和光学剖面之间的关联性。具体来说,模型学习判断给定的图像和光学剖面是否来自同一个浮游生物个体,从而无需人工标注即可学习到有效的特征表示。

技术框架:整体框架包含两个主要阶段:1) 跨模态自监督预训练阶段:分别训练图像编码器和光学剖面编码器,使用对比损失函数,使得来自同一浮游生物个体的图像和剖面在特征空间中距离更近,而来自不同个体的距离更远。2) 浮游生物识别阶段:使用少量已标注的浮游生物图像,结合 $k$-NN 分类器,对预训练好的图像和剖面编码器提取的特征进行分类。

关键创新:最重要的创新点在于利用跨模态自监督学习,将图像和光学测量数据结合起来,从而在仅需少量标注数据的情况下,实现高精度的浮游生物识别。与现有方法相比,该方法无需大量人工标注,并且能够有效利用光学测量数据,提升识别性能。

关键设计:论文使用对比损失函数进行自监督学习,具体来说,对于每个图像-剖面对,模型的目标是最大化它们之间的相似度,同时最小化该图像与其他剖面之间的相似度。图像编码器和剖面编码器可以使用不同的网络结构,例如卷积神经网络用于图像,全连接网络用于剖面。$k$-NN 分类器的 $k$ 值需要根据实际数据进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在仅使用少量标记图像的情况下,即可实现较高的浮游生物识别精度,并且优于仅使用图像的自监督基线方法。这表明跨模态学习能够有效利用光学测量数据,提升识别性能,并降低对大量标注数据的依赖。

🎯 应用场景

该研究成果可应用于海洋生态监测、水质评估、浮游生物多样性研究等领域。通过自动识别浮游生物种类和数量,可以实时监测水体环境变化,为环境保护和渔业资源管理提供数据支持。未来可扩展到其他需要多模态数据融合的生物识别场景。

📄 摘要(原文)

This paper considers self-supervised cross-modal coordination as a strategy enabling utilization of multiple modalities and large volumes of unlabeled plankton data to build models for plankton recognition. Automated imaging instruments facilitate the continuous collection of plankton image data on a large scale. Current methods for automatic plankton image recognition rely primarily on supervised approaches, which require labeled training sets that are labor-intensive to collect. On the other hand, some modern plankton imaging instruments complement image information with optical measurement data, such as scatter and fluorescence profiles, which currently are not widely utilized in plankton recognition. In this work, we explore the possibility of using such measurement data to guide the learning process without requiring manual labeling. Inspired by the concepts behind Contrastive Language-Image Pre-training, we train encoders for both modalities using only binary supervisory information indicating whether a given image and profile originate from the same particle or from different particles. For plankton recognition, we employ a small labeled gallery of known plankton species combined with a $k$-NN classifier. This approach yields a recognition model that is inherently multimodal, i.e., capable of utilizing information extracted from both image and profile data. We demonstrate that the proposed method achieves high recognition accuracy while requiring only a minimal number of labeled images. Furthermore, we show that the approach outperforms an image-only self-supervised baseline. Code available at https://github.com/Jookare/cross-modal-plankton.