PlankFormer: Robust Plankton Instance Segmentation via MAE-Pretrained Vision Transformers and Pseudo Community Image Generation
作者: Masaharu Miyazaki, Yurie Otake, Koichi Ito, Wataru Makino, Jotaro Urabe, Takafumi Aoki
分类: cs.CV
发布日期: 2026-04-20
备注: Accepted to ICPR2026
💡 一句话要点
PlankFormer:基于MAE预训练ViT和伪社区图像生成,实现鲁棒的浮游生物实例分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 浮游生物分割 实例分割 Vision Transformer MAE预训练 伪数据生成 自监督学习 水生生态监测
📋 核心要点
- 现有基于CNN的浮游生物分割方法难以区分浮游生物与碎片、重叠个体,且缺乏像素级标注数据集。
- PlankFormer通过生成伪社区图像(PCI)扩充数据集,并利用MAE预训练的ViT骨干网络提升分割鲁棒性。
- 实验表明,PlankFormer在高碎片密度环境中显著优于Mask R-CNN等传统方法,降低了人工标注需求。
📝 摘要(中文)
浮游生物监测对于评估水生生态系统至关重要,但人工显微镜分析的劳动密集性限制了其发展。从拥挤的图像中自动分割浮游生物至关重要,然而,它面临两个主要挑战:(i)像素级标注数据集的稀缺;(ii)使用传统的基于CNN的方法难以区分浮游生物与碎片和重叠个体。为了解决这些问题,我们提出了一种新的浮游生物实例分割框架PlankFormer。首先,为了克服数据短缺,我们引入了一种通过将单个浮游生物图像合成到多样化的背景(包括由生成模型创建的背景)上来生成带标签的伪社区图像(PCI)的方法。其次,我们提出了一种利用带有Mask2Former解码器的Vision Transformer(ViT)骨干网络的分割模型。为了稳健地捕获浮游生物的全局结构特征,以对抗遮挡和碎片,我们采用Masked Autoencoder(MAE)对未标记的单个图像进行自监督预训练。在真实世界数据集上的实验结果表明,我们的方法显著优于传统的Mask R-CNN等方法,尤其是在高碎片密度的挑战性环境中。我们证明了我们的合成训练策略和基于MAE的架构能够实现高精度的分割,同时减少了对单个浮游生物图像的人工标注需求。
🔬 方法详解
问题定义:论文旨在解决浮游生物图像分割中数据集稀缺以及难以区分浮游生物与碎片和重叠个体的问题。现有基于CNN的方法在处理复杂背景和遮挡时表现不佳,需要大量人工标注数据。
核心思路:论文的核心思路是通过合成数据和自监督学习来增强模型的泛化能力和鲁棒性。具体来说,通过生成伪社区图像(PCI)来扩充训练数据,并使用Masked Autoencoder(MAE)在未标记的浮游生物图像上进行预训练,从而使模型能够更好地理解浮游生物的结构特征。
技术框架:PlankFormer框架主要包含两个部分:伪社区图像生成和基于ViT的分割模型。首先,通过将单个浮游生物图像合成到各种背景(包括生成模型生成的背景)上来创建带标签的PCI。然后,使用一个带有Mask2Former解码器的Vision Transformer(ViT)作为分割模型的主干网络。MAE用于在未标记的单个图像上进行自监督预训练,以提高模型对遮挡和碎片的鲁棒性。
关键创新:论文的关键创新在于结合了伪数据生成和自监督学习来解决浮游生物分割中的数据稀缺和鲁棒性问题。通过PCI生成,可以有效地扩充训练数据,而MAE预训练则可以使模型学习到浮游生物的结构特征,从而提高分割精度。此外,使用ViT作为骨干网络可以更好地捕捉全局上下文信息。
关键设计:PCI生成过程涉及将单个浮游生物图像随机放置在不同的背景上,并添加适当的噪声和光照变化以增加真实感。MAE预训练采用高比例的masking策略,迫使模型学习重建被mask掉的部分,从而提高模型的表征能力。Mask2Former解码器用于将ViT的输出映射到像素级的分割掩码。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PlankFormer在真实世界浮游生物数据集上显著优于Mask R-CNN等传统方法,尤其是在高碎片密度环境中。该方法能够利用较少的标注数据实现高精度的分割,有效解决了数据稀缺问题。通过合成训练策略和MAE预训练,模型在复杂环境下的鲁棒性得到了显著提升。
🎯 应用场景
该研究成果可应用于自动化浮游生物监测系统,大幅降低人工分析成本,提高水生生态系统评估效率。通过对浮游生物种类和数量的精确分析,可以更好地了解水质状况、气候变化对水生生物的影响,并为环境保护提供数据支持。未来可扩展到其他生物图像分割领域。
📄 摘要(原文)
Plankton monitoring is essential for assessing aquatic ecosystems but is limited by the labor-intensive nature of manual microscopic analysis. Automating the segmentation of plankton from crowded images is crucial, however, it faces two major challenges: (i) the scarcity of pixel-level annotated datasets and (ii) the difficulty of distinguishing plankton from debris and overlapping individuals using conventional CNN-based methods. To address these issues, we propose PlankFormer, a novel framework for plankton instance segmentation. First, to overcome the data shortage, we introduce a method to generate labeled Pseudo Community Images (PCI) by synthesizing individual plankton images onto diverse backgrounds, including those created by generative models. Second, we propose a segmentation model utilizing a Vision Transformer (ViT) backbone with a Mask2Former decoder. To robustly capture the global structural features of plankton against occlusion and debris, we employ a Masked Autoencoder (MAE) for self-supervised pre-training on unlabeled individual images. Experimental results on real-world datasets demonstrate that our method significantly outperforms conventional methods, such as Mask R-CNN, particularly in challenging environments with high debris density. We demonstrate that our synthetic training strategy and MAE-based architecture enable high-precision segmentation with requiring less manual annotations for individual plankton images.