MatSSL: Robust Self-Supervised Representation Learning for Metallographic Image Segmentation
作者: Hoang Hai Nam Nguyen, Phan Nguyen Duc Hieu, Ho Won Lee
分类: cs.CV, cond-mat.mtrl-sci
发布日期: 2025-07-24
💡 一句话要点
MatSSL:用于金相图像分割的鲁棒自监督表征学习方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自监督学习 金相图像分割 门控特征融合 小样本学习 表征学习
📋 核心要点
- 现有金相图像分析依赖有监督学习,需大量标注数据且泛化性差,难以适应新数据集。
- MatSSL通过门控特征融合,在小规模未标记金相数据集上进行自监督预训练,提升模型泛化能力。
- 实验表明,MatSSL在MetalDAM和EBC数据集上显著优于ImageNet和MicroNet预训练模型。
📝 摘要(中文)
MatSSL是一种精简的自监督学习(SSL)架构,它在骨干网络的每个阶段采用门控特征融合,以有效地整合多层次的表征。目前金属材料的显微照片分析依赖于监督方法,这需要为每个新数据集重新训练,并且在只有少量标记样本的情况下,性能通常不一致。虽然SSL通过利用未标记数据提供了一种有希望的替代方案,但大多数现有方法仍然依赖于大规模数据集才能有效。MatSSL旨在克服这一限制。我们首先在小规模的未标记数据集上执行自监督预训练,然后在多个基准数据集上微调模型。由此产生的分割模型在MetalDAM上实现了69.13%的mIoU,优于ImageNet预训练编码器实现的66.73%,并且与使用MicroNet预训练的模型相比,在环境屏障涂层基准数据集(EBC)上,平均mIoU始终提高了近40%。这表明MatSSL能够仅使用少量未标记数据有效地适应金相领域,同时保留从大规模自然图像预训练中学习到的丰富且可迁移的特征。
🔬 方法详解
问题定义:金相图像分割任务中,现有监督学习方法需要大量标注数据,成本高昂,且模型在新数据集上的泛化能力较弱。自监督学习虽然可以利用无标签数据,但现有方法通常依赖大规模数据集,难以在金相领域应用,因为金相图像数据量通常较小。
核心思路:论文的核心思路是设计一种高效的自监督学习框架,使其能够在小规模的未标记金相图像数据集上进行有效的预训练,从而提升模型在金相图像分割任务上的性能和泛化能力。通过门控特征融合,有效整合多层次的特征表示,从而学习到更鲁棒的图像表征。
技术框架:MatSSL的整体框架包含两个主要阶段:自监督预训练阶段和微调阶段。在自监督预训练阶段,模型在小规模的未标记金相图像数据集上进行训练,学习图像的通用特征表示。在微调阶段,模型在标记的金相图像数据集上进行微调,以适应特定的分割任务。骨干网络采用常见的卷积神经网络结构,并在每个阶段引入门控特征融合模块。
关键创新:MatSSL的关键创新在于提出了门控特征融合模块,该模块能够有效地整合骨干网络不同层次的特征表示。通过门控机制,模型可以自适应地选择不同层次的特征,从而学习到更具判别性和鲁棒性的图像表征。这种方法特别适用于小规模数据集,因为它能够充分利用有限的数据信息。
关键设计:门控特征融合模块的具体实现方式是:首先,将不同层次的特征图进行上采样或下采样,使其具有相同的尺寸。然后,将这些特征图拼接在一起,并通过一个卷积层和一个sigmoid激活函数,生成门控权重。最后,将门控权重与对应的特征图相乘,并将结果相加,得到融合后的特征表示。损失函数采用常用的对比学习损失函数,例如InfoNCE。
🖼️ 关键图片
📊 实验亮点
MatSSL在MetalDAM数据集上取得了69.13%的mIoU,超过了ImageNet预训练模型的66.73%。在EBC数据集上,MatSSL相比于MicroNet预训练模型,平均mIoU提升了近40%。这些结果表明,MatSSL能够有效地利用小规模的未标记金相图像数据进行自监督预训练,并显著提升模型在金相图像分割任务上的性能。
🎯 应用场景
MatSSL可应用于各种金属材料的显微结构分析,例如晶粒尺寸测量、相组成分析、缺陷检测等。该方法能够降低对大量标注数据的依赖,加速新材料的研发和质量控制过程,具有重要的实际应用价值和潜在的经济效益。未来可扩展到其他材料的图像分析任务中。
📄 摘要(原文)
MatSSL is a streamlined self-supervised learning (SSL) architecture that employs Gated Feature Fusion at each stage of the backbone to integrate multi-level representations effectively. Current micrograph analysis of metallic materials relies on supervised methods, which require retraining for each new dataset and often perform inconsistently with only a few labeled samples. While SSL offers a promising alternative by leveraging unlabeled data, most existing methods still depend on large-scale datasets to be effective. MatSSL is designed to overcome this limitation. We first perform self-supervised pretraining on a small-scale, unlabeled dataset and then fine-tune the model on multiple benchmark datasets. The resulting segmentation models achieve 69.13% mIoU on MetalDAM, outperforming the 66.73% achieved by an ImageNet-pretrained encoder, and delivers consistently up to nearly 40% improvement in average mIoU on the Environmental Barrier Coating benchmark dataset (EBC) compared to models pretrained with MicroNet. This suggests that MatSSL enables effective adaptation to the metallographic domain using only a small amount of unlabeled data, while preserving the rich and transferable features learned from large-scale pretraining on natural images.