A Mixture of Experts Foundation Model for Scanning Electron Microscopy Image Analysis

📄 arXiv: 2604.05960v1 📥 PDF

作者: Sk Miraj Ahmed, Yuewei Lin, Chuntian Cao, Shinjae Yoo, Xinpei Wu, Won-Il Lee, Nikhil Tiwale, Dan N. Le, Thi Thu Huong Chu, Jiyoung Kim, Kevin G. Yager, Chang-Yong Nam

分类: cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出用于扫描电子显微镜图像分析的混合专家基础模型,提升泛化性和自动化水平。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扫描电子显微镜 基础模型 自监督学习 图像转换 材料科学

📋 核心要点

  1. 现有SEM成像受限于特定任务模型和耗时的人工采集过程,限制了其在不同应用中的可扩展性。
  2. 论文提出一种基于混合专家模型的基础模型,通过自监督学习,提取SEM图像中可迁移的表征。
  3. 实验表明,该模型在散焦到聚焦图像转换任务中,无需配对监督即可超越现有技术水平。

📝 摘要(中文)

本文提出首个用于扫描电子显微镜(SEM)图像的基础模型,该模型在大规模多仪器、多条件科学显微照片语料库上进行预训练,从而能够泛化到不同的材料系统和成像条件。该模型利用自监督Transformer架构,学习丰富的、可迁移的表征,这些表征可以被微调或适配到各种下游任务。作为一项引人注目的演示,本文重点关注散焦到聚焦的图像转换——自动化显微镜流程中一个重要但未被充分探索的挑战。该方法不仅可以在没有配对监督的情况下从散焦输入中恢复聚焦细节,而且在多个评估指标上优于最先进的技术。这项工作为一类新的、可适应的SEM模型奠定了基础,通过将基础表征学习与实际成像需求相结合,加速材料发现。

🔬 方法详解

问题定义:论文旨在解决扫描电子显微镜(SEM)图像分析中泛化能力不足的问题。现有方法通常依赖于针对特定材料或成像条件训练的模型,难以适应新的场景。此外,SEM图像采集过程耗时且需要专业知识,限制了其应用范围。

核心思路:论文的核心思路是利用大规模无标注SEM图像数据,通过自监督学习训练一个通用的基础模型。该模型能够学习到SEM图像中丰富的、可迁移的表征,从而可以被微调或适配到各种下游任务,而无需从头开始训练模型。

技术框架:该模型基于Transformer架构,采用自监督学习方法进行预训练。具体而言,模型首先在大规模SEM图像数据集上进行预训练,学习图像的通用特征表示。然后,针对特定的下游任务,如散焦到聚焦的图像转换,对预训练模型进行微调。整体流程包括数据收集与预处理、模型预训练、模型微调和性能评估等阶段。

关键创新:最重要的技术创新点在于提出了首个用于SEM图像分析的基础模型。该模型通过在大规模数据集上进行自监督学习,能够学习到具有高度泛化能力的图像表征,从而可以被应用于各种不同的SEM图像分析任务。与现有方法相比,该模型无需针对特定任务进行专门训练,大大降低了模型开发的成本和时间。

关键设计:模型采用Transformer架构,并使用对比学习作为自监督学习的目标函数。具体而言,模型通过最大化同一图像不同视角下的表征相似度,同时最小化不同图像的表征相似度,来学习图像的通用特征表示。在散焦到聚焦的图像转换任务中,模型使用U-Net结构,并将预训练的Transformer模型作为编码器,从而可以有效地利用预训练模型学习到的图像表征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在散焦到聚焦的图像转换任务中取得了显著的性能提升。实验结果表明,该模型在无需配对监督的情况下,能够有效地从散焦图像中恢复聚焦细节,并在多个评估指标上优于现有最先进的技术。这证明了该模型学习到的图像表征具有高度的泛化能力和实用价值。

🎯 应用场景

该研究成果可广泛应用于材料科学、生物医学等领域。通过构建通用的SEM图像分析模型,可以加速材料的发现和表征,提高生物样本的成像质量和分析效率。未来,该模型有望应用于自动化显微镜系统,实现智能化的图像采集和分析,从而推动相关领域的发展。

📄 摘要(原文)

Scanning Electron Microscopy (SEM) is indispensable in modern materials science, enabling high-resolution imaging across a wide range of structural, chemical, and functional investigations. However, SEM imaging remains constrained by task-specific models and labor-intensive acquisition processes that limit its scalability across diverse applications. Here, we introduce the first foundation model for SEM images, pretrained on a large corpus of multi-instrument, multi-condition scientific micrographs, enabling generalization across diverse material systems and imaging conditions. Leveraging a self-supervised transformer architecture, our model learns rich and transferable representations that can be fine-tuned or adapted to a wide range of downstream tasks. As a compelling demonstration, we focus on defocus-to-focus image translation-an essential yet underexplored challenge in automated microscopy pipelines. Our method not only restores focused detail from defocused inputs without paired supervision but also outperforms state-of-the-art techniques across multiple evaluation metrics. This work lays the groundwork for a new class of adaptable SEM models, accelerating materials discovery by bridging foundational representation learning with real-world imaging needs.