Context-Aware Deep Learning for Defect Classification in Atomic-Resolution STEM

📄 arXiv: 2606.09419v1 📥 PDF

作者: Jiadong Dan, Cheng Zhang, Leyi Loh, Ivan Verzhbitskiy, Yuan Chen, Goki Eda, Michel Bosman, N. Duane Loh

分类: cond-mat.mtrl-sci, cs.AI

发布日期: 2026-06-08

备注: 6 figures


💡 一句话要点

提出上下文感知深度学习框架以解决缺陷分类问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文感知 深度学习 缺陷分类 电子显微镜 材料表征 多模态学习 图像处理

📋 核心要点

  1. 现有电子显微镜方法主要依赖图像对比度,忽视了影响图像形成的化学和实验背景,导致缺陷分类模糊不清。
  2. 本文提出了一种上下文感知学习框架,结合图像对比度与元数据,提升缺陷分类的准确性和物理基础。
  3. 实验结果显示,该框架在模拟数据上超过98%的准确率,并在实验数据上接近人类一致性,显著降低后验熵。

📝 摘要(中文)

人工智能在材料表征领域快速发展,但现有电子显微镜应用主要依赖图像对比度,忽视了影响图像形成的化学和实验背景。这种局限性使得缺陷分类变得模糊,因为相似的对比度可能源于不同的材料或成像条件。本文开发了一种上下文感知学习框架,将图像对比度与描述组成、束能和探测器几何的元数据相结合。通过构建约5500万模拟图像块的数据集,论文展示了在上下文变量的条件下,缺陷分类从一个不适定的图像任务转变为一个良好定义的物理问题。该框架在模拟数据上实现了超过98%的准确率,并在实验数据上接近人类一致性,后验熵减少了94%。

🔬 方法详解

问题定义:本文旨在解决缺陷分类中的模糊性问题,现有方法仅依赖图像对比度,未考虑化学和实验背景,导致分类不准确。

核心思路:提出的上下文感知学习框架通过整合图像对比度与相关元数据,转变缺陷分类为一个良好定义的物理问题,从而提高分类的准确性。

技术框架:框架包括数据预处理、上下文变量提取、模型训练和分类决策四个主要模块。首先构建包含丰富元数据的图像数据集,然后训练深度学习模型以进行分类。

关键创新:最重要的创新点在于将上下文信息与图像对比度结合,形成了一种新的分类方法,显著提升了分类的物理基础和准确性。

关键设计:在模型设计中,采用了特定的损失函数以优化分类性能,并通过调整网络结构以适应多模态数据的处理需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在模拟数据上实现了超过98%的准确率,并在实验数据上接近人类一致性,后验熵减少了94%。与传统方法相比,显著提高了缺陷分类的准确性和可靠性。

🎯 应用场景

该研究的潜在应用领域包括材料科学、纳米技术和电子显微镜图像分析等。通过提供更准确的缺陷分类,该框架能够支持材料的自动化表征,推动新材料的开发与应用,具有重要的实际价值和未来影响。

📄 摘要(原文)

Artificial intelligence is rapidly advancing materials characterization, yet most applications in electron microscopy rely solely on image contrast, overlooking the chemical and experimental context that shapes image formation. This limitation makes defect classification inherently ambiguous, as similar contrasts can arise from different materials or imaging conditions. Here we develop a context-aware learning framework that integrates image-derived contrast with metadata describing composition, beam energy, and detector geometry. Using a systematically constructed dataset of ~55 million simulated patches spanning 576 cases across 96 doped monolayer transition-metal dichalcogenides, we show that conditioning on contextual variables transforms defect classification from an ill-posed image-only task into a well-posed, physically grounded problem. The framework achieves over 98% accuracy on simulations and near-human agreement on experimental data, with a 94% reduction in posterior entropy. By emphasizing contextual grounding over architectural complexity, this approach links experimental image contrast to the underlying chemical and imaging conditions, supporting physically grounded defect assignments and a general pathway toward multimodal AI models for autonomous materials characterization.