AutoMat: Enabling Automated Crystal Structure Reconstruction from Microscopy via Agentic Tool Use

作者: Yaotian Yang, Yiwen Tang, Yizhe Chen, Xiao Chen, Jiangjie Qiu, Hao Xiong, Haoyu Yin, Zhiyao Luo, Yifei Zhang, Sijia Tao, Wentao Li, Qinghua Zhang, Yuqiang Li, Wanli Ouyang, Bin Zhao, Xiaonan Wang, Fei Wei

分类: cs.CV, cs.AI

发布日期: 2025-05-19

备注: The code and dataset are publicly available at https://github.com/yyt-2378/AutoMat and https://huggingface.co/datasets/yaotianvector/STEM2Mat

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

AutoMat：通过智能体工具调用实现显微图像自动晶体结构重建

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 晶体结构重建 扫描透射电子显微镜 智能体工具调用 材料科学 自动化 大型语言模型 原子模拟

📋 核心要点

现有方法难以将原子分辨率电子显微镜图像高效转化为可用于原子模拟的结构数据，人工操作繁琐且易出错。
AutoMat利用智能体协调多个工具，实现从STEM图像到原子晶体结构的自动转换，并预测其物理性质。
AutoMat在STEM2Mat-Bench上表现出色，显著优于现有模型，为材料科学的显微镜和原子模拟搭建桥梁。

📝 摘要（中文）

基于机器学习的原子间势和力场高度依赖于精确的原子结构，但由于实验解析晶体的数量有限，此类数据非常稀缺。虽然原子分辨率电子显微镜提供了一种潜在的结构数据来源，但将这些图像转换为可用于模拟的格式仍然是劳动密集且容易出错的，这为模型训练和验证造成了瓶颈。我们介绍了AutoMat，一个端到端的、智能体辅助的流程，它可以自动将扫描透射电子显微镜（STEM）图像转换为原子晶体结构并预测其物理性质。AutoMat结合了模式自适应去噪、物理引导的模板检索、对称感知原子重建、通过MatterSim的快速弛豫和性质预测，以及跨所有阶段的协调编排。我们提出了第一个专门用于此任务的STEM2Mat-Bench，并使用晶格RMSD、形成能MAE和结构匹配成功率来评估性能。通过协调外部工具调用，AutoMat使纯文本LLM能够在此领域中胜过视觉语言模型，从而在整个流程中实现闭环推理。在超过450个结构样本的大规模实验中，AutoMat大大优于现有的多模态大型语言模型和工具。这些结果验证了AutoMat和STEM2Mat-Bench，标志着在材料科学中弥合显微镜和原子模拟之间差距的关键一步。代码和数据集可在https://github.com/yyt-2378/AutoMat和https://huggingface.co/datasets/yaotianvector/STEM2Mat公开获取。

🔬 方法详解

问题定义：论文旨在解决从扫描透射电子显微镜（STEM）图像中自动重建原子晶体结构的问题。现有方法依赖人工操作，耗时且容易出错，阻碍了基于机器学习的原子间势和力场的开发和验证。现有方法缺乏自动化和高效性，无法充分利用STEM图像中蕴含的结构信息。

核心思路：论文的核心思路是利用智能体（Agent）协调多个工具，构建一个端到端的自动化流程，将STEM图像转化为原子晶体结构。通过智能体对不同工具的调用和参数调整，实现图像处理、结构重建和性质预测的自动化，从而提高效率和准确性。这种方法避免了人工干预，并能够充分利用领域知识和物理约束。

技术框架：AutoMat的整体架构包含以下主要模块：1) 模式自适应去噪：对STEM图像进行预处理，降低噪声干扰。2) 物理引导的模板检索：利用物理知识，从数据库中检索与图像相似的晶体结构模板。3) 对称感知原子重建：基于模板和图像信息，重建原子结构，并考虑晶体对称性。4) MatterSim快速弛豫和性质预测：使用MatterSim对重建的结构进行弛豫，并预测其物理性质。5) 智能体协调：使用大型语言模型作为智能体，协调各个模块的执行，并根据结果进行反馈和调整。

关键创新：AutoMat最重要的技术创新点在于使用智能体协调外部工具调用，实现闭环推理。与传统的多模态大型语言模型相比，AutoMat通过文本指令控制工具，能够更好地利用领域知识和物理约束，从而提高结构重建的准确性和效率。此外，AutoMat还提出了专门用于此任务的STEM2Mat-Bench，为模型的评估和比较提供了标准平台。

关键设计：AutoMat的关键设计包括：1) 模式自适应去噪算法，能够有效降低STEM图像中的噪声。2) 物理引导的模板检索方法，利用晶体结构的物理性质提高检索准确率。3) 对称感知原子重建算法，考虑晶体对称性，提高结构重建的合理性。4) 使用大型语言模型作为智能体，通过文本指令控制工具，实现灵活的流程控制和参数调整。5) STEM2Mat-Bench数据集，包含大量的STEM图像和对应的晶体结构，用于模型的训练和评估。

🖼️ 关键图片

📊 实验亮点

AutoMat在STEM2Mat-Bench上进行了大规模实验，包含超过450个结构样本。实验结果表明，AutoMat显著优于现有的多模态大型语言模型和工具，在晶格RMSD、形成能MAE和结构匹配成功率等指标上均取得了显著提升。这验证了AutoMat的有效性和优越性，表明其在自动化晶体结构重建方面具有巨大潜力。

🎯 应用场景

AutoMat的应用场景广泛，包括新材料发现、材料性质预测、催化剂设计等。通过自动化晶体结构重建，可以加速材料研究进程，降低实验成本。该技术还有潜力应用于其他类型的显微图像分析，例如生物分子结构解析，为相关领域的研究提供有力支持。

📄 摘要（原文）

Machine learning-based interatomic potentials and force fields depend critically on accurate atomic structures, yet such data are scarce due to the limited availability of experimentally resolved crystals. Although atomic-resolution electron microscopy offers a potential source of structural data, converting these images into simulation-ready formats remains labor-intensive and error-prone, creating a bottleneck for model training and validation. We introduce AutoMat, an end-to-end, agent-assisted pipeline that automatically transforms scanning transmission electron microscopy (STEM) images into atomic crystal structures and predicts their physical properties. AutoMat combines pattern-adaptive denoising, physics-guided template retrieval, symmetry-aware atomic reconstruction, fast relaxation and property prediction via MatterSim, and coordinated orchestration across all stages. We propose the first dedicated STEM2Mat-Bench for this task and evaluate performance using lattice RMSD, formation energy MAE, and structure-matching success rate. By orchestrating external tool calls, AutoMat enables a text-only LLM to outperform vision-language models in this domain, achieving closed-loop reasoning throughout the pipeline. In large-scale experiments over 450 structure samples, AutoMat substantially outperforms existing multimodal large language models and tools. These results validate both AutoMat and STEM2Mat-Bench, marking a key step toward bridging microscopy and atomistic simulation in materials science.The code and dataset are publicly available at https://github.com/yyt-2378/AutoMat and https://huggingface.co/datasets/yaotianvector/STEM2Mat.

AutoMat: Enabling Automated Crystal Structure Reconstruction from Microscopy via Agentic Tool Use

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理