AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials

📄 arXiv: 2510.04704v3 📥 PDF

作者: Taoyuze Lv, Alexander Chen, Fengyu Xie, Chu Wu, Jeffrey Meng, Dongzhan Zhou, Yingheng Wang, Bram Hoex, Zhicheng Zhong, Tong Xie

分类: cond-mat.mtrl-sci, cs.AI, cs.CL

发布日期: 2025-10-06 (更新: 2026-01-22)


💡 一句话要点

AtomWorld:用于评估大语言模型在晶体材料空间推理能力的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 空间推理 晶体材料 基准数据集 材料科学

📋 核心要点

  1. 现有方法缺乏系统评估LLM在原子结构空间推理能力的标准化基准,阻碍了LLM在材料科学领域的应用。
  2. AtomWorld基准通过CIF格式的任务,包括结构编辑、CIF感知和属性引导建模,来评估LLM的空间推理能力。
  3. 实验表明,现有LLM在结构理解和空间推理方面存在不足,尤其是在结构修改和CIF格式理解任务中。

📝 摘要(中文)

大语言模型(LLMs)在文本推理方面表现出色,并且开始发展空间理解能力。本文探讨了是否可以将这些能力结合起来,用于复杂的、特定领域的任务。在材料科学等领域,对3D原子结构的深入理解至关重要。虽然初步研究已成功地将LLMs应用于纯晶体生成或坐标理解等任务,但缺乏一个标准化的基准来系统地评估它们在各种原子结构中的核心推理能力。为了解决这个问题,我们引入了AtomWorld基准,以评估LLMs在基于晶体学信息文件(CIFs)的任务中的表现。这些任务包括结构编辑、CIF感知和属性引导建模,揭示了一个关键的局限性:目前的模型,尽管建立了有希望的基线,但在结构理解和空间推理方面始终失败。实验表明,这些模型在结构修改任务中经常出错,甚至在基本的CIF格式理解中也会出错,这可能会导致后续分析和材料见解中的累积误差。通过定义这些标准化任务,AtomWorld为推进LLMs实现强大的原子尺度建模奠定了基础,这对于加速材料研究和自动化科学工作流程至关重要。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大语言模型(LLMs)在晶体材料领域的空间推理能力的问题。现有方法缺乏一个标准化的基准,无法全面评估LLMs在处理原子结构相关任务时的性能,尤其是在结构编辑、CIF文件理解和属性引导建模等任务中。现有方法的痛点在于无法有效衡量LLMs对三维原子结构的理解和推理能力,阻碍了LLMs在材料科学领域的应用。

核心思路:论文的核心思路是构建一个名为AtomWorld的基准数据集,该数据集包含基于晶体学信息文件(CIFs)的任务,这些任务旨在测试LLMs在原子结构理解和空间推理方面的能力。通过设计结构编辑、CIF感知和属性引导建模等任务,可以全面评估LLMs在处理晶体材料相关问题时的性能。这种方法的核心在于提供一个标准化的评估平台,促进LLMs在材料科学领域的应用。

技术框架:AtomWorld基准主要包含以下几个模块: 1. CIF数据处理模块:负责解析和处理CIF文件,提取原子坐标、晶格参数等信息。 2. 任务生成模块:根据预定义的任务类型(结构编辑、CIF感知、属性引导建模)生成相应的任务实例。 3. LLM推理模块:将任务实例输入到LLM中,获取LLM的输出结果。 4. 评估模块:根据预定义的评估指标,评估LLM的输出结果,生成性能报告。

关键创新:AtomWorld的关键创新在于: 1. 标准化基准:首次提出了一个专门用于评估LLMs在晶体材料领域空间推理能力的标准化基准。 2. 多样化任务:设计了多种类型的任务,包括结构编辑、CIF感知和属性引导建模,全面评估LLMs的性能。 3. CIF格式应用:利用晶体学信息文件(CIFs)作为数据格式,与材料科学领域的实际应用紧密结合。

关键设计:AtomWorld的关键设计包括: 1. 任务难度分级:针对不同任务设计了不同的难度级别,以评估LLMs在不同难度下的性能。 2. 评估指标选择:针对不同任务选择了合适的评估指标,例如结构相似性、属性预测准确率等。 3. 数据增强策略:采用了数据增强策略,例如旋转、平移等,以增加数据集的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLMs在AtomWorld基准上的表现不佳,尤其是在结构编辑和CIF感知任务中。例如,LLMs在结构修改任务中经常出错,并且在基本的CIF格式理解方面也存在问题。这些结果表明,现有LLMs在处理原子结构相关任务时,缺乏足够的空间推理能力,需要进一步改进。AtomWorld基准的建立为未来LLMs在材料科学领域的应用提供了重要的参考。

🎯 应用场景

AtomWorld基准的潜在应用领域包括材料发现、材料设计和自动化科学工作流程。通过提高LLMs在原子尺度建模方面的能力,可以加速新材料的发现过程,优化现有材料的性能,并实现材料科学研究的自动化。该研究的实际价值在于为材料科学家提供了一个强大的工具,可以更有效地探索和理解材料的结构和性质。未来,AtomWorld可以扩展到其他类型的材料,例如非晶材料和聚合物,从而进一步推动材料科学的发展。

📄 摘要(原文)

Large Language Models (LLMs) excel at textual reasoning and are beginning to develop spatial understanding, prompting the question of whether these abilities can be combined for complex, domain-specific tasks. This question is essential in fields like materials science, where deep understanding of 3D atomic structures is fundamental. While initial studies have successfully applied LLMs to tasks involving pure crystal generation or coordinate understandings, a standardized benchmark to systematically evaluate their core reasoning abilities across diverse atomic structures has been notably absent. To address this gap, we introduce the AtomWorld benchmark to evaluate LLMs on tasks based in Crystallographic Information Files (CIFs), a standard structure representation format. These tasks, including structural editing, CIF perception, and property-guided modeling, reveal a critical limitation: current models, despite establishing promising baselines, consistently fail in structural understanding and spatial reasoning. Our experiments show that these models make frequent errors on structure modification tasks, and even in the basic CIF format understandings, potentially leading to cumulative errors in subsequent analysis and materials insights. By defining these standardized tasks, AtomWorld lays the ground for advancing LLMs toward robust atomic-scale modeling, crucial for accelerating materials research and automating scientific workflows.