CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials
作者: Chengliang Xu, Xiaogang Li, Peiyao Xiao, Beng Wang, Hu Wei, Bing Zhao
分类: cs.AI
发布日期: 2026-05-28
备注: 18 pages, 10 figures
💡 一句话要点
CrystalXRD-Bench:用于评估视觉-语言模型在晶体材料XRD峰索引任务上的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 X射线衍射 米勒指数 晶体学 基准测试
📋 核心要点
- 现有多模态基准测试无法评估模型从XRD图谱中提取峰值信息并进行晶体学推理的能力。
- CrystalXRD-Bench基准数据集包含XRD图像、CIF文本和化学式,用于评估视觉-语言模型在米勒指数识别任务上的性能。
- 实验结果表明,现有视觉-语言模型在CrystalXRD-Bench上表现不佳,错误模式具有系统性,任务具有挑战性。
📝 摘要(中文)
本文提出了CrystalXRD-Bench,一个包含250个样本的基准数据集,用于评估视觉-语言模型在粉末X射线衍射(XRD)图谱中进行米勒指数识别的能力。该任务要求模型从渲染的科学曲线中读取窄峰位置,并将其与多步晶体学推理联系起来。数据集包含XRD图像、源CIF文本和化学式,便于分析视觉提取和推理错误。实验评估了七个视觉-语言模型,最佳Jaccard系数为0.5888 (GPT-5.4),精确匹配率为37.6%,表明该任务远未解决。错误模式具有系统性,例如双峰情况较为脆弱,召回率高的模型倾向于过度预测HKL,且访问CIF文本并不能完全弥补晶体学计算的差距。该基准测试不仅对模型进行了排名,还识别了当前VLM在定量科学图上失效的条件。所有数据和评估代码都将公开。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型在理解和推理X射线衍射(XRD)图谱中的米勒指数(HKL)识别问题。现有方法缺乏针对此类科学图表的专门评估,无法有效测试模型从视觉信息中提取定量数据并进行复杂推理的能力。现有方法难以处理双峰等复杂情况,且对晶体学知识的利用不足。
核心思路:论文的核心思路是构建一个专门的基准数据集CrystalXRD-Bench,该数据集包含XRD图谱图像、对应的晶体学信息文件(CIF)以及化学式。通过评估视觉-语言模型在该数据集上的性能,可以深入了解模型在理解科学图表和进行晶体学推理方面的能力。
技术框架:CrystalXRD-Bench基准测试包含以下几个关键部分:1)数据集构建:从10个公开的晶体学数据库中收集数据,并生成包含XRD图像、CIF文本和化学式的样本。2)任务定义:要求模型预测XRD图谱中最高强度峰对应的完整HKL集合。3)评估指标:使用Jaccard系数和精确匹配率来评估模型的预测结果。4)模型评估:在CrystalXRD-Bench上评估了七个视觉-语言模型,并分析了它们的错误模式。
关键创新:该论文的关键创新在于构建了一个专门用于评估视觉-语言模型在XRD峰索引任务上的性能的基准数据集。该数据集的特点在于其包含真实的晶体学数据,并且任务需要模型进行视觉信息提取和晶体学推理。此外,论文还对现有视觉-语言模型的错误模式进行了深入分析,为未来的研究提供了指导。
关键设计:数据集包含250个样本,涵盖多种晶体材料。每个样本包含XRD图像(渲染的科学曲线)、源CIF文本和化学式。评估指标包括Jaccard系数(衡量预测HKL集合与真实HKL集合的相似度)和精确匹配率(衡量预测HKL集合与真实HKL集合完全一致的比例)。实验中评估了七个视觉-语言模型,包括GPT-5.4等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有视觉-语言模型在CrystalXRD-Bench上的性能仍有很大提升空间。最佳模型GPT-5.4的Jaccard系数为0.5888,精确匹配率为37.6%。研究发现,双峰情况对模型构成挑战,召回率高的模型倾向于过度预测HKL。此外,即使提供CIF文本,也无法完全弥补模型在晶体学计算方面的不足。这些发现为改进视觉-语言模型在科学图表理解方面的能力提供了重要启示。
🎯 应用场景
该研究成果可应用于材料科学、化学、物理等领域,辅助科研人员快速准确地分析XRD图谱,从而加速新材料的发现和表征。通过提高视觉-语言模型对科学图表的理解能力,可以实现自动化数据分析和知识发现,减少人工干预,提高科研效率。未来,该方法有望扩展到其他科学图表分析任务中。
📄 摘要(原文)
Miller-index identification from powder XRD patterns requires capabilities untested by existing multimodal benchmarks: the model must read a narrow peak location from a rendered scientific curve and then connect that observation to multi-step crystallographic reasoning. We introduce CrystalXRD-Bench, a 250-sample benchmark built from 10 public crystallographic databases for a single task: recover the full set of HKLs contributing to the highest-intensity peak in an XRD pattern. Each sample pairs the rendered XRD image with the source CIF text and chemical formula, so visual extraction errors and reasoning errors can be examined side by side. We evaluate seven vision-language models. The best Jaccard score is 0.5888 (GPT-5.4) with an exact-match rate of 37.6%, yet six of seven models remain below Jaccard 0.50; the task is far from solved. Error patterns vary systematically: double-peak cases are especially brittle, recall-heavy models gain coverage by over-predicting HKLs, and access to CIF text does not close the gap in crystallographic calculation. Alongside model rankings, the benchmark identifies the conditions under which current VLMs fail on quantitative scientific figures. All data and evaluation code will be publicly available.