LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction

📄 arXiv: 2411.00177v3 📥 PDF

作者: Andre Niyongabo Rubungo, Kangming Li, Jason Hattrick-Simpers, Adji Bousso Dieng

分类: cond-mat.mtrl-sci, cs.CL

发布日期: 2024-10-31 (更新: 2024-11-30)

备注: Accepted at NeurIPS 2024-AI4Mat Workshop. The Benchmark and code can be found at https://github.com/vertaix/LLM4Mat-Bench


💡 一句话要点

LLM4Mat-Bench:用于材料属性预测的大语言模型基准测试

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 材料属性预测 大语言模型 基准测试 晶体结构 材料科学

📋 核心要点

  1. 现有基于LLM的材料属性预测缺乏统一的基准测试和标准化评估,阻碍了领域发展。
  2. LLM4Mat-Bench通过构建大规模晶体材料数据集,提供多种输入模态,为LLM在材料科学中的应用提供评估平台。
  3. 实验结果表明,通用LLM在材料科学领域面临挑战,需要针对特定任务进行模型训练和指令调优。

📝 摘要(中文)

本文提出了LLM4Mat-Bench,这是迄今为止最大的用于评估大语言模型(LLM)在预测晶体材料属性方面的性能的基准测试。LLM4Mat-Bench总共包含约190万个晶体结构,这些结构来自10个公开可用的材料数据源,并涵盖45种不同的属性。LLM4Mat-Bench具有不同的输入模态:晶体成分、CIF文件和晶体文本描述,每种模态分别包含470万、6.155亿和31亿个token。本文使用LLM4Mat-Bench对不同大小的模型进行微调,包括LLM-Prop和MatBERT,并提供零样本和少样本提示来评估类LLM-chat模型的属性预测能力,包括Llama、Gemma和Mistral。结果突出了通用LLM在材料科学中的挑战,以及在材料属性预测中对特定任务的预测模型和特定任务指令调优的LLM的需求。

🔬 方法详解

问题定义:现有的大语言模型在材料科学领域的应用日益增多,但是缺乏针对材料属性预测的统一基准测试和标准化评估。这使得研究人员难以客观地比较不同模型的性能,也阻碍了该领域的进一步发展。现有方法缺乏大规模、多样化的数据集,以及针对不同输入模态的评估标准。

核心思路:本文的核心思路是构建一个大规模、多样化的材料属性预测基准测试数据集LLM4Mat-Bench,并基于该数据集评估现有大语言模型在材料属性预测任务上的性能。通过提供不同的输入模态(晶体成分、CIF文件、晶体文本描述),可以更全面地评估模型的理解和推理能力。

技术框架:LLM4Mat-Bench数据集包含来自10个公开可用的材料数据源的约190万个晶体结构,涵盖45种不同的属性。数据集提供三种输入模态:晶体成分、CIF文件和晶体文本描述。研究人员使用该数据集对不同大小的模型(LLM-Prop和MatBERT)进行微调,并使用零样本和少样本提示评估类LLM-chat模型(Llama、Gemma和Mistral)的属性预测能力。

关键创新:LLM4Mat-Bench是迄今为止最大的用于评估大语言模型在预测晶体材料属性方面的性能的基准测试。它提供了多种输入模态,并涵盖了广泛的材料属性。该基准测试的发布将促进材料科学领域中大语言模型的研究和应用。

关键设计:数据集的构建过程中,作者从多个公开数据源收集数据,并进行了清洗和整合。针对不同的输入模态,作者设计了相应的预处理方法。在模型评估方面,作者采用了微调、零样本和少样本提示等多种策略,以全面评估模型的性能。

📊 实验亮点

LLM4Mat-Bench包含约190万个晶体结构和45种不同的属性,是目前最大的材料属性预测基准测试。实验结果表明,通用LLM在材料科学领域面临挑战,需要针对特定任务进行模型训练和指令调优。该研究为未来材料科学领域的大语言模型研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于新材料发现、材料性能预测和材料设计等领域。通过利用LLM4Mat-Bench,研究人员可以更有效地开发和评估用于材料科学的大语言模型,从而加速新材料的研发进程,并降低研发成本。该基准测试的发布将促进材料科学与人工智能的交叉融合。

📄 摘要(原文)

Large language models (LLMs) are increasingly being used in materials science. However, little attention has been given to benchmarking and standardized evaluation for LLM-based materials property prediction, which hinders progress. We present LLM4Mat-Bench, the largest benchmark to date for evaluating the performance of LLMs in predicting the properties of crystalline materials. LLM4Mat-Bench contains about 1.9M crystal structures in total, collected from 10 publicly available materials data sources, and 45 distinct properties. LLM4Mat-Bench features different input modalities: crystal composition, CIF, and crystal text description, with 4.7M, 615.5M, and 3.1B tokens in total for each modality, respectively. We use LLM4Mat-Bench to fine-tune models with different sizes, including LLM-Prop and MatBERT, and provide zero-shot and few-shot prompts to evaluate the property prediction capabilities of LLM-chat-like models, including Llama, Gemma, and Mistral. The results highlight the challenges of general-purpose LLMs in materials science and the need for task-specific predictive models and task-specific instruction-tuned LLMs in materials property prediction.