MatMMFuse: Multi-Modal Fusion model for Material Property Prediction
作者: Abhiroop Bhattacharya, Sylvain G. Cloutier
分类: cs.LG, cs.CE
发布日期: 2025-04-30
备注: Presented at AI for Accelerated Materials Design(AI4Mat), ICLR 2025 (https://openreview.net/forum?id=pN4Zg6HBlq#discussion)
💡 一句话要点
MatMMFuse:融合晶体图和文本信息,提升材料属性预测精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 材料属性预测 多模态融合 晶体图卷积网络 预训练语言模型 注意力机制 零样本学习 材料发现
📋 核心要点
- 现有材料属性预测方法通常依赖单一模态信息,未能充分利用不同数据表示的优势,例如文本信息蕴含的全局知识。
- MatMMFuse模型融合了晶体结构图的局部特征和预训练语言模型的全局信息,通过多头注意力机制实现结构和文本信息的有效结合。
- 实验表明,MatMMFuse在多个材料属性预测任务上优于单独的CGCNN和SciBERT模型,并在零样本学习中表现出更强的泛化能力。
📝 摘要(中文)
本文提出了一种名为材料多模态融合(MatMMFuse)的模型,用于材料属性预测。该模型结合了晶体图卷积网络(CGCNN)的结构感知嵌入和SciBERT模型的文本嵌入,利用多头注意力机制进行融合。模型在材料项目数据集上进行端到端训练。实验结果表明,与单独使用CGCNN和SciBERT模型相比,MatMMFuse在预测形成能、带隙、高于hull的能量和费米能四个关键属性方面均有提升。尤其是在预测原子形成能方面,MatMMFuse相比CGCNN提升了40%,相比SciBERT提升了68%。此外,该模型在钙钛矿、硫族化物和Jarvis数据集等小型数据集上表现出良好的零样本性能,优于单独的CGCNN和SciBERT模型。这使得研究人员能够将该模型部署到训练数据收集成本高昂的专业工业应用中。
🔬 方法详解
问题定义:材料属性预测是材料科学中的一个重要问题。现有的方法,例如单独使用晶体图卷积网络(CGCNN)或预训练语言模型(如SciBERT),存在局限性。CGCNN擅长捕捉局部结构信息,但缺乏对全局信息的理解;而SciBERT虽然包含丰富的知识,但对晶体结构的感知能力不足。因此,如何有效地融合结构信息和文本信息,提升材料属性预测的准确性,是一个亟待解决的问题。
核心思路:MatMMFuse的核心思路是将晶体结构的局部特征和文本信息的全局特征相结合,从而实现更全面的材料表征。通过融合CGCNN提取的结构嵌入和SciBERT提取的文本嵌入,模型能够同时学习材料的局部结构信息和全局知识,从而提高预测精度。这种多模态融合的方法能够克服单一模态模型的局限性,充分利用不同数据表示的优势。
技术框架:MatMMFuse的整体框架包括以下几个主要模块:1) 晶体图卷积网络(CGCNN):用于提取晶体结构的结构嵌入;2) SciBERT模型:用于提取材料描述的文本嵌入;3) 多头注意力机制:用于融合结构嵌入和文本嵌入;4) 预测层:用于预测材料的属性。首先,将晶体结构输入CGCNN,得到结构嵌入;同时,将材料描述输入SciBERT,得到文本嵌入。然后,使用多头注意力机制将结构嵌入和文本嵌入进行融合,得到融合后的嵌入表示。最后,将融合后的嵌入表示输入预测层,得到材料属性的预测结果。
关键创新:MatMMFuse的关键创新在于使用多头注意力机制融合晶体结构图的局部特征和文本信息的全局特征。与简单的拼接或加权平均等融合方法相比,多头注意力机制能够更有效地捕捉不同模态之间的关联性,从而实现更精确的材料表征。此外,该模型采用端到端的训练方式,能够充分利用数据中的信息,提高模型的性能。
关键设计:在MatMMFuse中,CGCNN的网络结构采用标准的图卷积层,用于提取晶体结构的局部特征。SciBERT模型采用预训练的SciBERT模型,并在材料数据集上进行微调,以适应材料属性预测的任务。多头注意力机制采用8个注意力头,用于捕捉不同模态之间的关联性。损失函数采用均方误差(MSE),用于衡量预测值和真实值之间的差异。模型使用Adam优化器进行训练,学习率为0.001,batch size为32。
🖼️ 关键图片
📊 实验亮点
MatMMFuse在材料项目数据集上取得了显著的性能提升。在预测原子形成能方面,MatMMFuse相比CGCNN提升了40%,相比SciBERT提升了68%。此外,该模型在钙钛矿、硫族化物和Jarvis数据集等小型数据集上表现出良好的零样本性能,优于单独的CGCNN和SciBERT模型。这些结果表明,MatMMFuse能够有效地融合结构信息和文本信息,提高材料属性预测的准确性和泛化能力。
🎯 应用场景
MatMMFuse在材料发现和设计领域具有广泛的应用前景。它可以用于高通量筛选具有特定属性的新材料,加速新材料的研发过程。例如,可以利用该模型预测电池材料的能量密度、稳定性等关键属性,从而筛选出性能优异的电池材料。此外,该模型还可以应用于催化剂设计、半导体材料设计等领域,为材料科学研究提供有力的工具。
📄 摘要(原文)
The recent progress of using graph based encoding of crystal structures for high throughput material property prediction has been quite successful. However, using a single modality model prevents us from exploiting the advantages of an enhanced features space by combining different representations. Specifically, pre-trained Large language models(LLMs) can encode a large amount of knowledge which is beneficial for training of models. Moreover, the graph encoder is able to learn the local features while the text encoder is able to learn global information such as space group and crystal symmetry. In this work, we propose Material Multi-Modal Fusion(MatMMFuse), a fusion based model which uses a multi-head attention mechanism for the combination of structure aware embedding from the Crystal Graph Convolution Network (CGCNN) and text embeddings from the SciBERT model. We train our model in an end-to-end framework using data from the Materials Project Dataset. We show that our proposed model shows an improvement compared to the vanilla CGCNN and SciBERT model for all four key properties: formation energy, band gap, energy above hull and fermi energy. Specifically, we observe an improvement of 40% compared to the vanilla CGCNN model and 68% compared to the SciBERT model for predicting the formation energy per atom. Importantly, we demonstrate the zero shot performance of the trained model on small curated datasets of Perovskites, Chalcogenides and the Jarvis Dataset. The results show that the proposed model exhibits better zero shot performance than the individual plain vanilla CGCNN and SciBERT model. This enables researchers to deploy the model for specialized industrial applications where collection of training data is prohibitively expensive.