Enhancing Spatial Reasoning in Large Language Models for Metal-Organic Frameworks Structure Prediction

📄 arXiv: 2601.09285v1 📥 PDF

作者: Mianzhi Pan, JianFei Li, Peishuo Liu, Botian Wang, Yawen Ouyang, Yiming Rong, Hao Zhou, Jianbing Zhang

分类: cs.LG, cond-mat.mtrl-sci

发布日期: 2026-01-14


💡 一句话要点

MOF-LLM:增强大语言模型空间推理能力,用于金属有机框架结构预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金属有机框架 大语言模型 结构预测 空间推理 强化学习

📋 核心要点

  1. 准确预测金属有机框架(MOFs)的3D结构面临原子复杂性高的挑战,现有方法难以有效处理。
  2. MOF-LLM通过空间感知持续预训练、结构监督微调和匹配驱动强化学习,提升LLM在MOF结构预测中的空间推理能力。
  3. 实验结果表明,MOF-LLM在MOF结构预测任务中优于现有方法,并具有更高的采样效率。

📝 摘要(中文)

金属有机框架(MOFs)是具有广泛应用的多孔晶体材料,例如碳捕获和药物递送,但准确预测其3D结构仍然是一个重大挑战。虽然大型语言模型(LLMs)在生成晶体方面显示出希望,但由于MOFs的高原子复杂性,它们的应用受到阻碍。受到深度生成模型中块状范式的成功启发,我们通过引入MOF-LLM,即第一个专门为块级MOF结构预测而设计的LLM框架,率先将LLMs应用于该领域。为了有效地利用LLMs进行这种模块化组装任务,我们的训练范式集成了空间感知持续预训练(CPT)、结构监督微调(SFT)和匹配驱动的强化学习(RL)。通过结合显式的空间先验知识,并通过软自适应策略优化(SAPO)优化结构稳定性,我们的方法大大增强了Qwen-3 8B模型在准确MOF结构预测中的空间推理能力。综合实验表明,MOF-LLM优于最先进的基于去噪和基于LLM的方法,同时表现出卓越的采样效率。

🔬 方法详解

问题定义:论文旨在解决金属有机框架(MOFs)结构预测问题。现有方法,包括传统的分子动力学模拟和基于深度学习的方法,在处理MOFs这种原子复杂度高的材料时,面临计算成本高、预测精度不足等问题。特别是,直接使用LLM生成MOF结构,由于缺乏对空间关系的有效建模,效果不佳。

核心思路:论文的核心思路是将MOF结构视为由多个结构单元(blocks)组装而成,借鉴深度生成模型中块状范式的成功经验,利用LLM学习这些结构单元之间的空间关系,从而实现更准确的MOF结构预测。通过引入空间先验知识,并优化结构的稳定性,提升LLM的空间推理能力。

技术框架:MOF-LLM框架包含三个主要阶段:空间感知持续预训练(CPT)、结构监督微调(SFT)和匹配驱动的强化学习(RL)。CPT阶段利用大量MOF数据进行预训练,使LLM初步学习MOF结构特征。SFT阶段利用带有标签的MOF结构数据进行微调,提高LLM的预测精度。RL阶段通过优化结构稳定性,进一步提升LLM的生成质量。

关键创新:该论文的关键创新在于:1) 首次将LLM应用于块级MOF结构预测,提出了MOF-LLM框架。2) 提出了空间感知持续预训练(CPT)方法,通过引入空间先验知识,增强LLM的空间推理能力。3) 提出了匹配驱动的强化学习(RL)方法,利用软自适应策略优化(SAPO)算法,优化MOF结构的稳定性。

关键设计:在CPT阶段,使用了对比学习损失函数,鼓励LLM学习相似MOF结构之间的共性。在SFT阶段,使用了交叉熵损失函数,优化LLM的预测精度。在RL阶段,使用了基于能量的奖励函数,鼓励LLM生成更稳定的MOF结构。Qwen-3 8B模型被用作LLM的骨干网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MOF-LLM在MOF结构预测任务中显著优于现有方法。与state-of-the-art的基于去噪和基于LLM的方法相比,MOF-LLM在预测精度和采样效率方面均有提升。具体性能数据(如预测结构的准确率、稳定性等)未在摘要中明确给出,但强调了其优越性。

🎯 应用场景

该研究成果可应用于新MOF材料的发现与设计,加速碳捕获、气体分离、药物递送等领域的材料研发进程。通过AI驱动的MOF结构预测,可以降低实验成本,缩短研发周期,并有望发现具有优异性能的新型MOF材料,推动相关领域的技术进步。

📄 摘要(原文)

Metal-organic frameworks (MOFs) are porous crystalline materials with broad applications such as carbon capture and drug delivery, yet accurately predicting their 3D structures remains a significant challenge. While Large Language Models (LLMs) have shown promise in generating crystals, their application to MOFs is hindered by MOFs' high atomic complexity. Inspired by the success of block-wise paradigms in deep generative models, we pioneer the use of LLMs in this domain by introducing MOF-LLM, the first LLM framework specifically adapted for block-level MOF structure prediction. To effectively harness LLMs for this modular assembly task, our training paradigm integrates spatial-aware continual pre-training (CPT), structural supervised fine-tuning (SFT), and matching-driven reinforcement learning (RL). By incorporating explicit spatial priors and optimizing structural stability via Soft Adaptive Policy Optimization (SAPO), our approach substantially enhances the spatial reasoning capability of a Qwen-3 8B model for accurate MOF structure prediction. Comprehensive experiments demonstrate that MOF-LLM outperforms state-of-the-art denoising-based and LLM-based methods while exhibiting superior sampling efficiency.