Enhancing Spatial Reasoning in Large Language Models for Metal-Organic Frameworks Structure Prediction

作者: Mianzhi Pan, JianFei Li, Peishuo Liu, Botian Wang, Yawen Ouyang, Yiming Rong, Hao Zhou, Jianbing Zhang

分类: cs.LG, cond-mat.mtrl-sci

发布日期: 2026-01-14

💡 一句话要点

MOF-LLM：增强大语言模型空间推理能力，用于金属有机框架结构预测

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 金属有机框架 大语言模型 结构预测 空间推理 强化学习

📋 核心要点

准确预测金属有机框架（MOFs）的3D结构面临原子复杂性高的挑战，现有方法难以有效处理。
MOF-LLM通过空间感知持续预训练、结构监督微调和匹配驱动强化学习，提升LLM在MOF结构预测中的空间推理能力。
实验结果表明，MOF-LLM在MOF结构预测任务中优于现有方法，并具有更高的采样效率。

📝 摘要（中文）

金属有机框架(MOFs)是具有广泛应用的多孔晶体材料，例如碳捕获和药物递送，但准确预测其3D结构仍然是一个重大挑战。虽然大型语言模型(LLMs)在生成晶体方面显示出希望，但由于MOFs的高原子复杂性，它们的应用受到阻碍。受到深度生成模型中块状范式的成功启发，我们通过引入MOF-LLM，即第一个专门为块级MOF结构预测而设计的LLM框架，率先将LLMs应用于该领域。为了有效地利用LLMs进行这种模块化组装任务，我们的训练范式集成了空间感知持续预训练(CPT)、结构监督微调(SFT)和匹配驱动的强化学习(RL)。通过结合显式的空间先验知识，并通过软自适应策略优化(SAPO)优化结构稳定性，我们的方法大大增强了Qwen-3 8B模型在准确MOF结构预测中的空间推理能力。综合实验表明，MOF-LLM优于最先进的基于去噪和基于LLM的方法，同时表现出卓越的采样效率。

🔬 方法详解

问题定义：论文旨在解决金属有机框架（MOFs）结构预测问题。现有方法，包括传统的分子动力学模拟和基于深度学习的方法，在处理MOFs这种原子复杂度高的材料时，面临计算成本高、预测精度不足等问题。特别是，直接使用LLM生成MOF结构，由于缺乏对空间关系的有效建模，效果不佳。

核心思路：论文的核心思路是将MOF结构视为由多个结构单元（blocks）组装而成，借鉴深度生成模型中块状范式的成功经验，利用LLM学习这些结构单元之间的空间关系，从而实现更准确的MOF结构预测。通过引入空间先验知识，并优化结构的稳定性，提升LLM的空间推理能力。

技术框架：MOF-LLM框架包含三个主要阶段：空间感知持续预训练（CPT）、结构监督微调（SFT）和匹配驱动的强化学习（RL）。CPT阶段利用大量MOF数据进行预训练，使LLM初步学习MOF结构特征。SFT阶段利用带有标签的MOF结构数据进行微调，提高LLM的预测精度。RL阶段通过优化结构稳定性，进一步提升LLM的生成质量。

关键创新：该论文的关键创新在于：1) 首次将LLM应用于块级MOF结构预测，提出了MOF-LLM框架。2) 提出了空间感知持续预训练（CPT）方法，通过引入空间先验知识，增强LLM的空间推理能力。3) 提出了匹配驱动的强化学习（RL）方法，利用软自适应策略优化（SAPO）算法，优化MOF结构的稳定性。

关键设计：在CPT阶段，使用了对比学习损失函数，鼓励LLM学习相似MOF结构之间的共性。在SFT阶段，使用了交叉熵损失函数，优化LLM的预测精度。在RL阶段，使用了基于能量的奖励函数，鼓励LLM生成更稳定的MOF结构。Qwen-3 8B模型被用作LLM的骨干网络。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MOF-LLM在MOF结构预测任务中显著优于现有方法。与state-of-the-art的基于去噪和基于LLM的方法相比，MOF-LLM在预测精度和采样效率方面均有提升。具体性能数据（如预测结构的准确率、稳定性等）未在摘要中明确给出，但强调了其优越性。

🎯 应用场景

该研究成果可应用于新MOF材料的发现与设计，加速碳捕获、气体分离、药物递送等领域的材料研发进程。通过AI驱动的MOF结构预测，可以降低实验成本，缩短研发周期，并有望发现具有优异性能的新型MOF材料，推动相关领域的技术进步。

📄 摘要（原文）

Metal-organic frameworks (MOFs) are porous crystalline materials with broad applications such as carbon capture and drug delivery, yet accurately predicting their 3D structures remains a significant challenge. While Large Language Models (LLMs) have shown promise in generating crystals, their application to MOFs is hindered by MOFs' high atomic complexity. Inspired by the success of block-wise paradigms in deep generative models, we pioneer the use of LLMs in this domain by introducing MOF-LLM, the first LLM framework specifically adapted for block-level MOF structure prediction. To effectively harness LLMs for this modular assembly task, our training paradigm integrates spatial-aware continual pre-training (CPT), structural supervised fine-tuning (SFT), and matching-driven reinforcement learning (RL). By incorporating explicit spatial priors and optimizing structural stability via Soft Adaptive Policy Optimization (SAPO), our approach substantially enhances the spatial reasoning capability of a Qwen-3 8B model for accurate MOF structure prediction. Comprehensive experiments demonstrate that MOF-LLM outperforms state-of-the-art denoising-based and LLM-based methods while exhibiting superior sampling efficiency.

Enhancing Spatial Reasoning in Large Language Models for Metal-Organic Frameworks Structure Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理