Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

作者: Alex Morehead, Miruna Cretu, Antonia Panescu, Rishabh Anand, Maurice Weiler, Tynan Perez, Samuel Blau, Steven Farrell, Wahid Bhimji, Anubhav Jain, Hrushikesh Sahasrabuddhe, Pietro Lio, Tommi Jaakkola, Rafael Gomez-Bombarelli, Rex Ying, N. Benjamin Erichson, Michael W. Mahoney

分类: cs.LG, cs.AI

发布日期: 2026-02-28

💡 一句话要点

Zatom-1：用于3D分子和材料的多模态流动基础模型，统一生成与预测任务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D分子建模 材料建模 生成模型 预测模型 多模态学习 流动匹配 Transformer

📋 核心要点

现有AI方法通常针对单一领域（分子或材料）和单一任务（生成或预测）优化，限制了表示共享和迁移。
Zatom-1采用多模态流动匹配目标训练Transformer，联合建模离散原子类型和连续3D几何，实现生成与预测的统一。
实验表明，Zatom-1在生成和预测任务上表现优异，推理速度提升显著，且预训练期间的材料建模能提升分子性质预测精度。

📝 摘要（中文）

本文提出了Zatom-1，这是一个统一3D分子和材料生成与预测学习的基础模型。Zatom-1是一个Transformer模型，采用多模态流动匹配目标进行训练，联合建模离散的原子类型和连续的3D几何结构。这种方法支持随着模型容量增加的可扩展预训练，并实现快速稳定的采样。该模型使用联合生成预训练作为下游多任务预测（性质、能量和力）的通用初始化。实验结果表明，Zatom-1在生成和预测基准测试中与专用基线模型相匹配或优于它们，同时将生成推理时间减少了一个数量级以上。实验还证明了化学领域之间正向的预测迁移：在预训练期间对材料进行建模可以提高分子性质预测的准确性。

🔬 方法详解

问题定义：现有方法在3D化学建模中存在局限性，主要体现在无法同时处理分子和材料，以及生成和预测任务。针对特定领域和任务优化的模型，难以实现知识迁移和共享，限制了模型的泛化能力和效率。因此，需要一个通用的模型，能够同时处理分子和材料，并支持生成和预测任务。

核心思路：Zatom-1的核心思路是利用多模态流动匹配（Flow Matching）目标，将离散的原子类型和连续的3D几何结构联合建模。通过这种方式，模型可以同时学习分子和材料的表示，并支持生成和预测任务。流动匹配提供了一种有效的训练方法，可以实现快速稳定的采样，并随着模型容量的增加而获得可预测的性能提升。

技术框架：Zatom-1的整体架构是一个基于Transformer的模型。该模型首先将分子或材料的原子类型和坐标信息编码成潜在表示。然后，使用流动匹配目标训练模型，使其能够生成新的分子或材料结构。在预测任务中，使用预训练的模型作为初始化，并针对特定任务进行微调。整个流程包括预训练阶段和下游任务微调阶段。

关键创新：Zatom-1的关键创新在于其统一的建模框架，能够同时处理分子和材料，并支持生成和预测任务。与现有方法相比，Zatom-1不需要针对特定领域和任务进行优化，从而提高了模型的泛化能力和效率。此外，Zatom-1采用多模态流动匹配目标，能够有效地学习原子类型和3D几何结构的联合表示。

关键设计：Zatom-1的关键设计包括：1) 使用Transformer作为基础架构，以捕捉原子之间的长程依赖关系；2) 采用多模态流动匹配目标，联合建模离散的原子类型和连续的3D几何结构；3) 使用生成预训练作为下游任务的通用初始化，以提高模型的性能和泛化能力。具体的损失函数和网络结构细节在论文中有详细描述，但未在此处详细展开。

🖼️ 关键图片

📊 实验亮点

Zatom-1在生成和预测基准测试中与专用基线模型相匹配或优于它们，同时将生成推理时间减少了一个数量级以上。更重要的是，实验证明了化学领域之间正向的预测迁移：在预训练期间对材料进行建模可以提高分子性质预测的准确性。这些结果表明Zatom-1具有强大的泛化能力和高效的推理性能。

🎯 应用场景

Zatom-1具有广泛的应用前景，包括新材料发现、药物设计、化学反应预测等。通过生成具有特定性质的分子和材料，可以加速新材料的研发过程。此外，Zatom-1还可以用于预测分子的性质，从而辅助药物设计和化学反应预测。该模型有望推动化学、材料科学和制药等领域的发展。

📄 摘要（原文）

General-purpose 3D chemical modeling encompasses molecules and materials, requiring both generative and predictive capabilities. However, most existing AI approaches are optimized for a single domain (molecules or materials) and a single task (generation or prediction), which limits representation sharing and transfer. We introduce Zatom-1, the first foundation model that unifies generative and predictive learning of 3D molecules and materials. Zatom-1 is a Transformer trained with a multimodal flow matching objective that jointly models discrete atom types and continuous 3D geometries. This approach supports scalable pretraining with predictable gains as model capacity increases, while enabling fast and stable sampling. We use joint generative pretraining as a universal initialization for downstream multi-task prediction of properties, energies, and forces. Empirically, Zatom-1 matches or outperforms specialized baselines on both generative and predictive benchmarks, while reducing the generative inference time by more than an order of magnitude. Our experiments demonstrate positive predictive transfer between chemical domains from joint generative pretraining: modeling materials during pretraining improves molecular property prediction accuracy.

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理