UBio-MolFM: A Universal Molecular Foundation Model for Bio-Systems
作者: Lin Huang, Arthur Jiang, XiaoLi Liu, Zion Wang, Jason Zhao, Chu Wang, HaoCheng Lu, ChengXiang Huang, JiaJun Cheng, YiYue Du, Jia Zhang
分类: physics.chem-ph, cs.AI, physics.bio-ph
发布日期: 2026-02-13
💡 一句话要点
UBio-MolFM:用于生物系统的通用分子基础模型,实现量子精度与生物尺度的统一。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子模拟 基础模型 生物系统 等变Transformer 课程学习
📋 核心要点
- 现有全原子分子模拟在量子力学精度和生物系统规模之间存在根本性的权衡,限制了其应用。
- UBio-MolFM通过构建大型生物数据集、设计高效等变Transformer和采用三阶段课程学习,实现了精度和效率的平衡。
- 实验表明,UBio-MolFM在大型生物分子系统上达到了从头算级别的精度,并显著提高了推理吞吐量。
📝 摘要(中文)
本文提出了UBio-MolFM,一个专为弥合量子力学精度与生物尺度之间差距而设计的通用分子基础模型框架。UBio-MolFM引入了三个协同创新:(1) UBio-Mol26,一个大型生物特定数据集,通过多保真度的“双管齐下策略”构建,该策略结合了系统的自下而上枚举和天然蛋白质环境的自上而下采样(高达1,200个原子);(2) E2Former-V2,一个线性缩放的等变Transformer,集成了等变轴对齐稀疏化(EAAS)和长短程(LSR)建模,以捕获非局部物理,并在大型系统基准测试中实现高达~4倍的推理吞吐量;(3) 一个三阶段课程学习协议,从能量初始化过渡到能量-力一致性,并以力为中心的监督来减轻能量偏移。在微观力和宏观可观测量的严格基准测试(包括液态水结构、离子溶剂化和肽折叠)表明,UBio-MolFM在大型、分布外的生物分子系统(高达~1,500个原子)和真实的MD可观测值上实现了从头算级别的保真度。通过协调可扩展性与量子精度,UBio-MolFM为下一代计算生物学提供了一个强大且随时可用的工具。
🔬 方法详解
问题定义:全原子分子模拟是理解生命机制的重要工具,但其精度受限于计算成本,难以应用于大型生物系统。现有方法在量子力学精度和生物尺度之间存在权衡,无法同时满足高精度和高效率的需求。
核心思路:UBio-MolFM的核心思路是构建一个通用的分子基础模型,该模型能够学习生物分子的底层物理规律,并在大型生物系统上实现高精度和高效率的模拟。通过大规模数据集的训练、高效的神经网络架构设计和有效的训练策略,UBio-MolFM旨在弥合量子力学精度和生物尺度之间的差距。
技术框架:UBio-MolFM框架包含三个主要组成部分:(1) UBio-Mol26数据集,通过多保真度策略构建,包含大量生物分子数据;(2) E2Former-V2模型,一个线性缩放的等变Transformer,用于学习生物分子的能量和力;(3) 三阶段课程学习协议,从能量初始化到能量-力一致性,逐步提高模型的精度。
关键创新:UBio-MolFM的关键创新在于:(1) 提出了UBio-Mol26数据集,该数据集是专门为生物分子模拟设计的,包含了大量的生物分子数据;(2) 设计了E2Former-V2模型,该模型能够高效地学习生物分子的能量和力,并具有良好的可扩展性;(3) 提出了三阶段课程学习协议,该协议能够有效地提高模型的精度。与现有方法相比,UBio-MolFM能够更好地平衡精度和效率,并在大型生物系统上实现高精度的模拟。
关键设计:UBio-Mol26数据集采用了“双管齐下策略”构建,结合了自下而上的枚举和自上而下的采样。E2Former-V2模型集成了等变轴对齐稀疏化(EAAS)和长短程(LSR)建模,以提高效率。三阶段课程学习协议包括能量初始化、能量一致性和力一致性三个阶段,并采用力为中心的监督来减轻能量偏移。
🖼️ 关键图片
📊 实验亮点
UBio-MolFM在液态水结构、离子溶剂化和肽折叠等多个基准测试中表现出色,实现了从头算级别的精度。在大型生物分子系统(高达~1,500个原子)上,UBio-MolFM的推理吞吐量比现有方法提高了~4倍。这些结果表明,UBio-MolFM在精度和效率方面都具有显著优势。
🎯 应用场景
UBio-MolFM可广泛应用于药物发现、蛋白质工程、生物材料设计等领域。它能够帮助研究人员更深入地理解生物分子的结构和功能,加速新药的研发过程,并促进生物技术的创新。该模型有望成为下一代计算生物学的重要工具,推动生物科学的发展。
📄 摘要(原文)
All-atom molecular simulation serves as a quintessential
computational microscope'' for understanding the machinery of life, yet it remains fundamentally limited by the trade-off between quantum-mechanical (QM) accuracy and biological scale. We present UBio-MolFM, a universal foundation model framework specifically engineered to bridge this gap. UBio-MolFM introduces three synergistic innovations: (1) UBio-Mol26, a large bio-specific dataset constructed via a multi-fidelityTwo-Pronged Strategy'' that combines systematic bottom-up enumeration with top-down sampling of native protein environments (up to 1,200 atoms); (2) E2Former-V2, a linear-scaling equivariant transformer that integrates Equivariant Axis-Aligned Sparsification (EAAS) and Long-Short Range (LSR) modeling to capture non-local physics with up to ~4x higher inference throughput in our large-system benchmarks; and (3) a Three-Stage Curriculum Learning protocol that transitions from energy initialization to energy-force consistency, with force-focused supervision to mitigate energy offsets. Rigorous benchmarking across microscopic forces and macroscopic observables -- including liquid water structure, ionic solvation, and peptide folding -- demonstrates that UBio-MolFM achieves ab initio-level fidelity on large, out-of-distribution biomolecular systems (up to ~1,500 atoms) and realistic MD observables. By reconciling scalability with quantum precision, UBio-MolFM provides a robust, ready-to-use tool for the next generation of computational biology.