Advancing biomolecular understanding and design following human instructions

📄 arXiv: 2410.07919v2 📥 PDF

作者: Xiang Zhuang, Keyan Ding, Tianwen Lyu, Yinuo Jiang, Xiaotong Li, Zhuoyi Xiang, Zeyuan Wang, Ming Qin, Kehua Feng, Jike Wang, Qiang Zhang, Huajun Chen

分类: cs.CL, q-bio.BM

发布日期: 2024-10-10 (更新: 2025-07-25)

期刊: Nature Machine Intelligence volume 7, pages1154-1167 (2025)

DOI: 10.1038/s42256-025-01064-0

🔗 代码/项目: GITHUB


💡 一句话要点

InstructBioMol:通过自然语言指令驱动的生物分子理解与设计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物分子设计 大型语言模型 自然语言处理 多模态学习 药物发现 酶工程 蛋白质设计

📋 核心要点

  1. 现有AI方法在生物分子设计中,难以将研究人员的自然语言意图直接转化为可执行的生物分子设计方案。
  2. InstructBioMol通过构建大型语言模型,实现自然语言、分子和蛋白质之间的任意到任意对齐,从而弥合这一差距。
  3. 实验表明,InstructBioMol在药物分子生成和酶设计方面均有显著提升,验证了其在生物分子研究中的潜力。

📝 摘要(中文)

理解和设计生物分子,如蛋白质和小分子,对于推进药物发现、合成生物学和酶工程至关重要。人工智能的最新突破彻底改变了生物分子研究,在生物分子预测和设计方面取得了显著的准确性。然而,人工智能的计算能力与研究人员的直观目标之间仍然存在关键差距,特别是在使用自然语言将复杂任务与人类意图联系起来方面。大型语言模型已显示出理解人类意图的潜力,但由于专业知识要求、多模态数据集成以及自然语言和生物分子之间的语义对齐等挑战,它们在生物分子研究中的应用仍处于起步阶段。为了解决这些限制,我们提出了InstructBioMol,这是一种大型语言模型,旨在通过自然语言、分子和蛋白质的全面任意到任意对齐来桥接自然语言和生物分子。该模型可以集成多模态生物分子作为输入,并使研究人员能够用自然语言表达设计目标,从而提供满足精确生物学需求的生物分子输出。实验结果表明,InstructBioMol可以理解和设计遵循人类指令的生物分子。特别是,它可以生成结合亲和力提高10%的药物分子,并设计出酶-底物对预测得分达到70.4的酶。这突显了其改变现实世界生物分子研究的潜力。代码可在https://github.com/HICAI-ZJU/InstructBioMol获得。

🔬 方法详解

问题定义:论文旨在解决生物分子设计领域中,人工智能模型难以直接理解和执行人类自然语言指令的问题。现有方法通常需要复杂的中间步骤或专业知识,无法实现用户意图的直接转化,限制了生物分子设计的效率和可控性。

核心思路:InstructBioMol的核心思路是构建一个能够理解和生成生物分子信息的大型语言模型,通过自然语言指令直接驱动生物分子的设计过程。该模型通过学习自然语言、分子和蛋白质之间的对应关系,实现任意模态之间的转换,从而将人类的意图转化为具体的生物分子结构。

技术框架:InstructBioMol的技术框架主要包括以下几个模块:1) 多模态数据编码器:用于将自然语言、分子和蛋白质等不同模态的数据编码为统一的向量表示。2) 大型语言模型:作为核心的推理引擎,负责理解自然语言指令,并生成相应的生物分子信息。3) 生物分子解码器:用于将语言模型的输出解码为具体的分子结构或蛋白质序列。整个流程是,用户输入自然语言指令,经过多模态编码,输入到大型语言模型中进行推理,最后通过生物分子解码器生成目标生物分子。

关键创新:InstructBioMol的关键创新在于其实现了自然语言与生物分子之间的“任意到任意”的对齐。这意味着模型不仅可以根据自然语言生成分子,还可以根据分子生成自然语言描述,或者在不同类型的生物分子之间进行转换。这种灵活的对齐方式使得模型能够更好地理解和执行人类的意图,从而实现更高效和可控的生物分子设计。

关键设计:InstructBioMol的关键设计包括:1) 采用了Transformer架构的大型语言模型,以捕捉自然语言和生物分子之间的复杂关系。2) 使用了对比学习等技术,以增强模型对不同模态数据之间语义一致性的理解。3) 设计了特定的损失函数,以优化模型在生物分子设计任务中的性能。具体的参数设置和网络结构细节在论文中有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InstructBioMol在实验中表现出色,能够生成结合亲和力提高10%的药物分子,显著优于现有方法。此外,在酶设计任务中,InstructBioMol实现了70.4的酶-底物对预测得分,表明其在理解和设计生物分子方面具有强大的能力。这些结果充分验证了InstructBioMol在生物分子研究中的潜力。

🎯 应用场景

InstructBioMol在药物发现、合成生物学和酶工程等领域具有广泛的应用前景。它可以帮助研究人员快速生成具有特定功能的药物分子,设计高效的生物酶,以及优化生物合成途径。该研究有望加速生物分子设计过程,降低研发成本,并推动相关领域的创新发展。

📄 摘要(原文)

Understanding and designing biomolecules, such as proteins and small molecules, is central to advancing drug discovery, synthetic biology and enzyme engineering. Recent breakthroughs in artificial intelligence have revolutionized biomolecular research, achieving remarkable accuracy in biomolecular prediction and design. However, a critical gap remains between artificial intelligence's computational capabilities and researchers' intuitive goals, particularly in using natural language to bridge complex tasks with human intentions. Large language models have shown potential to interpret human intentions, yet their application to biomolecular research remains nascent due to challenges including specialized knowledge requirements, multimodal data integration, and semantic alignment between natural language and biomolecules. To address these limitations, we present InstructBioMol, a large language model designed to bridge natural language and biomolecules through a comprehensive any-to-any alignment of natural language, molecules and proteins. This model can integrate multimodal biomolecules as the input, and enable researchers to articulate design goals in natural language, providing biomolecular outputs that meet precise biological needs. Experimental results demonstrate that InstructBioMol can understand and design biomolecules following human instructions. In particular, it can generate drug molecules with a 10% improvement in binding affinity and design enzymes that achieve an enzyme-substrate pair prediction score of 70.4. This highlights its potential to transform real-world biomolecular research. The code is available at https://github.com/HICAI-ZJU/InstructBioMol.