AMix-2: Establishing Protein as a Native Modality in Large Language Models

📄 arXiv: 2605.30963v1 📥 PDF

作者: Keyue Qiu, Yixin Wu, Lihao Wang, Yawen Ouyang, Jixiang Yu, Zihan Zhou, Changze Lv, Dongyu Xue, Yuxuan Song, Xinbo Zhang, Hao Wang, Jiangtao Feng, Zhiqiang Gao, Lijun Wu, Xiaoqing Zheng, Ka-Chun Wong, Lei Bai, Ya-Qin Zhang, Wei-Ying Ma, Dahua Lin, Bowen Zhou, Hao Zhou

分类: q-bio.BM, cs.AI

发布日期: 2026-05-29

备注: 30 pages, 4 figures, 12 tables


💡 一句话要点

AMix-2:构建蛋白质原生模态的大语言模型,统一蛋白质理解与设计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 蛋白质语言模型 蛋白质设计 扩散模型 大语言模型 多模态学习 蛋白质理解 生物信息学 ProteinArena

📋 核心要点

  1. 现有蛋白质模型通常针对特定任务设计,缺乏通用性和跨任务迁移能力,且难以有效融合文本信息进行生物学推理。
  2. AMix-2通过统一的蛋白质-文本公式和分块扩散语言建模,实现了蛋白质理解和设计的统一,并提升了蛋白质序列生成的灵活性。
  3. ProteinArena基准测试表明,AMix-2在蛋白质理解和设计任务上优于现有LLM,并与特定任务模型具有竞争力,验证了其有效性。

📝 摘要(中文)

本文提出了AMix-2,一个蛋白质-文本基础模型,旨在将蛋白质作为大语言模型(LLM)的原生模态,从而在一个统一的模型中实现蛋白质理解和序列设计。AMix-2基于两个关键思想:(1) 统一的蛋白质-文本公式,将自然语言和蛋白质序列嵌入到共享的token空间中,使单个模型能够执行生物推理和条件设计,而不是依赖于针对特定下游任务的模型;(2) 一种分块扩散语言建模骨干网络,它结合了跨块的因果生成与块内的双向上下文和迭代细化。这种方案比严格的从左到右的分解更符合蛋白质的内在性质。为了在实际的泛化设置下评估蛋白质基础模型,我们进一步引入了ProteinArena,这是一个全面的基准,包含跨各种理解和设计任务的时间感知和同源性感知协议,以及涵盖经典生物信息学工具、蛋白质专用模型和LLM的基线。在ProteinArena上,AMix-2优于前沿LLM,并表现出与特定任务蛋白质模型相当的性能。受控实验进一步表明,基于扩散的范式通常优于其自回归范式,突出了灵活生成顺序对于蛋白质序列的优势。我们发布了AMix-2和ProteinArena,以促进蛋白质基础模型的开放研究。

🔬 方法详解

问题定义:现有蛋白质模型通常是任务特定的,无法在一个统一的框架下处理蛋白质理解和设计。此外,它们在利用自然语言信息进行生物学推理方面存在局限性。因此,需要一个能够同时理解蛋白质序列和自然语言,并能进行条件蛋白质设计的通用模型。

核心思路:AMix-2的核心思路是将蛋白质序列和自然语言嵌入到共享的token空间中,从而使单个模型能够执行生物推理和条件设计。此外,采用分块扩散语言建模,允许模型在块内进行双向上下文学习和迭代细化,从而更好地捕捉蛋白质的内在性质。

技术框架:AMix-2的整体框架包括一个统一的蛋白质-文本嵌入模块和一个分块扩散语言建模骨干网络。嵌入模块负责将蛋白质序列和自然语言转换为共享的token表示。分块扩散语言建模骨干网络则负责学习蛋白质序列的生成和理解。该网络将序列分成若干块,并在块内使用双向上下文进行迭代细化,同时跨块进行因果生成。

关键创新:AMix-2的关键创新在于其统一的蛋白质-文本公式和分块扩散语言建模。统一的公式使得模型能够同时处理蛋白质序列和自然语言,从而实现生物推理和条件设计。分块扩散语言建模则允许模型在块内进行双向上下文学习和迭代细化,从而更好地捕捉蛋白质的内在性质,并克服了传统自回归模型的局限性。

关键设计:AMix-2使用Transformer架构作为其骨干网络。在分块扩散语言建模中,每个块都包含一个双向Transformer层和一个因果Transformer层。双向Transformer层负责学习块内的上下文信息,而因果Transformer层负责跨块的生成。损失函数包括语言建模损失和扩散损失,用于训练模型生成高质量的蛋白质序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AMix-2在ProteinArena基准测试中表现出色,优于现有的大语言模型,并在多个蛋白质理解和设计任务上与特定任务模型具有竞争力。例如,在蛋白质序列设计任务中,AMix-2能够生成具有更高活性和稳定性的蛋白质序列。受控实验表明,基于扩散的范式优于自回归范式,验证了灵活生成顺序对于蛋白质序列的重要性。

🎯 应用场景

AMix-2在药物发现、蛋白质工程和合成生物学等领域具有广泛的应用前景。它可以用于预测蛋白质结构和功能,设计具有特定功能的蛋白质,以及优化蛋白质的表达和稳定性。此外,AMix-2还可以用于开发新的生物传感器和生物材料。

📄 摘要(原文)

We present AMix-2, a protein-text foundation model that establishes protein as a native modality in large language models (LLMs), unifying protein understanding and sequence design within a single foundation model. AMix-2 is built upon two key ideas: (1) a unified protein-text formulation that embeds natural language and protein sequence in a shared token space, enabling one model to perform biological reasoning and conditional design instead of separate downstream task-specialized models; and (2) a block-wise diffusion language modeling backbone that combines causal generation across blocks with bidirectional context and iterative refinement within blocks. This scheme better matches the intrinsic nature of proteins than a strict left-to-right factorization. To evaluate protein foundation models under realistic generalization settings, we further introduce ProteinArena, a comprehensive benchmark with time-aware and homology-aware protocols across various understanding and design tasks, and with baselines covering classical bioinformatics tools, protein-specialized models and LLMs. On ProteinArena, AMix-2 outperforms frontier LLMs and demonstrates competitive performance to task-specific protein models. Controlled experiments further show that the diffusion-based paradigm generally surpasses its autoregressive counterpart, highlighting the advantage of flexible generation order for protein sequences. We release both AMix-2 and ProteinArena to facilitate open research in protein foundation models.