AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model

📄 arXiv: 2507.08920v3 📥 PDF

作者: Changze Lv, Jiang Zhou, Siyu Long, Lihao Wang, Jiangtao Feng, Dongyu Xue, Yu Pei, Hao Wang, Zherui Zhang, Yuchen Cai, Zhiqiang Gao, Ziyuan Ma, Jiakai Hu, Chaochen Gao, Jingjing Gong, Yuxuan Song, Shuyi Zhang, Xiaoqing Zheng, Deyi Xiong, Lei Bai, Wanli Ouyang, Ya-Qin Zhang, Wei-Ying Ma, Bowen Zhou, Hao Zhou

分类: q-bio.BM, cs.AI

发布日期: 2025-07-11 (更新: 2025-08-08)


💡 一句话要点

AMix-1:一种可测试时扩展的蛋白质基础模型,提升蛋白质工程能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 蛋白质设计 基础模型 贝叶斯流网络 多序列比对 上下文学习 测试时缩放 蛋白质工程

📋 核心要点

  1. 现有蛋白质设计方法在泛化性和效率上存在不足,难以充分利用蛋白质序列中的进化信息。
  2. AMix-1通过贝叶斯流网络和MSA上下文学习,学习蛋白质序列的深层进化信号,实现高效的蛋白质设计。
  3. 实验表明,AMix-1成功设计出活性提升50倍的AmeR变体,并可通过测试时缩放进一步提升性能。

📝 摘要(中文)

我们介绍了AMix-1,一个强大的蛋白质基础模型,它构建于贝叶斯流网络之上,并采用系统的训练方法,包括预训练缩放定律、涌现能力分析、上下文学习机制和测试时缩放算法。为了保证稳健的可扩展性,我们建立了预测性的缩放定律,并通过损失视角揭示了结构理解的逐步涌现,最终得到了一个强大的17亿参数模型。在此基础上,我们设计了一种基于多序列比对(MSA)的上下文学习策略,将蛋白质设计统一到一个通用框架中,其中AMix-1识别MSA中的深层进化信号,并持续生成结构和功能连贯的蛋白质。该框架成功设计了一种显著改进的AmeR变体,其活性比野生型提高了高达50倍。为了突破蛋白质工程的界限,我们进一步利用进化测试时缩放算法增强了AMix-1,用于计算机定向进化,随着验证预算的增加,该算法提供了可观且可扩展的性能提升,为下一代实验室在环蛋白质设计奠定了基础。

🔬 方法详解

问题定义:论文旨在解决蛋白质设计领域中,现有方法难以有效利用蛋白质序列中的进化信息,导致设计出的蛋白质在结构和功能上存在缺陷,且泛化能力不足的问题。现有方法通常依赖于特定任务的训练数据,缺乏通用性和可扩展性。

核心思路:论文的核心思路是构建一个基于贝叶斯流网络的蛋白质基础模型AMix-1,并通过多序列比对(MSA)的上下文学习策略,使模型能够学习蛋白质序列中的深层进化信号。通过这种方式,AMix-1能够生成结构和功能连贯的蛋白质,并实现高效的蛋白质设计。

技术框架:AMix-1的整体框架包括以下几个主要模块:1) 基于贝叶斯流网络的蛋白质基础模型,用于学习蛋白质序列的潜在表示;2) 多序列比对(MSA)模块,用于提取蛋白质序列的进化信息;3) 上下文学习模块,用于将MSA信息融入到蛋白质设计过程中;4) 测试时缩放算法,用于在验证预算增加时,进一步提升模型性能。

关键创新:论文的关键创新在于以下几点:1) 提出了基于贝叶斯流网络的蛋白质基础模型AMix-1,能够有效学习蛋白质序列的潜在表示;2) 设计了一种基于MSA的上下文学习策略,使模型能够利用蛋白质序列中的深层进化信号;3) 提出了进化测试时缩放算法,能够在验证预算增加时,进一步提升模型性能。与现有方法相比,AMix-1能够更有效地利用蛋白质序列中的进化信息,从而生成结构和功能更优的蛋白质。

关键设计:AMix-1的关键设计包括:1) 贝叶斯流网络的具体结构和训练方式,包括损失函数的设计和参数的设置;2) MSA信息的提取和编码方式,如何将MSA信息有效地融入到上下文学习过程中;3) 测试时缩放算法的具体实现,包括如何根据验证预算调整模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AMix-1在蛋白质设计任务中表现出色,成功设计出活性提升50倍的AmeR变体,显著优于野生型。此外,通过进化测试时缩放算法,AMix-1能够随着验证预算的增加,持续提升性能,展现出良好的可扩展性。这些实验结果表明,AMix-1是一种强大的蛋白质基础模型,具有巨大的应用潜力。

🎯 应用场景

AMix-1具有广泛的应用前景,可用于蛋白质工程、药物发现、生物材料设计等领域。通过AMix-1,研究人员可以更高效地设计具有特定功能和结构的蛋白质,从而加速新药的开发和生物材料的创新。该研究为下一代实验室在环蛋白质设计奠定了基础,有望推动蛋白质工程领域的快速发展。

📄 摘要(原文)

We introduce AMix-1, a powerful protein foundation model built on Bayesian Flow Networks and empowered by a systematic training methodology, encompassing pretraining scaling laws, emergent capability analysis, in-context learning mechanism, and test-time scaling algorithm. To guarantee robust scalability, we establish a predictive scaling law and reveal the progressive emergence of structural understanding via loss perspective, culminating in a strong 1.7-billion model. Building on this foundation, we devise a multiple sequence alignment (MSA)-based in-context learning strategy to unify protein design into a general framework, where AMix-1 recognizes deep evolutionary signals among MSAs and consistently generates structurally and functionally coherent proteins. This framework enables the successful design of a dramatically improved AmeR variant with an up to $50\times$ activity increase over its wild type. Pushing the boundaries of protein engineering, we further empower AMix-1 with an evolutionary test-time scaling algorithm for in silico directed evolution that delivers substantial, scalable performance gains as verification budgets are intensified, laying the groundwork for next-generation lab-in-the-loop protein design.