Understanding protein function with a multimodal retrieval-augmented foundation model
作者: Timothy Fei Truong Jr, Tristan Bepler
分类: bio.QM, cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出PoET-2:一种多模态检索增强蛋白质基础模型,用于提升蛋白质功能理解。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 蛋白质语言模型 多模态学习 检索增强 变异效应预测 蛋白质功能预测
📋 核心要点
- 现有蛋白质语言模型在突变理解和蛋白质功能预测方面存在局限性,扩展模型规模并不能有效提升表征质量。
- PoET-2通过结合家族特异性进化约束的上下文学习和可选的结构条件,学习蛋白质序列的生成分布,实现更有效的蛋白质功能理解。
- PoET-2在零样本变异效应预测和监督学习的序列-功能关系学习方面均取得了优异的性能,尤其是在小数据集上。
📝 摘要(中文)
蛋白质语言模型(PLMs)学习自然蛋白质序列的概率分布,从而涌现蛋白质理解和设计能力。扩展这些模型的规模可以改进结构预测,但似乎并不能提高突变理解和蛋白质功能预测的表征质量。我们介绍了PoET-2,一种多模态、检索增强的蛋白质基础模型,它结合了家族特异性进化约束的上下文学习和可选的结构条件,以学习蛋白质序列的生成分布。PoET-2使用一个对序列上下文排序具有等变性的分层Transformer编码器,以及一个具有因果和掩码语言建模目标的双解码器架构,使其能够在完全生成和双向表征学习模式下运行。PoET-2在零样本变异效应预测方面取得了最先进的性能,尤其擅长对具有多个突变和具有挑战性的插入缺失突变进行评分。在监督设置中,PoET-2嵌入优于先前的序列-功能关系学习方法,尤其是在小数据集上。这项工作强调了将检索增强与多模态、以家族为中心的建模相结合,以推进蛋白质基础模型的好处。
🔬 方法详解
问题定义:现有蛋白质语言模型在理解突变效应和预测蛋白质功能方面存在瓶颈。简单地扩大模型规模并不能有效提升这些能力,尤其是在处理复杂突变(如多重突变和插入缺失突变)时,模型性能提升有限。此外,现有方法在小数据集上的表现往往不尽如人意。
核心思路:PoET-2的核心思路是结合检索增强和多模态建模,利用家族特异性进化信息和可选的结构信息,来提升蛋白质序列的表征质量和生成能力。通过检索与目标蛋白质家族相关的进化信息,模型可以更好地理解序列的上下文,从而更准确地预测突变效应和学习序列-功能关系。
技术框架:PoET-2采用分层Transformer编码器-解码器架构。编码器部分使用分层Transformer,对序列上下文排序具有等变性,能够更好地捕捉蛋白质序列的层次结构信息。解码器部分采用双解码器架构,同时使用因果语言建模和掩码语言建模目标,使得模型既可以进行完全生成,也可以进行双向表征学习。检索增强模块用于检索与目标蛋白质家族相关的进化信息,并将其融入到编码器的输入中。
关键创新:PoET-2的关键创新在于将检索增强与多模态建模相结合。通过检索家族特异性进化信息,模型可以更好地理解蛋白质序列的上下文,从而更准确地预测突变效应和学习序列-功能关系。此外,双解码器架构使得模型能够同时进行生成和表征学习,提高了模型的灵活性和泛化能力。
关键设计:PoET-2使用分层Transformer编码器,以捕捉蛋白质序列的层次结构信息。双解码器架构包含因果语言建模和掩码语言建模两个目标,损失函数是两者的加权和。检索增强模块使用预训练的蛋白质语言模型进行序列相似性搜索,检索最相关的蛋白质序列家族信息。具体的参数设置和训练策略未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
PoET-2在零样本变异效应预测方面取得了最先进的性能,尤其擅长对具有多个突变和具有挑战性的插入缺失突变进行评分。在监督设置中,PoET-2嵌入优于先前的序列-功能关系学习方法,尤其是在小数据集上,表明其具有更强的泛化能力和数据效率。具体的性能提升幅度未在摘要中给出,属于未知信息。
🎯 应用场景
PoET-2在蛋白质工程、药物发现和个性化医疗等领域具有广泛的应用前景。它可以用于预测突变对蛋白质功能的影响,从而指导蛋白质的理性设计和优化。此外,PoET-2还可以用于识别新的药物靶点和开发个性化的治疗方案,为疾病的治疗提供新的思路。
📄 摘要(原文)
Protein language models (PLMs) learn probability distributions over natural protein sequences. By learning from hundreds of millions of natural protein sequences, protein understanding and design capabilities emerge. Recent works have shown that scaling these models improves structure prediction, but does not seem to improve mutation understanding and representation quality for protein function prediction. We introduce PoET-2, a multimodal, retrieval-augmented protein foundation model that incorporates in-context learning of family-specific evolutionary constraints with optional structure conditioning to learn generative distributions over protein sequences. PoET-2 uses a hierarchical transformer encoder that is equivariant to sequence context ordering and a dual decoder architecture with both causal and masked language modeling objectives, allowing PoET-2 to operate in both fully generative and bidirectional representation learning modes. PoET-2 achieves state-of-the-art performance on zero-shot variant effect prediction, excelling at scoring variants with multiple mutations and challenging indel mutations. In supervised settings, PoET-2 embeddings outperform previous methods for learning sequence-function relationships, especially with small datasets. This work highlights the benefits of combining retrieval augmentation with multimodal, family-centric modeling for advancing protein foundation models.