Atom-level Protein Representation Learning Improves Protein Structure Prediction

📄 arXiv: 2605.22133v1 📥 PDF

作者: Taewon Kim, Hyosoon Jang, Hyunjin Seo, Seonghwan Seo, Hyeongwoo Kim, Wonho Zhung, Mingyeong Shin, Wooyoun Kim, Sungsoo Ahn

分类: q-bio.BM, cs.AI

发布日期: 2026-05-21


💡 一句话要点

提出TriProRep,通过原子级蛋白质表征学习提升蛋白质结构预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 蛋白质结构预测 表征学习 预训练 原子级建模 VQ-VAE

📋 核心要点

  1. 现有方法在蛋白质结构预测中,对蛋白质表征的利用不足,尤其是在结构信息方面。
  2. TriProRep通过联合建模氨基酸身份、骨架几何结构和局部全原子几何结构,学习结构感知的蛋白质表征。
  3. 实验表明,TriProRep在同源二聚体共折叠、相互作用性质预测和单体结构预测等任务中均有提升。

📝 摘要(中文)

本文提出了一种结构感知的预训练方法TriProRep,用于学习蛋白质表征,以提升蛋白质结构预测能力。TriProRep联合建模三个对齐的残基级别视图:氨基酸身份、骨架几何结构和局部全原子几何结构,并通过VQ-VAE分词器进行离散编码。通过预训练从生成器损坏的视图中恢复原始token,TriProRep学习区分合理但错误的跨视图增强与原始蛋白质。此外,本文还提出了RepSP基准,用于评估结构预测设置中的蛋白质表征。RepSP测试了表征的三种用途:来自Apo链表征的同源二聚体共折叠、同源二聚体衍生相互作用性质的残基级别预测以及表征对齐的单体结构预测。在这些任务中,TriProRep优于仅序列和先前的结构感知表征模型,同时在传统基准上保持了竞争性能。

🔬 方法详解

问题定义:蛋白质结构预测是生物信息学中的一个核心问题。现有方法在利用蛋白质序列信息方面已经取得了显著进展,但对蛋白质结构信息的有效利用仍然是一个挑战。尤其是在预测蛋白质复合物结构和相互作用性质时,如何从单体蛋白质的表征中提取有用的结构信息是一个痛点。

核心思路:本文的核心思路是通过预训练的方式,让模型学习到蛋白质的结构信息。具体来说,模型需要能够从蛋白质的不同视图(氨基酸序列、骨架几何结构、全原子几何结构)中学习到一致的表征,并且能够从被破坏的视图中恢复原始信息。这样,模型就能够更好地理解蛋白质的结构,从而提升结构预测的准确性。

技术框架:TriProRep的整体框架包括三个主要部分:VQ-VAE分词器、生成器和判别器。首先,使用VQ-VAE将蛋白质的三个视图(氨基酸序列、骨架几何结构、全原子几何结构)离散化为token序列。然后,生成器负责从被破坏的视图中恢复原始token。最后,判别器负责区分原始蛋白质和经过增强的蛋白质。通过对抗训练,模型能够学习到鲁棒的蛋白质表征。

关键创新:TriProRep的关键创新在于它联合建模了蛋白质的三个不同视图,并且使用了VQ-VAE进行离散化。这种方法能够有效地捕捉蛋白质的结构信息,并且能够学习到鲁棒的蛋白质表征。此外,RepSP基准的提出也为评估蛋白质表征在结构预测任务中的性能提供了一个新的平台。

关键设计:TriProRep使用了Transformer作为生成器和判别器的基本架构。VQ-VAE的码本大小设置为32,以平衡表征的精度和计算复杂度。损失函数包括重构损失和对抗损失,用于训练生成器和判别器。在预训练阶段,使用随机masking和视图dropout等数据增强技术来提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TriProRep在RepSP基准的三个任务上均取得了显著的提升。在同源二聚体共折叠任务中,TriProRep的性能优于仅序列和先前的结构感知表征模型。在相互作用性质预测任务中,TriProRep也取得了最高的准确率。此外,TriProRep在单体结构预测任务中也表现出色,证明了其学习到的蛋白质表征具有很强的泛化能力。

🎯 应用场景

该研究成果可应用于蛋白质结构预测、蛋白质-蛋白质相互作用预测、药物设计等领域。通过提升蛋白质结构预测的准确性,可以加速新药的研发过程,并帮助我们更好地理解生命过程的分子机制。未来,该方法可以扩展到其他生物分子,如RNA和DNA,从而更全面地理解生物系统的复杂性。

📄 摘要(原文)

Recent advances in generative modeling show that pretrained representations can improve generation as conditioning features or alignment targets. Motivated by this, we study protein representations for predicting structures beyond conventional function annotation. We propose TriProRep, a structure-aware pretraining method that jointly models three aligned residue-level views: amino-acid identity, backbone geometry, and local full-atom geometry, discretely encoded via VQ-VAE tokenizers. By pretraining to recover original tokens from generator-corrupted views, TriProRep learns to distinguish plausible but incorrect cross-view augmentations from the original protein. We further introduce RepSP, a benchmark for evaluating protein representations in structure-predictive settings. RepSP tests three uses of representations: homodimer co-folding from apo-chain representations, residue-level prediction of homodimer-derived interaction properties, and representation-aligned monomer structure prediction. Across these tasks, TriProRep improves over sequence-only and prior structure-aware representation models, while maintaining competitive performance on conventional benchmarks.