S$^2$ALM: Sequence-Structure Pre-trained Large Language Model for Comprehensive Antibody Representation Learning
作者: Mingze Yin, Hanjing Zhou, Jialu Wu, Yiheng Zhu, Yuxuan Zhan, Zitai Kong, Hongxia Xu, Chang-Yu Hsieh, Jintai Chen, Tingjun Hou, Jian Wu
分类: cs.LG, cs.AI, q-bio.BM
发布日期: 2024-11-20
💡 一句话要点
提出S$^2$ALM,融合序列与结构信息,用于全面抗体表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 抗体表征学习 序列结构融合 预训练语言模型 抗体药物开发 生物医学信息学
📋 核心要点
- 现有抗体模型缺乏对抗体结构信息的显式考虑,而序列和结构信息对抗体行为和功能具有互补作用。
- S$^2$ALM通过序列-结构多层次预训练,结合序列和结构信息,构建统一的抗体基础模型。
- S$^2$ALM在抗原-抗体结合亲和力预测、B细胞成熟阶段区分等任务上超越现有模型,达到SOTA。
📝 摘要(中文)
本文提出了一种序列-结构多层次预训练抗体语言模型(S$^2$ALM),旨在结合整体序列和结构信息,构建一个统一的、通用的抗体基础模型。该模型采用分层预训练范式,并结合两个定制的多层次训练目标,以促进全面抗体表征的建模。S$^2$ALM的表征空间揭示了内在的功能结合机制、生物进化特性和结构相互作用模式。该模型在超过7500万个序列和1170万个结构上进行了预训练,可用于多种下游任务,包括准确预测抗原-抗体结合亲和力、精确区分B细胞成熟阶段、识别抗体关键结合位置以及特异性设计新型冠状病毒结合抗体。S$^2$ALM优于已建立的基线模型,并在广泛的抗体特定理解和生成任务中取得了新的最先进性能。S$^2$ALM建模全面和通用表征的能力进一步奠定了其在推进现实世界治疗性抗体开发方面的潜力,有望满足学术界、工业界和临床需求。
🔬 方法详解
问题定义:现有抗体特定模型主要关注序列信息,忽略了抗体结构信息,而抗体的三维结构对其功能至关重要。因此,如何有效地融合序列和结构信息,从而更全面地理解和表征抗体,是一个亟待解决的问题。现有方法无法充分利用结构信息带来的独特视角,限制了模型在下游任务中的表现。
核心思路:S$^2$ALM的核心思路是将抗体的序列信息和结构信息进行有效融合,通过多层次的预训练目标,学习到更全面、更具表达能力的抗体表征。这种融合使得模型能够同时理解抗体的线性序列特征和空间结构特征,从而更好地捕捉抗体的功能和行为。
技术框架:S$^2$ALM采用分层预训练范式,包含以下主要阶段:1) 数据准备:收集大量的抗体序列和结构数据。2) 序列预训练:利用抗体序列数据进行预训练,学习序列层面的特征。3) 结构预训练:利用抗体结构数据进行预训练,学习结构层面的特征。4) 序列-结构联合预训练:同时利用序列和结构数据进行联合预训练,学习序列和结构之间的关联。5) 下游任务微调:将预训练好的模型应用于各种下游任务,如抗原-抗体结合亲和力预测、B细胞成熟阶段区分等。
关键创新:S$^2$ALM的关键创新在于其多层次的预训练目标和序列-结构信息的融合方式。具体来说,模型设计了两个定制的多层次训练目标,以促进全面抗体表征的建模。此外,模型还采用了特定的网络结构,以有效地融合序列和结构信息。
关键设计:S$^2$ALM的关键设计包括:1) 多层次预训练目标:包括序列掩码预测、结构距离预测等。2) 序列-结构融合模块:用于将序列特征和结构特征进行融合。3) 大规模数据集:使用超过7500万个序列和1170万个结构进行预训练。4) 模型参数规模:采用了较大规模的模型参数,以提高模型的表达能力。
🖼️ 关键图片
📊 实验亮点
S$^2$ALM在多个抗体特定任务上取得了显著的性能提升。例如,在抗原-抗体结合亲和力预测任务中,S$^2$ALM的性能优于现有基线模型,包括传统的机器学习方法和基于序列的深度学习模型。此外,S$^2$ALM在B细胞成熟阶段区分、抗体关键结合位置识别等任务中也取得了state-of-the-art的结果。在新型冠状病毒结合抗体设计任务中,S$^2$ALM能够生成具有良好结合能力的抗体序列。
🎯 应用场景
S$^2$ALM在治疗性抗体开发领域具有广泛的应用前景,可用于抗体药物的发现、优化和设计。例如,可以利用S$^2$ALM预测抗体与靶标的结合亲和力,从而筛选出具有高亲和力的抗体候选药物。此外,S$^2$ALM还可以用于设计新型抗体,例如针对新型冠状病毒的抗体,从而应对突发疫情。该研究有望加速抗体药物的研发进程,降低研发成本,并最终改善患者的治疗效果。
📄 摘要(原文)
Antibodies safeguard our health through their precise and potent binding to specific antigens, demonstrating promising therapeutic efficacy in the treatment of numerous diseases, including COVID-19. Recent advancements in biomedical language models have shown the great potential to interpret complex biological structures and functions. However, existing antibody specific models have a notable limitation that they lack explicit consideration for antibody structural information, despite the fact that both 1D sequence and 3D structure carry unique and complementary insights into antibody behavior and functionality. This paper proposes Sequence-Structure multi-level pre-trained Antibody Language Model (S$^2$ALM), combining holistic sequential and structural information in one unified, generic antibody foundation model. We construct a hierarchical pre-training paradigm incorporated with two customized multi-level training objectives to facilitate the modeling of comprehensive antibody representations. S$^2$ALM's representation space uncovers inherent functional binding mechanisms, biological evolution properties and structural interaction patterns. Pre-trained over 75 million sequences and 11.7 million structures, S$^2$ALM can be adopted for diverse downstream tasks: accurately predicting antigen-antibody binding affinities, precisely distinguishing B cell maturation stages, identifying antibody crucial binding positions, and specifically designing novel coronavirus-binding antibodies. Remarkably, S$^2$ALM outperforms well-established and renowned baselines and sets new state-of-the-art performance across extensive antibody specific understanding and generation tasks. S$^2$ALM's ability to model comprehensive and generalized representations further positions its potential to advance real-world therapeutic antibody development, potentially addressing unmet academic, industrial, and clinical needs.